AbstractPhil commited on
Commit
dd0843f
·
verified ·
1 Parent(s): fc29ddb

Create cv_sweep_mha_output.txt

Browse files
Files changed (1) hide show
  1. cv_sweep_mha_output.txt +1413 -0
cv_sweep_mha_output.txt ADDED
@@ -0,0 +1,1413 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ MHA CV Relational Test — Prototype
2
+ Band: 0.13 < CV < 0.30
3
+
4
+ ======================================================================
5
+ D=64 heads=1 head_dim=64
6
+ ======================================================================
7
+
8
+ [pre-train]
9
+ emb : *0.1585*
10
+ Q_full : *0.1350*
11
+ K_full : *0.1313*
12
+ V_full : 0.1228
13
+ Q_h0 : *0.1313*
14
+ K_h0 : *0.1311*
15
+ V_h0 : *0.1399*
16
+ out_proj : 0.1123
17
+ cls_head : 0.0680
18
+ act_Q_h0 : 0.3437
19
+ act_K_h0 : 0.3364
20
+ act_V_h0 : 0.3227
21
+ act_post_h0 : *0.2838*
22
+ act_emb : *0.2821*
23
+ act_post_full : 0.3208
24
+
25
+ [epoch 25] loss=1.2333 acc=96.80%
26
+ emb : *0.1588*
27
+ Q_full : *0.1345*
28
+ K_full : *0.1327*
29
+ V_full : *0.1322*
30
+ Q_h0 : 0.1242
31
+ K_h0 : *0.1313*
32
+ V_h0 : 0.1238
33
+ out_proj : *0.1365*
34
+ cls_head : 0.1026
35
+ act_Q_h0 : 0.3933
36
+ act_K_h0 : 0.3881
37
+ act_V_h0 : 0.3043
38
+ act_post_h0 : *0.2560*
39
+ act_emb : *0.2868*
40
+ act_post_full : *0.2549*
41
+
42
+ [post-train] loss=0.3196 acc=98.80%
43
+ emb : *0.1549* Δ=-0.0035
44
+ Q_full : *0.1352* Δ=+0.0001
45
+ K_full : *0.1453* Δ=+0.0139
46
+ V_full : 0.1219 Δ=-0.0009
47
+ Q_h0 : 0.1268 Δ=-0.0045
48
+ K_h0 : *0.1374* Δ=+0.0063
49
+ V_h0 : 0.1263 Δ=-0.0136
50
+ out_proj : *0.1486* Δ=+0.0362
51
+ cls_head : 0.0975 Δ=+0.0295
52
+ act_Q_h0 : 0.3235 Δ=-0.0201
53
+ act_K_h0 : 0.4174 Δ=+0.0810
54
+ act_V_h0 : 0.4063 Δ=+0.0836
55
+ act_post_h0 : 0.3038 Δ=+0.0199
56
+ act_emb : *0.2970* Δ=+0.0149
57
+ act_post_full : 0.3234 Δ=+0.0026
58
+
59
+ ======================================================================
60
+ D=64 heads=2 head_dim=32
61
+ ======================================================================
62
+
63
+ [pre-train]
64
+ emb : *0.1585*
65
+ Q_full : *0.1350*
66
+ K_full : *0.1313*
67
+ V_full : 0.1228
68
+ Q_h0 : 0.1180
69
+ K_h0 : 0.1152
70
+ V_h0 : *0.1331*
71
+ Q_h1 : 0.1260
72
+ K_h1 : *0.1424*
73
+ V_h1 : 0.1086
74
+ out_proj : 0.1293
75
+ cls_head : 0.0703
76
+ act_Q_h0 : 0.3661
77
+ act_K_h0 : 0.3481
78
+ act_V_h0 : 0.3632
79
+ act_post_h0 : 0.3995
80
+ act_Q_h1 : 0.3431
81
+ act_K_h1 : 0.3838
82
+ act_V_h1 : 0.3669
83
+ act_post_h1 : 0.4001
84
+ act_emb : *0.2314*
85
+ act_post_full : *0.2782*
86
+
87
+ [epoch 25] loss=1.2451 acc=97.80%
88
+ emb : *0.1592*
89
+ Q_full : *0.1306*
90
+ K_full : *0.1376*
91
+ V_full : *0.1304*
92
+ Q_h0 : *0.1305*
93
+ K_h0 : 0.1205
94
+ V_h0 : 0.1248
95
+ Q_h1 : 0.1289
96
+ K_h1 : *0.1314*
97
+ V_h1 : 0.1205
98
+ out_proj : 0.1271
99
+ cls_head : 0.1026
100
+ act_Q_h0 : 0.4112
101
+ act_K_h0 : 0.3448
102
+ act_V_h0 : 0.3660
103
+ act_post_h0 : 0.3506
104
+ act_Q_h1 : 0.3511
105
+ act_K_h1 : 0.3286
106
+ act_V_h1 : 0.4482
107
+ act_post_h1 : 0.3415
108
+ act_emb : 0.3138
109
+ act_post_full : *0.2861*
110
+
111
+ [post-train] loss=0.3067 acc=99.20%
112
+ emb : *0.1606* Δ=+0.0021
113
+ Q_full : 0.1187 Δ=-0.0163
114
+ K_full : *0.1422* Δ=+0.0108
115
+ V_full : 0.1286 Δ=+0.0058
116
+ Q_h0 : 0.1244 Δ=+0.0065
117
+ K_h0 : *0.1363* Δ=+0.0211
118
+ V_h0 : *0.1412* Δ=+0.0081
119
+ Q_h1 : 0.1234 Δ=-0.0026
120
+ K_h1 : *0.1420* Δ=-0.0004
121
+ V_h1 : *0.1333* Δ=+0.0247
122
+ out_proj : *0.1468* Δ=+0.0175
123
+ cls_head : 0.0908 Δ=+0.0205
124
+ act_Q_h0 : 0.3814 Δ=+0.0153
125
+ act_K_h0 : 0.4524 Δ=+0.1042
126
+ act_V_h0 : 0.4259 Δ=+0.0627
127
+ act_post_h0 : 0.3327 Δ=-0.0669
128
+ act_Q_h1 : 0.4036 Δ=+0.0605
129
+ act_K_h1 : 0.4540 Δ=+0.0701
130
+ act_V_h1 : 0.4934 Δ=+0.1265
131
+ act_post_h1 : 0.3545 Δ=-0.0456
132
+ act_emb : *0.2472* Δ=+0.0158
133
+ act_post_full : *0.2776* Δ=-0.0006
134
+
135
+ ======================================================================
136
+ D=64 heads=4 head_dim=16
137
+ ======================================================================
138
+
139
+ [pre-train]
140
+ emb : *0.1585*
141
+ Q_full : *0.1350*
142
+ K_full : *0.1313*
143
+ V_full : 0.1228
144
+ Q_h0 : 0.0998
145
+ K_h0 : 0.1173
146
+ V_h0 : *0.1446*
147
+ Q_h1 : 0.1092
148
+ K_h1 : 0.1076
149
+ V_h1 : 0.1237
150
+ Q_h2 : 0.1096
151
+ K_h2 : 0.1164
152
+ V_h2 : 0.0922
153
+ Q_h3 : *0.1306*
154
+ K_h3 : 0.1286
155
+ V_h3 : 0.1043
156
+ out_proj : 0.1263
157
+ cls_head : 0.0687
158
+ act_Q_h0 : 0.4522
159
+ act_K_h0 : 0.4437
160
+ act_V_h0 : 0.5482
161
+ act_post_h0 : 0.4707
162
+ act_Q_h1 : 0.4953
163
+ act_K_h1 : 0.5016
164
+ act_V_h1 : 0.3824
165
+ act_post_h1 : 0.4986
166
+ act_Q_h2 : 0.4539
167
+ act_K_h2 : 0.4482
168
+ act_V_h2 : 0.4898
169
+ act_post_h2 : 0.4971
170
+ act_Q_h3 : 0.4894
171
+ act_K_h3 : 0.4595
172
+ act_V_h3 : 0.4272
173
+ act_post_h3 : 0.4833
174
+ act_emb : *0.2194*
175
+ act_post_full : 0.3495
176
+
177
+ [epoch 25] loss=1.2531 acc=97.60%
178
+ emb : *0.1679*
179
+ Q_full : 0.1181
180
+ K_full : 0.1263
181
+ V_full : *0.1367*
182
+ Q_h0 : 0.1098
183
+ K_h0 : 0.1103
184
+ V_h0 : *0.1683*
185
+ Q_h1 : 0.1075
186
+ K_h1 : 0.1100
187
+ V_h1 : 0.0915
188
+ Q_h2 : 0.0976
189
+ K_h2 : 0.1104
190
+ V_h2 : 0.0889
191
+ Q_h3 : 0.1273
192
+ K_h3 : *0.1371*
193
+ V_h3 : 0.1202
194
+ out_proj : *0.1366*
195
+ cls_head : 0.0992
196
+ act_Q_h0 : 0.4341
197
+ act_K_h0 : 0.5047
198
+ act_V_h0 : 0.4410
199
+ act_post_h0 : 0.4073
200
+ act_Q_h1 : 0.4890
201
+ act_K_h1 : 0.4802
202
+ act_V_h1 : 0.4857
203
+ act_post_h1 : 0.4622
204
+ act_Q_h2 : 0.5123
205
+ act_K_h2 : 0.4912
206
+ act_V_h2 : 0.4541
207
+ act_post_h2 : 0.4602
208
+ act_Q_h3 : 0.4813
209
+ act_K_h3 : 0.4718
210
+ act_V_h3 : 0.4958
211
+ act_post_h3 : 0.4196
212
+ act_emb : *0.2642*
213
+ act_post_full : *0.2649*
214
+
215
+ [post-train] loss=0.2989 acc=99.20%
216
+ emb : *0.1567* Δ=-0.0017
217
+ Q_full : *0.1315* Δ=-0.0035
218
+ K_full : 0.1298 Δ=-0.0016
219
+ V_full : *0.1379* Δ=+0.0151
220
+ Q_h0 : 0.1006 Δ=+0.0009
221
+ K_h0 : 0.1167 Δ=-0.0006
222
+ V_h0 : *0.1766* Δ=+0.0320
223
+ Q_h1 : 0.1134 Δ=+0.0041
224
+ K_h1 : 0.1107 Δ=+0.0031
225
+ V_h1 : 0.0841 Δ=-0.0396
226
+ Q_h2 : 0.0947 Δ=-0.0149
227
+ K_h2 : 0.1163 Δ=-0.0000
228
+ V_h2 : 0.1073 Δ=+0.0152
229
+ Q_h3 : 0.1204 Δ=-0.0102
230
+ K_h3 : *0.1500* Δ=+0.0213
231
+ V_h3 : *0.1345* Δ=+0.0301
232
+ out_proj : *0.1462* Δ=+0.0199
233
+ cls_head : 0.0860 Δ=+0.0173
234
+ act_Q_h0 : 0.4820 Δ=+0.0298
235
+ act_K_h0 : 0.7037 Δ=+0.2600
236
+ act_V_h0 : 0.5344 Δ=-0.0138
237
+ act_post_h0 : 0.4416 Δ=-0.0291
238
+ act_Q_h1 : 0.4690 Δ=-0.0262
239
+ act_K_h1 : 0.5742 Δ=+0.0727
240
+ act_V_h1 : 0.5218 Δ=+0.1395
241
+ act_post_h1 : 0.4225 Δ=-0.0761
242
+ act_Q_h2 : 0.4463 Δ=-0.0075
243
+ act_K_h2 : 0.5095 Δ=+0.0613
244
+ act_V_h2 : 0.5113 Δ=+0.0215
245
+ act_post_h2 : 0.4471 Δ=-0.0499
246
+ act_Q_h3 : 0.4629 Δ=-0.0266
247
+ act_K_h3 : 0.5813 Δ=+0.1218
248
+ act_V_h3 : 0.6012 Δ=+0.1740
249
+ act_post_h3 : 0.4323 Δ=-0.0510
250
+ act_emb : *0.2520* Δ=+0.0326
251
+ act_post_full : 0.3062 Δ=-0.0432
252
+
253
+ ======================================================================
254
+ D=64 heads=8 head_dim=8
255
+ ======================================================================
256
+
257
+ [pre-train]
258
+ emb : *0.1585*
259
+ Q_full : *0.1350*
260
+ K_full : *0.1313*
261
+ V_full : 0.1228
262
+ Q_h0 : 0.0694
263
+ K_h0 : 0.0934
264
+ V_h0 : 0.1261
265
+ Q_h1 : 0.0619
266
+ K_h1 : 0.1018
267
+ V_h1 : 0.0939
268
+ Q_h2 : 0.1182
269
+ K_h2 : 0.0980
270
+ V_h2 : *0.1443*
271
+ Q_h3 : 0.0854
272
+ K_h3 : 0.0866
273
+ V_h3 : 0.0803
274
+ Q_h4 : 0.0612
275
+ K_h4 : 0.1197
276
+ V_h4 : 0.0771
277
+ Q_h5 : 0.0861
278
+ K_h5 : 0.0687
279
+ V_h5 : 0.0657
280
+ Q_h6 : 0.0997
281
+ K_h6 : 0.1160
282
+ V_h6 : 0.0524
283
+ Q_h7 : 0.0983
284
+ K_h7 : 0.1085
285
+ V_h7 : 0.0883
286
+ out_proj : 0.1126
287
+ cls_head : 0.0735
288
+ act_Q_h0 : 0.6606
289
+ act_K_h0 : 0.6856
290
+ act_V_h0 : 0.6908
291
+ act_post_h0 : 0.6642
292
+ act_Q_h1 : 0.5708
293
+ act_K_h1 : 0.6494
294
+ act_V_h1 : 0.6959
295
+ act_post_h1 : 0.6560
296
+ act_Q_h2 : 0.6801
297
+ act_K_h2 : 0.5906
298
+ act_V_h2 : 0.6551
299
+ act_post_h2 : 0.6293
300
+ act_Q_h3 : 0.7066
301
+ act_K_h3 : 0.6817
302
+ act_V_h3 : 0.5788
303
+ act_post_h3 : 0.6498
304
+ act_Q_h4 : 0.6421
305
+ act_K_h4 : 0.5805
306
+ act_V_h4 : 0.7499
307
+ act_post_h4 : 0.7199
308
+ act_Q_h5 : 0.6613
309
+ act_K_h5 : 0.6280
310
+ act_V_h5 : 0.6979
311
+ act_post_h5 : 0.5790
312
+ act_Q_h6 : 0.7152
313
+ act_K_h6 : 0.6223
314
+ act_V_h6 : 0.5662
315
+ act_post_h6 : 0.7522
316
+ act_Q_h7 : 0.7077
317
+ act_K_h7 : 0.6821
318
+ act_V_h7 : 0.6357
319
+ act_post_h7 : 0.6675
320
+ act_emb : *0.2789*
321
+ act_post_full : 0.3142
322
+
323
+ [epoch 25] loss=1.2544 acc=97.40%
324
+ emb : *0.1584*
325
+ Q_full : 0.1223
326
+ K_full : *0.1324*
327
+ V_full : 0.1223
328
+ Q_h0 : 0.0789
329
+ K_h0 : 0.1101
330
+ V_h0 : 0.1208
331
+ Q_h1 : 0.0569
332
+ K_h1 : 0.1061
333
+ V_h1 : 0.1023
334
+ Q_h2 : 0.1134
335
+ K_h2 : 0.1126
336
+ V_h2 : 0.1255
337
+ Q_h3 : 0.0818
338
+ K_h3 : 0.0666
339
+ V_h3 : 0.0566
340
+ Q_h4 : 0.0882
341
+ K_h4 : 0.1170
342
+ V_h4 : 0.0816
343
+ Q_h5 : 0.0915
344
+ K_h5 : 0.0791
345
+ V_h5 : 0.0437
346
+ Q_h6 : 0.0886
347
+ K_h6 : 0.1118
348
+ V_h6 : 0.0766
349
+ Q_h7 : 0.0995
350
+ K_h7 : 0.0995
351
+ V_h7 : 0.0974
352
+ out_proj : *0.1333*
353
+ cls_head : 0.0870
354
+ act_Q_h0 : 0.6729
355
+ act_K_h0 : 0.7706
356
+ act_V_h0 : 0.6221
357
+ act_post_h0 : 0.6544
358
+ act_Q_h1 : 0.6225
359
+ act_K_h1 : 0.6182
360
+ act_V_h1 : 0.6973
361
+ act_post_h1 : 0.5974
362
+ act_Q_h2 : 0.6636
363
+ act_K_h2 : 0.6741
364
+ act_V_h2 : 0.6922
365
+ act_post_h2 : 0.6200
366
+ act_Q_h3 : 0.6775
367
+ act_K_h3 : 0.5720
368
+ act_V_h3 : 0.6252
369
+ act_post_h3 : 0.5886
370
+ act_Q_h4 : 0.7807
371
+ act_K_h4 : 0.6466
372
+ act_V_h4 : 0.7026
373
+ act_post_h4 : 0.5743
374
+ act_Q_h5 : 0.6768
375
+ act_K_h5 : 0.6645
376
+ act_V_h5 : 0.7087
377
+ act_post_h5 : 0.5914
378
+ act_Q_h6 : 0.7016
379
+ act_K_h6 : 0.6182
380
+ act_V_h6 : 0.6397
381
+ act_post_h6 : 0.6251
382
+ act_Q_h7 : 0.7743
383
+ act_K_h7 : 0.6632
384
+ act_V_h7 : 0.8837
385
+ act_post_h7 : 0.6026
386
+ act_emb : *0.2612*
387
+ act_post_full : *0.2900*
388
+
389
+ [post-train] loss=0.3035 acc=99.60%
390
+ emb : *0.1581* Δ=-0.0003
391
+ Q_full : *0.1435* Δ=+0.0084
392
+ K_full : *0.1356* Δ=+0.0043
393
+ V_full : *0.1340* Δ=+0.0112
394
+ Q_h0 : 0.0821 Δ=+0.0127
395
+ K_h0 : 0.1160 Δ=+0.0227
396
+ V_h0 : *0.1440* Δ=+0.0179
397
+ Q_h1 : 0.0821 Δ=+0.0202
398
+ K_h1 : 0.1012 Δ=-0.0007
399
+ V_h1 : *0.1403* Δ=+0.0464
400
+ Q_h2 : *0.1425* Δ=+0.0243
401
+ K_h2 : 0.1203 Δ=+0.0223
402
+ V_h2 : 0.1127 Δ=-0.0316
403
+ Q_h3 : 0.0924 Δ=+0.0070
404
+ K_h3 : 0.0549 Δ=-0.0318
405
+ V_h3 : 0.0873 Δ=+0.0070
406
+ Q_h4 : 0.1184 Δ=+0.0572
407
+ K_h4 : *0.1373* Δ=+0.0176
408
+ V_h4 : 0.1121 Δ=+0.0350
409
+ Q_h5 : 0.1142 Δ=+0.0280
410
+ K_h5 : 0.0933 Δ=+0.0245
411
+ V_h5 : 0.0526 Δ=-0.0131
412
+ Q_h6 : 0.0734 Δ=-0.0263
413
+ K_h6 : 0.1188 Δ=+0.0028
414
+ V_h6 : 0.1089 Δ=+0.0565
415
+ Q_h7 : 0.1029 Δ=+0.0046
416
+ K_h7 : 0.1149 Δ=+0.0064
417
+ V_h7 : 0.1174 Δ=+0.0291
418
+ out_proj : *0.1499* Δ=+0.0373
419
+ cls_head : 0.0871 Δ=+0.0136
420
+ act_Q_h0 : 0.6476 Δ=-0.0129
421
+ act_K_h0 : 0.7738 Δ=+0.0882
422
+ act_V_h0 : 0.6295 Δ=-0.0613
423
+ act_post_h0 : 0.5934 Δ=-0.0708
424
+ act_Q_h1 : 0.6173 Δ=+0.0465
425
+ act_K_h1 : 0.7647 Δ=+0.1153
426
+ act_V_h1 : 0.7091 Δ=+0.0132
427
+ act_post_h1 : 0.6693 Δ=+0.0133
428
+ act_Q_h2 : 0.6804 Δ=+0.0003
429
+ act_K_h2 : 0.6667 Δ=+0.0761
430
+ act_V_h2 : 0.7038 Δ=+0.0487
431
+ act_post_h2 : 0.5798 Δ=-0.0495
432
+ act_Q_h3 : 0.7128 Δ=+0.0062
433
+ act_K_h3 : 0.6496 Δ=-0.0321
434
+ act_V_h3 : 0.7360 Δ=+0.1572
435
+ act_post_h3 : 0.6423 Δ=-0.0075
436
+ act_Q_h4 : 0.7083 Δ=+0.0663
437
+ act_K_h4 : 0.7348 Δ=+0.1543
438
+ act_V_h4 : 0.7565 Δ=+0.0066
439
+ act_post_h4 : 0.5993 Δ=-0.1206
440
+ act_Q_h5 : 0.7219 Δ=+0.0606
441
+ act_K_h5 : 0.6785 Δ=+0.0505
442
+ act_V_h5 : 0.6663 Δ=-0.0317
443
+ act_post_h5 : 0.6103 Δ=+0.0313
444
+ act_Q_h6 : 0.6525 Δ=-0.0627
445
+ act_K_h6 : 0.6987 Δ=+0.0764
446
+ act_V_h6 : 0.6632 Δ=+0.0970
447
+ act_post_h6 : 0.6484 Δ=-0.1038
448
+ act_Q_h7 : 0.6907 Δ=-0.0170
449
+ act_K_h7 : 0.8215 Δ=+0.1394
450
+ act_V_h7 : 0.7420 Δ=+0.1063
451
+ act_post_h7 : 0.6306 Δ=-0.0369
452
+ act_emb : *0.2874* Δ=+0.0085
453
+ act_post_full : 0.3153 Δ=+0.0011
454
+
455
+ ======================================================================
456
+ D=128 heads=1 head_dim=128
457
+ ======================================================================
458
+
459
+ [pre-train]
460
+ emb : 0.1091
461
+ Q_full : 0.0876
462
+ K_full : 0.0966
463
+ V_full : 0.0937
464
+ Q_h0 : 0.0932
465
+ K_h0 : 0.0978
466
+ V_h0 : 0.1038
467
+ out_proj : 0.0984
468
+ cls_head : 0.0760
469
+ act_Q_h0 : *0.2689*
470
+ act_K_h0 : *0.2891*
471
+ act_V_h0 : *0.2793*
472
+ act_post_h0 : 0.3261
473
+ act_emb : *0.1850*
474
+ act_post_full : 0.3085
475
+
476
+ [epoch 25] loss=0.2378 acc=99.60%
477
+ emb : 0.1124
478
+ Q_full : 0.0901
479
+ K_full : 0.1035
480
+ V_full : 0.0905
481
+ Q_h0 : 0.1002
482
+ K_h0 : 0.1038
483
+ V_h0 : 0.0941
484
+ out_proj : 0.1027
485
+ cls_head : 0.0717
486
+ act_Q_h0 : *0.2432*
487
+ act_K_h0 : 0.3902
488
+ act_V_h0 : 0.3450
489
+ act_post_h0 : *0.2937*
490
+ act_emb : *0.2174*
491
+ act_post_full : 0.3116
492
+
493
+ [post-train] loss=0.0300 acc=100.00%
494
+ emb : 0.1082 Δ=-0.0009
495
+ Q_full : 0.1000 Δ=+0.0124
496
+ K_full : 0.1068 Δ=+0.0102
497
+ V_full : 0.1045 Δ=+0.0108
498
+ Q_h0 : 0.1058 Δ=+0.0125
499
+ K_h0 : 0.1046 Δ=+0.0067
500
+ V_h0 : 0.1070 Δ=+0.0032
501
+ out_proj : 0.1207 Δ=+0.0223
502
+ cls_head : 0.0567 Δ=-0.0193
503
+ act_Q_h0 : 0.3359 Δ=+0.0670
504
+ act_K_h0 : 0.3848 Δ=+0.0958
505
+ act_V_h0 : 0.4073 Δ=+0.1280
506
+ act_post_h0 : 0.3733 Δ=+0.0472
507
+ act_emb : *0.1913* Δ=+0.0063
508
+ act_post_full : 0.3908 Δ=+0.0823
509
+
510
+ ======================================================================
511
+ D=128 heads=2 head_dim=64
512
+ ======================================================================
513
+
514
+ [pre-train]
515
+ emb : 0.1091
516
+ Q_full : 0.0876
517
+ K_full : 0.0966
518
+ V_full : 0.0937
519
+ Q_h0 : 0.0838
520
+ K_h0 : 0.0998
521
+ V_h0 : 0.0970
522
+ Q_h1 : 0.0834
523
+ K_h1 : 0.0872
524
+ V_h1 : 0.0889
525
+ out_proj : 0.0980
526
+ cls_head : 0.0792
527
+ act_Q_h0 : 0.3140
528
+ act_K_h0 : *0.2951*
529
+ act_V_h0 : 0.3080
530
+ act_post_h0 : 0.3614
531
+ act_Q_h1 : 0.3303
532
+ act_K_h1 : 0.3157
533
+ act_V_h1 : *0.2825*
534
+ act_post_h1 : 0.3438
535
+ act_emb : *0.2059*
536
+ act_post_full : *0.2874*
537
+
538
+ [epoch 25] loss=0.2221 acc=99.60%
539
+ emb : 0.1133
540
+ Q_full : 0.0921
541
+ K_full : 0.0978
542
+ V_full : 0.1024
543
+ Q_h0 : 0.0965
544
+ K_h0 : 0.1039
545
+ V_h0 : 0.0899
546
+ Q_h1 : 0.0880
547
+ K_h1 : 0.0931
548
+ V_h1 : 0.0916
549
+ out_proj : 0.0980
550
+ cls_head : 0.0657
551
+ act_Q_h0 : *0.2908*
552
+ act_K_h0 : 0.3994
553
+ act_V_h0 : 0.3750
554
+ act_post_h0 : 0.3333
555
+ act_Q_h1 : 0.3113
556
+ act_K_h1 : 0.4043
557
+ act_V_h1 : 0.4421
558
+ act_post_h1 : *0.2752*
559
+ act_emb : *0.2419*
560
+ act_post_full : *0.2997*
561
+
562
+ [post-train] loss=0.0202 acc=100.00%
563
+ emb : 0.1077 Δ=-0.0014
564
+ Q_full : 0.0976 Δ=+0.0100
565
+ K_full : 0.1048 Δ=+0.0082
566
+ V_full : 0.1004 Δ=+0.0067
567
+ Q_h0 : 0.0997 Δ=+0.0159
568
+ K_h0 : 0.1130 Δ=+0.0132
569
+ V_h0 : 0.1001 Δ=+0.0031
570
+ Q_h1 : 0.1045 Δ=+0.0210
571
+ K_h1 : 0.0966 Δ=+0.0094
572
+ V_h1 : 0.1054 Δ=+0.0165
573
+ out_proj : 0.1115 Δ=+0.0135
574
+ cls_head : 0.0546 Δ=-0.0246
575
+ act_Q_h0 : 0.3126 Δ=-0.0014
576
+ act_K_h0 : 0.4346 Δ=+0.1395
577
+ act_V_h0 : 0.4026 Δ=+0.0946
578
+ act_post_h0 : 0.3841 Δ=+0.0226
579
+ act_Q_h1 : 0.3240 Δ=-0.0063
580
+ act_K_h1 : 0.4820 Δ=+0.1663
581
+ act_V_h1 : 0.5009 Δ=+0.2184
582
+ act_post_h1 : 0.3587 Δ=+0.0148
583
+ act_emb : *0.2411* Δ=+0.0352
584
+ act_post_full : 0.3226 Δ=+0.0352
585
+
586
+ ======================================================================
587
+ D=128 heads=4 head_dim=32
588
+ ======================================================================
589
+
590
+ [pre-train]
591
+ emb : 0.1091
592
+ Q_full : 0.0876
593
+ K_full : 0.0966
594
+ V_full : 0.0937
595
+ Q_h0 : 0.0744
596
+ K_h0 : 0.0905
597
+ V_h0 : 0.0977
598
+ Q_h1 : 0.0835
599
+ K_h1 : 0.1030
600
+ V_h1 : 0.0860
601
+ Q_h2 : 0.0694
602
+ K_h2 : 0.0854
603
+ V_h2 : 0.0860
604
+ Q_h3 : 0.0899
605
+ K_h3 : 0.0745
606
+ V_h3 : 0.0898
607
+ out_proj : 0.0956
608
+ cls_head : 0.0776
609
+ act_Q_h0 : 0.3303
610
+ act_K_h0 : 0.3618
611
+ act_V_h0 : 0.3532
612
+ act_post_h0 : 0.4270
613
+ act_Q_h1 : 0.3898
614
+ act_K_h1 : 0.3775
615
+ act_V_h1 : 0.3613
616
+ act_post_h1 : 0.3604
617
+ act_Q_h2 : 0.3821
618
+ act_K_h2 : *0.2836*
619
+ act_V_h2 : 0.4199
620
+ act_post_h2 : 0.4018
621
+ act_Q_h3 : 0.3522
622
+ act_K_h3 : 0.3507
623
+ act_V_h3 : 0.3194
624
+ act_post_h3 : 0.3778
625
+ act_emb : *0.2689*
626
+ act_post_full : 0.3073
627
+
628
+ [epoch 25] loss=0.2307 acc=99.80%
629
+ emb : 0.1132
630
+ Q_full : 0.1062
631
+ K_full : 0.1066
632
+ V_full : 0.1078
633
+ Q_h0 : 0.0894
634
+ K_h0 : 0.1000
635
+ V_h0 : 0.0994
636
+ Q_h1 : 0.0937
637
+ K_h1 : 0.1177
638
+ V_h1 : 0.0893
639
+ Q_h2 : 0.0884
640
+ K_h2 : 0.0969
641
+ V_h2 : 0.0897
642
+ Q_h3 : 0.0934
643
+ K_h3 : 0.0869
644
+ V_h3 : 0.0934
645
+ out_proj : 0.1087
646
+ cls_head : 0.0670
647
+ act_Q_h0 : 0.3745
648
+ act_K_h0 : 0.4438
649
+ act_V_h0 : 0.4299
650
+ act_post_h0 : 0.3798
651
+ act_Q_h1 : 0.3539
652
+ act_K_h1 : 0.5599
653
+ act_V_h1 : 0.3734
654
+ act_post_h1 : 0.3800
655
+ act_Q_h2 : 0.3524
656
+ act_K_h2 : 0.4769
657
+ act_V_h2 : 0.4943
658
+ act_post_h2 : 0.3111
659
+ act_Q_h3 : 0.3788
660
+ act_K_h3 : 0.4899
661
+ act_V_h3 : 0.4093
662
+ act_post_h3 : 0.3438
663
+ act_emb : *0.2119*
664
+ act_post_full : *0.2761*
665
+
666
+ [post-train] loss=0.0187 acc=100.00%
667
+ emb : 0.1128 Δ=+0.0037
668
+ Q_full : 0.1005 Δ=+0.0128
669
+ K_full : 0.1003 Δ=+0.0037
670
+ V_full : 0.1121 Δ=+0.0183
671
+ Q_h0 : 0.0903 Δ=+0.0159
672
+ K_h0 : 0.1076 Δ=+0.0171
673
+ V_h0 : 0.1061 Δ=+0.0084
674
+ Q_h1 : 0.0978 Δ=+0.0143
675
+ K_h1 : 0.1219 Δ=+0.0189
676
+ V_h1 : 0.0991 Δ=+0.0131
677
+ Q_h2 : 0.0963 Δ=+0.0269
678
+ K_h2 : 0.0912 Δ=+0.0058
679
+ V_h2 : 0.0912 Δ=+0.0052
680
+ Q_h3 : 0.0912 Δ=+0.0013
681
+ K_h3 : 0.0962 Δ=+0.0217
682
+ V_h3 : 0.0965 Δ=+0.0067
683
+ out_proj : 0.1104 Δ=+0.0148
684
+ cls_head : 0.0563 Δ=-0.0212
685
+ act_Q_h0 : 0.3274 Δ=-0.0029
686
+ act_K_h0 : 0.5584 Δ=+0.1966
687
+ act_V_h0 : 0.4308 Δ=+0.0776
688
+ act_post_h0 : 0.4036 Δ=-0.0234
689
+ act_Q_h1 : 0.4097 Δ=+0.0199
690
+ act_K_h1 : 0.5285 Δ=+0.1510
691
+ act_V_h1 : 0.4525 Δ=+0.0912
692
+ act_post_h1 : 0.3964 Δ=+0.0361
693
+ act_Q_h2 : 0.3788 Δ=-0.0033
694
+ act_K_h2 : 0.5728 Δ=+0.2892
695
+ act_V_h2 : 0.5443 Δ=+0.1244
696
+ act_post_h2 : 0.3957 Δ=-0.0062
697
+ act_Q_h3 : 0.4042 Δ=+0.0521
698
+ act_K_h3 : 0.5933 Δ=+0.2426
699
+ act_V_h3 : 0.4571 Δ=+0.1376
700
+ act_post_h3 : 0.4140 Δ=+0.0362
701
+ act_emb : *0.2548* Δ=-0.0141
702
+ act_post_full : 0.3589 Δ=+0.0516
703
+
704
+ ======================================================================
705
+ D=128 heads=8 head_dim=16
706
+ ======================================================================
707
+
708
+ [pre-train]
709
+ emb : 0.1091
710
+ Q_full : 0.0876
711
+ K_full : 0.0966
712
+ V_full : 0.0937
713
+ Q_h0 : 0.0671
714
+ K_h0 : 0.1003
715
+ V_h0 : 0.0769
716
+ Q_h1 : 0.0779
717
+ K_h1 : 0.0858
718
+ V_h1 : 0.0801
719
+ Q_h2 : 0.0705
720
+ K_h2 : 0.1047
721
+ V_h2 : 0.0881
722
+ Q_h3 : 0.0715
723
+ K_h3 : 0.1038
724
+ V_h3 : 0.1002
725
+ Q_h4 : 0.0631
726
+ K_h4 : 0.0919
727
+ V_h4 : 0.0663
728
+ Q_h5 : 0.0736
729
+ K_h5 : 0.0816
730
+ V_h5 : 0.0745
731
+ Q_h6 : 0.0786
732
+ K_h6 : 0.0691
733
+ V_h6 : 0.0865
734
+ Q_h7 : 0.0798
735
+ K_h7 : 0.0788
736
+ V_h7 : 0.0832
737
+ out_proj : 0.0878
738
+ cls_head : 0.0816
739
+ act_Q_h0 : 0.4150
740
+ act_K_h0 : 0.4813
741
+ act_V_h0 : 0.5137
742
+ act_post_h0 : 0.5246
743
+ act_Q_h1 : 0.4347
744
+ act_K_h1 : 0.4596
745
+ act_V_h1 : 0.4736
746
+ act_post_h1 : 0.4873
747
+ act_Q_h2 : 0.4487
748
+ act_K_h2 : 0.4629
749
+ act_V_h2 : 0.4670
750
+ act_post_h2 : 0.5029
751
+ act_Q_h3 : 0.4772
752
+ act_K_h3 : 0.4524
753
+ act_V_h3 : 0.4470
754
+ act_post_h3 : 0.5202
755
+ act_Q_h4 : 0.4767
756
+ act_K_h4 : 0.4430
757
+ act_V_h4 : 0.5214
758
+ act_post_h4 : 0.4237
759
+ act_Q_h5 : 0.4635
760
+ act_K_h5 : 0.4204
761
+ act_V_h5 : 0.5157
762
+ act_post_h5 : 0.4395
763
+ act_Q_h6 : 0.4825
764
+ act_K_h6 : 0.4668
765
+ act_V_h6 : 0.4357
766
+ act_post_h6 : 0.4687
767
+ act_Q_h7 : 0.4366
768
+ act_K_h7 : 0.4388
769
+ act_V_h7 : 0.4442
770
+ act_post_h7 : 0.4719
771
+ act_emb : *0.2489*
772
+ act_post_full : 0.3338
773
+
774
+ [epoch 25] loss=0.2240 acc=99.80%
775
+ emb : 0.1052
776
+ Q_full : 0.0964
777
+ K_full : 0.1000
778
+ V_full : 0.1058
779
+ Q_h0 : 0.0648
780
+ K_h0 : 0.1210
781
+ V_h0 : 0.0831
782
+ Q_h1 : 0.0784
783
+ K_h1 : 0.1015
784
+ V_h1 : 0.0904
785
+ Q_h2 : 0.0818
786
+ K_h2 : 0.0970
787
+ V_h2 : 0.0892
788
+ Q_h3 : 0.0879
789
+ K_h3 : 0.0958
790
+ V_h3 : 0.1011
791
+ Q_h4 : 0.0844
792
+ K_h4 : 0.1019
793
+ V_h4 : 0.0739
794
+ Q_h5 : 0.1001
795
+ K_h5 : 0.0791
796
+ V_h5 : 0.0836
797
+ Q_h6 : 0.0651
798
+ K_h6 : 0.0732
799
+ V_h6 : 0.0937
800
+ Q_h7 : 0.0924
801
+ K_h7 : 0.0984
802
+ V_h7 : 0.1031
803
+ out_proj : 0.0961
804
+ cls_head : 0.0698
805
+ act_Q_h0 : 0.4686
806
+ act_K_h0 : 0.5549
807
+ act_V_h0 : 0.5257
808
+ act_post_h0 : 0.4421
809
+ act_Q_h1 : 0.4416
810
+ act_K_h1 : 0.5945
811
+ act_V_h1 : 0.5244
812
+ act_post_h1 : 0.4517
813
+ act_Q_h2 : 0.4509
814
+ act_K_h2 : 0.6063
815
+ act_V_h2 : 0.4540
816
+ act_post_h2 : 0.4697
817
+ act_Q_h3 : 0.5350
818
+ act_K_h3 : 0.5189
819
+ act_V_h3 : 0.5054
820
+ act_post_h3 : 0.4798
821
+ act_Q_h4 : 0.4223
822
+ act_K_h4 : 0.6416
823
+ act_V_h4 : 0.5742
824
+ act_post_h4 : 0.4320
825
+ act_Q_h5 : 0.4605
826
+ act_K_h5 : 0.5650
827
+ act_V_h5 : 0.5400
828
+ act_post_h5 : 0.4393
829
+ act_Q_h6 : 0.4649
830
+ act_K_h6 : 0.5872
831
+ act_V_h6 : 0.4636
832
+ act_post_h6 : 0.4213
833
+ act_Q_h7 : 0.4619
834
+ act_K_h7 : 0.5432
835
+ act_V_h7 : 0.5168
836
+ act_post_h7 : 0.4866
837
+ act_emb : *0.2009*
838
+ act_post_full : *0.2886*
839
+
840
+ [post-train] loss=0.0188 acc=100.00%
841
+ emb : 0.1060 Δ=-0.0031
842
+ Q_full : 0.0964 Δ=+0.0088
843
+ K_full : 0.0999 Δ=+0.0033
844
+ V_full : 0.1030 Δ=+0.0092
845
+ Q_h0 : 0.0753 Δ=+0.0082
846
+ K_h0 : 0.1260 Δ=+0.0257
847
+ V_h0 : 0.0884 Δ=+0.0116
848
+ Q_h1 : 0.0814 Δ=+0.0035
849
+ K_h1 : 0.1120 Δ=+0.0262
850
+ V_h1 : 0.1015 Δ=+0.0214
851
+ Q_h2 : 0.0873 Δ=+0.0168
852
+ K_h2 : 0.0853 Δ=-0.0194
853
+ V_h2 : 0.0897 Δ=+0.0016
854
+ Q_h3 : 0.1029 Δ=+0.0314
855
+ K_h3 : 0.1043 Δ=+0.0005
856
+ V_h3 : 0.1026 Δ=+0.0023
857
+ Q_h4 : 0.0951 Δ=+0.0320
858
+ K_h4 : 0.1049 Δ=+0.0129
859
+ V_h4 : 0.0763 Δ=+0.0100
860
+ Q_h5 : 0.1152 Δ=+0.0415
861
+ K_h5 : 0.0879 Δ=+0.0063
862
+ V_h5 : 0.0949 Δ=+0.0205
863
+ Q_h6 : 0.0790 Δ=+0.0003
864
+ K_h6 : 0.0789 Δ=+0.0098
865
+ V_h6 : 0.0932 Δ=+0.0067
866
+ Q_h7 : 0.0970 Δ=+0.0172
867
+ K_h7 : 0.0939 Δ=+0.0151
868
+ V_h7 : 0.1120 Δ=+0.0288
869
+ out_proj : 0.1142 Δ=+0.0264
870
+ cls_head : 0.0556 Δ=-0.0260
871
+ act_Q_h0 : 0.4538 Δ=+0.0388
872
+ act_K_h0 : 0.6259 Δ=+0.1445
873
+ act_V_h0 : 0.5796 Δ=+0.0659
874
+ act_post_h0 : 0.5135 Δ=-0.0111
875
+ act_Q_h1 : 0.4504 Δ=+0.0157
876
+ act_K_h1 : 0.6123 Δ=+0.1527
877
+ act_V_h1 : 0.5364 Δ=+0.0628
878
+ act_post_h1 : 0.4148 Δ=-0.0724
879
+ act_Q_h2 : 0.4330 Δ=-0.0158
880
+ act_K_h2 : 0.6079 Δ=+0.1450
881
+ act_V_h2 : 0.5365 Δ=+0.0695
882
+ act_post_h2 : 0.4718 Δ=-0.0311
883
+ act_Q_h3 : 0.4942 Δ=+0.0170
884
+ act_K_h3 : 0.7313 Δ=+0.2788
885
+ act_V_h3 : 0.4719 Δ=+0.0249
886
+ act_post_h3 : 0.4444 Δ=-0.0758
887
+ act_Q_h4 : 0.5071 Δ=+0.0304
888
+ act_K_h4 : 0.7608 Δ=+0.3178
889
+ act_V_h4 : 0.5955 Δ=+0.0741
890
+ act_post_h4 : 0.4462 Δ=+0.0225
891
+ act_Q_h5 : 0.4960 Δ=+0.0324
892
+ act_K_h5 : 0.6651 Δ=+0.2447
893
+ act_V_h5 : 0.5983 Δ=+0.0826
894
+ act_post_h5 : 0.4369 Δ=-0.0026
895
+ act_Q_h6 : 0.5170 Δ=+0.0345
896
+ act_K_h6 : 0.6135 Δ=+0.1467
897
+ act_V_h6 : 0.6220 Δ=+0.1863
898
+ act_post_h6 : 0.4884 Δ=+0.0197
899
+ act_Q_h7 : 0.4773 Δ=+0.0407
900
+ act_K_h7 : 0.6479 Δ=+0.2091
901
+ act_V_h7 : 0.5699 Δ=+0.1257
902
+ act_post_h7 : 0.4634 Δ=-0.0085
903
+ act_emb : *0.2147* Δ=-0.0342
904
+ act_post_full : 0.3396 Δ=+0.0058
905
+
906
+ ======================================================================
907
+ D=256 heads=1 head_dim=256
908
+ ======================================================================
909
+
910
+ [pre-train]
911
+ emb : 0.0779
912
+ Q_full : 0.0682
913
+ K_full : 0.0633
914
+ V_full : 0.0665
915
+ Q_h0 : 0.0654
916
+ K_h0 : 0.0627
917
+ V_h0 : 0.0663
918
+ out_proj : 0.0616
919
+ cls_head : 0.0492
920
+ act_Q_h0 : *0.2094*
921
+ act_K_h0 : *0.2437*
922
+ act_V_h0 : *0.2355*
923
+ act_post_h0 : *0.2695*
924
+ act_emb : *0.2625*
925
+ act_post_full : 0.3118
926
+
927
+ [epoch 25] loss=0.0099 acc=100.00%
928
+ emb : 0.0821
929
+ Q_full : 0.0664
930
+ K_full : 0.0681
931
+ V_full : 0.0728
932
+ Q_h0 : 0.0728
933
+ K_h0 : 0.0676
934
+ V_h0 : 0.0716
935
+ out_proj : 0.0762
936
+ cls_head : 0.0455
937
+ act_Q_h0 : *0.2878*
938
+ act_K_h0 : 0.4158
939
+ act_V_h0 : 0.3795
940
+ act_post_h0 : 0.3578
941
+ act_emb : *0.1934*
942
+ act_post_full : 0.3588
943
+
944
+ [post-train] loss=0.0016 acc=100.00%
945
+ emb : 0.0819 Δ=+0.0040
946
+ Q_full : 0.0716 Δ=+0.0033
947
+ K_full : 0.0785 Δ=+0.0151
948
+ V_full : 0.0790 Δ=+0.0125
949
+ Q_h0 : 0.0720 Δ=+0.0066
950
+ K_h0 : 0.0728 Δ=+0.0102
951
+ V_h0 : 0.0783 Δ=+0.0120
952
+ out_proj : 0.0775 Δ=+0.0159
953
+ cls_head : 0.0486 Δ=-0.0006
954
+ act_Q_h0 : *0.2487* Δ=+0.0393
955
+ act_K_h0 : 0.4001 Δ=+0.1563
956
+ act_V_h0 : 0.4007 Δ=+0.1652
957
+ act_post_h0 : 0.4446 Δ=+0.1751
958
+ act_emb : *0.2063* Δ=-0.0563
959
+ act_post_full : 0.4458 Δ=+0.1339
960
+
961
+ ======================================================================
962
+ D=256 heads=2 head_dim=128
963
+ ======================================================================
964
+
965
+ [pre-train]
966
+ emb : 0.0779
967
+ Q_full : 0.0682
968
+ K_full : 0.0633
969
+ V_full : 0.0665
970
+ Q_h0 : 0.0632
971
+ K_h0 : 0.0698
972
+ V_h0 : 0.0634
973
+ Q_h1 : 0.0612
974
+ K_h1 : 0.0588
975
+ V_h1 : 0.0607
976
+ out_proj : 0.0637
977
+ cls_head : 0.0487
978
+ act_Q_h0 : *0.2391*
979
+ act_K_h0 : *0.2624*
980
+ act_V_h0 : *0.2857*
981
+ act_post_h0 : 0.3254
982
+ act_Q_h1 : *0.2333*
983
+ act_K_h1 : *0.2212*
984
+ act_V_h1 : *0.2717*
985
+ act_post_h1 : *0.2777*
986
+ act_emb : *0.2220*
987
+ act_post_full : *0.2732*
988
+
989
+ [epoch 25] loss=0.0079 acc=100.00%
990
+ emb : 0.0767
991
+ Q_full : 0.0683
992
+ K_full : 0.0663
993
+ V_full : 0.0692
994
+ Q_h0 : 0.0661
995
+ K_h0 : 0.0700
996
+ V_h0 : 0.0681
997
+ Q_h1 : 0.0724
998
+ K_h1 : 0.0710
999
+ V_h1 : 0.0707
1000
+ out_proj : 0.0748
1001
+ cls_head : 0.0475
1002
+ act_Q_h0 : 0.3045
1003
+ act_K_h0 : 0.4500
1004
+ act_V_h0 : 0.4044
1005
+ act_post_h0 : 0.3539
1006
+ act_Q_h1 : *0.2901*
1007
+ act_K_h1 : 0.4922
1008
+ act_V_h1 : 0.3736
1009
+ act_post_h1 : 0.3901
1010
+ act_emb : *0.2386*
1011
+ act_post_full : 0.3775
1012
+
1013
+ [post-train] loss=0.0014 acc=100.00%
1014
+ emb : 0.0804 Δ=+0.0025
1015
+ Q_full : 0.0749 Δ=+0.0066
1016
+ K_full : 0.0742 Δ=+0.0109
1017
+ V_full : 0.0755 Δ=+0.0090
1018
+ Q_h0 : 0.0721 Δ=+0.0089
1019
+ K_h0 : 0.0799 Δ=+0.0101
1020
+ V_h0 : 0.0743 Δ=+0.0109
1021
+ Q_h1 : 0.0743 Δ=+0.0130
1022
+ K_h1 : 0.0784 Δ=+0.0196
1023
+ V_h1 : 0.0776 Δ=+0.0169
1024
+ out_proj : 0.0859 Δ=+0.0222
1025
+ cls_head : 0.0480 Δ=-0.0007
1026
+ act_Q_h0 : *0.2627* Δ=+0.0237
1027
+ act_K_h0 : 0.4986 Δ=+0.2362
1028
+ act_V_h0 : 0.4207 Δ=+0.1350
1029
+ act_post_h0 : 0.4344 Δ=+0.1090
1030
+ act_Q_h1 : *0.2992* Δ=+0.0659
1031
+ act_K_h1 : 0.4905 Δ=+0.2693
1032
+ act_V_h1 : 0.4743 Δ=+0.2025
1033
+ act_post_h1 : 0.4108 Δ=+0.1331
1034
+ act_emb : *0.2547* Δ=+0.0327
1035
+ act_post_full : 0.3783 Δ=+0.1052
1036
+
1037
+ ======================================================================
1038
+ D=256 heads=4 head_dim=64
1039
+ ======================================================================
1040
+
1041
+ [pre-train]
1042
+ emb : 0.0779
1043
+ Q_full : 0.0682
1044
+ K_full : 0.0633
1045
+ V_full : 0.0665
1046
+ Q_h0 : 0.0598
1047
+ K_h0 : 0.0591
1048
+ V_h0 : 0.0664
1049
+ Q_h1 : 0.0568
1050
+ K_h1 : 0.0580
1051
+ V_h1 : 0.0588
1052
+ Q_h2 : 0.0655
1053
+ K_h2 : 0.0629
1054
+ V_h2 : 0.0583
1055
+ Q_h3 : 0.0582
1056
+ K_h3 : 0.0558
1057
+ V_h3 : 0.0657
1058
+ out_proj : 0.0656
1059
+ cls_head : 0.0482
1060
+ act_Q_h0 : *0.2595*
1061
+ act_K_h0 : 0.3228
1062
+ act_V_h0 : *0.2912*
1063
+ act_post_h0 : *0.2840*
1064
+ act_Q_h1 : *0.2824*
1065
+ act_K_h1 : 0.3022
1066
+ act_V_h1 : *0.2934*
1067
+ act_post_h1 : 0.3500
1068
+ act_Q_h2 : *0.2818*
1069
+ act_K_h2 : *0.2558*
1070
+ act_V_h2 : 0.3219
1071
+ act_post_h2 : 0.3397
1072
+ act_Q_h3 : 0.3140
1073
+ act_K_h3 : 0.3174
1074
+ act_V_h3 : *0.2822*
1075
+ act_post_h3 : 0.3068
1076
+ act_emb : *0.2217*
1077
+ act_post_full : *0.2799*
1078
+
1079
+ [epoch 25] loss=0.0074 acc=100.00%
1080
+ emb : 0.0756
1081
+ Q_full : 0.0707
1082
+ K_full : 0.0690
1083
+ V_full : 0.0749
1084
+ Q_h0 : 0.0658
1085
+ K_h0 : 0.0739
1086
+ V_h0 : 0.0764
1087
+ Q_h1 : 0.0661
1088
+ K_h1 : 0.0672
1089
+ V_h1 : 0.0695
1090
+ Q_h2 : 0.0743
1091
+ K_h2 : 0.0738
1092
+ V_h2 : 0.0738
1093
+ Q_h3 : 0.0724
1094
+ K_h3 : 0.0596
1095
+ V_h3 : 0.0745
1096
+ out_proj : 0.0732
1097
+ cls_head : 0.0456
1098
+ act_Q_h0 : 0.3024
1099
+ act_K_h0 : 0.5494
1100
+ act_V_h0 : 0.4222
1101
+ act_post_h0 : 0.3549
1102
+ act_Q_h1 : *0.2892*
1103
+ act_K_h1 : 0.4484
1104
+ act_V_h1 : 0.4565
1105
+ act_post_h1 : 0.4029
1106
+ act_Q_h2 : *0.2954*
1107
+ act_K_h2 : 0.5268
1108
+ act_V_h2 : 0.4681
1109
+ act_post_h2 : 0.4058
1110
+ act_Q_h3 : *0.2740*
1111
+ act_K_h3 : 0.5939
1112
+ act_V_h3 : 0.4381
1113
+ act_post_h3 : 0.4051
1114
+ act_emb : *0.1759*
1115
+ act_post_full : 0.3800
1116
+
1117
+ [post-train] loss=0.0013 acc=100.00%
1118
+ emb : 0.0859 Δ=+0.0080
1119
+ Q_full : 0.0735 Δ=+0.0053
1120
+ K_full : 0.0713 Δ=+0.0079
1121
+ V_full : 0.0773 Δ=+0.0108
1122
+ Q_h0 : 0.0678 Δ=+0.0079
1123
+ K_h0 : 0.0733 Δ=+0.0141
1124
+ V_h0 : 0.0779 Δ=+0.0115
1125
+ Q_h1 : 0.0735 Δ=+0.0168
1126
+ K_h1 : 0.0774 Δ=+0.0194
1127
+ V_h1 : 0.0732 Δ=+0.0144
1128
+ Q_h2 : 0.0739 Δ=+0.0084
1129
+ K_h2 : 0.0844 Δ=+0.0215
1130
+ V_h2 : 0.0843 Δ=+0.0260
1131
+ Q_h3 : 0.0789 Δ=+0.0207
1132
+ K_h3 : 0.0666 Δ=+0.0108
1133
+ V_h3 : 0.0767 Δ=+0.0111
1134
+ out_proj : 0.0836 Δ=+0.0180
1135
+ cls_head : 0.0488 Δ=+0.0006
1136
+ act_Q_h0 : 0.3580 Δ=+0.0986
1137
+ act_K_h0 : 0.5870 Δ=+0.2643
1138
+ act_V_h0 : 0.4358 Δ=+0.1446
1139
+ act_post_h0 : 0.4285 Δ=+0.1446
1140
+ act_Q_h1 : *0.2921* Δ=+0.0097
1141
+ act_K_h1 : 0.5681 Δ=+0.2658
1142
+ act_V_h1 : 0.4575 Δ=+0.1641
1143
+ act_post_h1 : 0.4672 Δ=+0.1172
1144
+ act_Q_h2 : 0.3152 Δ=+0.0334
1145
+ act_K_h2 : 0.5638 Δ=+0.3080
1146
+ act_V_h2 : 0.4609 Δ=+0.1390
1147
+ act_post_h2 : 0.4649 Δ=+0.1252
1148
+ act_Q_h3 : 0.3445 Δ=+0.0306
1149
+ act_K_h3 : 0.5860 Δ=+0.2685
1150
+ act_V_h3 : 0.4535 Δ=+0.1713
1151
+ act_post_h3 : 0.4180 Δ=+0.1112
1152
+ act_emb : *0.2088* Δ=-0.0129
1153
+ act_post_full : 0.4113 Δ=+0.1314
1154
+
1155
+ ======================================================================
1156
+ D=256 heads=8 head_dim=32
1157
+ ======================================================================
1158
+
1159
+ [pre-train]
1160
+ emb : 0.0779
1161
+ Q_full : 0.0682
1162
+ K_full : 0.0633
1163
+ V_full : 0.0665
1164
+ Q_h0 : 0.0603
1165
+ K_h0 : 0.0687
1166
+ V_h0 : 0.0600
1167
+ Q_h1 : 0.0554
1168
+ K_h1 : 0.0675
1169
+ V_h1 : 0.0623
1170
+ Q_h2 : 0.0658
1171
+ K_h2 : 0.0613
1172
+ V_h2 : 0.0529
1173
+ Q_h3 : 0.0479
1174
+ K_h3 : 0.0583
1175
+ V_h3 : 0.0627
1176
+ Q_h4 : 0.0559
1177
+ K_h4 : 0.0609
1178
+ V_h4 : 0.0645
1179
+ Q_h5 : 0.0694
1180
+ K_h5 : 0.0643
1181
+ V_h5 : 0.0547
1182
+ Q_h6 : 0.0669
1183
+ K_h6 : 0.0576
1184
+ V_h6 : 0.0527
1185
+ Q_h7 : 0.0648
1186
+ K_h7 : 0.0610
1187
+ V_h7 : 0.0662
1188
+ out_proj : 0.0628
1189
+ cls_head : 0.0472
1190
+ act_Q_h0 : 0.3938
1191
+ act_K_h0 : 0.3478
1192
+ act_V_h0 : *0.2891*
1193
+ act_post_h0 : 0.4032
1194
+ act_Q_h1 : 0.3324
1195
+ act_K_h1 : 0.3333
1196
+ act_V_h1 : 0.3331
1197
+ act_post_h1 : 0.3885
1198
+ act_Q_h2 : 0.3593
1199
+ act_K_h2 : *0.2980*
1200
+ act_V_h2 : *0.2990*
1201
+ act_post_h2 : 0.3510
1202
+ act_Q_h3 : 0.3019
1203
+ act_K_h3 : 0.3741
1204
+ act_V_h3 : 0.3351
1205
+ act_post_h3 : 0.4049
1206
+ act_Q_h4 : 0.3307
1207
+ act_K_h4 : 0.3595
1208
+ act_V_h4 : 0.3515
1209
+ act_post_h4 : 0.4145
1210
+ act_Q_h5 : 0.3736
1211
+ act_K_h5 : 0.3552
1212
+ act_V_h5 : 0.3845
1213
+ act_post_h5 : 0.3626
1214
+ act_Q_h6 : 0.3142
1215
+ act_K_h6 : *0.2974*
1216
+ act_V_h6 : 0.3430
1217
+ act_post_h6 : 0.3921
1218
+ act_Q_h7 : *0.2749*
1219
+ act_K_h7 : 0.3761
1220
+ act_V_h7 : 0.3521
1221
+ act_post_h7 : 0.3747
1222
+ act_emb : *0.2389*
1223
+ act_post_full : 0.3172
1224
+
1225
+ [epoch 25] loss=0.0076 acc=100.00%
1226
+ emb : 0.0870
1227
+ Q_full : 0.0710
1228
+ K_full : 0.0713
1229
+ V_full : 0.0733
1230
+ Q_h0 : 0.0603
1231
+ K_h0 : 0.0704
1232
+ V_h0 : 0.0705
1233
+ Q_h1 : 0.0652
1234
+ K_h1 : 0.0863
1235
+ V_h1 : 0.0722
1236
+ Q_h2 : 0.0668
1237
+ K_h2 : 0.0676
1238
+ V_h2 : 0.0678
1239
+ Q_h3 : 0.0557
1240
+ K_h3 : 0.0716
1241
+ V_h3 : 0.0721
1242
+ Q_h4 : 0.0678
1243
+ K_h4 : 0.0681
1244
+ V_h4 : 0.0854
1245
+ Q_h5 : 0.0660
1246
+ K_h5 : 0.0748
1247
+ V_h5 : 0.0727
1248
+ Q_h6 : 0.0757
1249
+ K_h6 : 0.0613
1250
+ V_h6 : 0.0645
1251
+ Q_h7 : 0.0725
1252
+ K_h7 : 0.0721
1253
+ V_h7 : 0.0784
1254
+ out_proj : 0.0805
1255
+ cls_head : 0.0470
1256
+ act_Q_h0 : 0.3898
1257
+ act_K_h0 : 0.6606
1258
+ act_V_h0 : 0.4376
1259
+ act_post_h0 : 0.3801
1260
+ act_Q_h1 : 0.3430
1261
+ act_K_h1 : 0.5881
1262
+ act_V_h1 : 0.5103
1263
+ act_post_h1 : 0.4429
1264
+ act_Q_h2 : 0.3749
1265
+ act_K_h2 : 0.6678
1266
+ act_V_h2 : 0.5165
1267
+ act_post_h2 : 0.4137
1268
+ act_Q_h3 : 0.3357
1269
+ act_K_h3 : 0.5528
1270
+ act_V_h3 : 0.4197
1271
+ act_post_h3 : 0.4182
1272
+ act_Q_h4 : 0.3857
1273
+ act_K_h4 : 0.6191
1274
+ act_V_h4 : 0.5490
1275
+ act_post_h4 : 0.4189
1276
+ act_Q_h5 : 0.3940
1277
+ act_K_h5 : 0.6308
1278
+ act_V_h5 : 0.4108
1279
+ act_post_h5 : 0.4423
1280
+ act_Q_h6 : 0.3946
1281
+ act_K_h6 : 0.5846
1282
+ act_V_h6 : 0.4491
1283
+ act_post_h6 : 0.3772
1284
+ act_Q_h7 : 0.4124
1285
+ act_K_h7 : 0.6258
1286
+ act_V_h7 : 0.4564
1287
+ act_post_h7 : 0.3559
1288
+ act_emb : *0.2063*
1289
+ act_post_full : 0.3397
1290
+
1291
+ [post-train] loss=0.0013 acc=100.00%
1292
+ emb : 0.0809 Δ=+0.0030
1293
+ Q_full : 0.0691 Δ=+0.0008
1294
+ K_full : 0.0710 Δ=+0.0077
1295
+ V_full : 0.0852 Δ=+0.0187
1296
+ Q_h0 : 0.0667 Δ=+0.0064
1297
+ K_h0 : 0.0788 Δ=+0.0100
1298
+ V_h0 : 0.0728 Δ=+0.0128
1299
+ Q_h1 : 0.0674 Δ=+0.0119
1300
+ K_h1 : 0.0844 Δ=+0.0169
1301
+ V_h1 : 0.0812 Δ=+0.0189
1302
+ Q_h2 : 0.0730 Δ=+0.0073
1303
+ K_h2 : 0.0781 Δ=+0.0168
1304
+ V_h2 : 0.0715 Δ=+0.0186
1305
+ Q_h3 : 0.0678 Δ=+0.0199
1306
+ K_h3 : 0.0716 Δ=+0.0133
1307
+ V_h3 : 0.0764 Δ=+0.0137
1308
+ Q_h4 : 0.0713 Δ=+0.0154
1309
+ K_h4 : 0.0740 Δ=+0.0131
1310
+ V_h4 : 0.0909 Δ=+0.0264
1311
+ Q_h5 : 0.0712 Δ=+0.0018
1312
+ K_h5 : 0.0801 Δ=+0.0158
1313
+ V_h5 : 0.0697 Δ=+0.0151
1314
+ Q_h6 : 0.0804 Δ=+0.0135
1315
+ K_h6 : 0.0658 Δ=+0.0082
1316
+ V_h6 : 0.0647 Δ=+0.0120
1317
+ Q_h7 : 0.0754 Δ=+0.0106
1318
+ K_h7 : 0.0699 Δ=+0.0090
1319
+ V_h7 : 0.0800 Δ=+0.0138
1320
+ out_proj : 0.0846 Δ=+0.0218
1321
+ cls_head : 0.0466 Δ=-0.0007
1322
+ act_Q_h0 : 0.4054 Δ=+0.0116
1323
+ act_K_h0 : 0.6899 Δ=+0.3421
1324
+ act_V_h0 : 0.5066 Δ=+0.2175
1325
+ act_post_h0 : 0.4566 Δ=+0.0535
1326
+ act_Q_h1 : 0.3412 Δ=+0.0087
1327
+ act_K_h1 : 0.7009 Δ=+0.3676
1328
+ act_V_h1 : 0.6057 Δ=+0.2726
1329
+ act_post_h1 : 0.4266 Δ=+0.0381
1330
+ act_Q_h2 : 0.3666 Δ=+0.0073
1331
+ act_K_h2 : 0.6611 Δ=+0.3632
1332
+ act_V_h2 : 0.5442 Δ=+0.2452
1333
+ act_post_h2 : 0.4957 Δ=+0.1447
1334
+ act_Q_h3 : 0.3971 Δ=+0.0951
1335
+ act_K_h3 : 0.6011 Δ=+0.2270
1336
+ act_V_h3 : 0.4752 Δ=+0.1402
1337
+ act_post_h3 : 0.4357 Δ=+0.0308
1338
+ act_Q_h4 : 0.3645 Δ=+0.0338
1339
+ act_K_h4 : 0.5758 Δ=+0.2163
1340
+ act_V_h4 : 0.5611 Δ=+0.2096
1341
+ act_post_h4 : 0.4185 Δ=+0.0040
1342
+ act_Q_h5 : 0.3831 Δ=+0.0095
1343
+ act_K_h5 : 0.6076 Δ=+0.2524
1344
+ act_V_h5 : 0.4840 Δ=+0.0995
1345
+ act_post_h5 : 0.4087 Δ=+0.0461
1346
+ act_Q_h6 : 0.3817 Δ=+0.0675
1347
+ act_K_h6 : 0.5986 Δ=+0.3012
1348
+ act_V_h6 : 0.5178 Δ=+0.1749
1349
+ act_post_h6 : 0.4694 Δ=+0.0773
1350
+ act_Q_h7 : 0.3795 Δ=+0.1046
1351
+ act_K_h7 : 0.5845 Δ=+0.2084
1352
+ act_V_h7 : 0.4897 Δ=+0.1376
1353
+ act_post_h7 : 0.4559 Δ=+0.0811
1354
+ act_emb : *0.2226* Δ=-0.0164
1355
+ act_post_full : 0.4059 Δ=+0.0887
1356
+
1357
+
1358
+ ======================================================================
1359
+ SUMMARY: Post-training WEIGHT CV by head_dim
1360
+ ======================================================================
1361
+ D heads hdim | emb Q_full K_full V_full out | acc
1362
+ --------------------------------------------------------------------------------
1363
+ 64 1 64 | *0.1549* *0.1352* *0.1453* 0.1219 *0.1486* | 98.80%
1364
+ 64 2 32 | *0.1606* 0.1187 *0.1422* 0.1286 *0.1468* | 99.20%
1365
+ 64 4 16 | *0.1567* *0.1315* 0.1298 *0.1379* *0.1462* | 99.20%
1366
+ 64 8 8 | *0.1581* *0.1435* *0.1356* *0.1340* *0.1499* | 99.60%
1367
+ 128 1 128 | 0.1082 0.1000 0.1068 0.1045 0.1207 | 100.00%
1368
+ 128 2 64 | 0.1077 0.0976 0.1048 0.1004 0.1115 | 100.00%
1369
+ 128 4 32 | 0.1128 0.1005 0.1003 0.1121 0.1104 | 100.00%
1370
+ 128 8 16 | 0.1060 0.0964 0.0999 0.1030 0.1142 | 100.00%
1371
+ 256 1 256 | 0.0819 0.0716 0.0785 0.0790 0.0775 | 100.00%
1372
+ 256 2 128 | 0.0804 0.0749 0.0742 0.0755 0.0859 | 100.00%
1373
+ 256 4 64 | 0.0859 0.0735 0.0713 0.0773 0.0836 | 100.00%
1374
+ 256 8 32 | 0.0809 0.0691 0.0710 0.0852 0.0846 | 100.00%
1375
+
1376
+
1377
+ ======================================================================
1378
+ SUMMARY: Post-training ACTIVATION CV by head_dim
1379
+ (These measure the space where attention actually operates)
1380
+ ======================================================================
1381
+ D heads hdim | act_emb aQ_h0 aK_h0 aV_h0 aPost0 act_full | acc
1382
+ ------------------------------------------------------------------------------------------
1383
+ 64 1 64 | *0.2970* 0.3235 0.4174 0.4063 0.3038 0.3234 | 98.80%
1384
+ 64 2 32 | *0.2472* 0.3814 0.4524 0.4259 0.3327 *0.2776* | 99.20%
1385
+ 64 4 16 | *0.2520* 0.4820 0.7037 0.5344 0.4416 0.3062 | 99.20%
1386
+ 64 8 8 | *0.2874* 0.6476 0.7738 0.6295 0.5934 0.3153 | 99.60%
1387
+ 128 1 128 | *0.1913* 0.3359 0.3848 0.4073 0.3733 0.3908 | 100.00%
1388
+ 128 2 64 | *0.2411* 0.3126 0.4346 0.4026 0.3841 0.3226 | 100.00%
1389
+ 128 4 32 | *0.2548* 0.3274 0.5584 0.4308 0.4036 0.3589 | 100.00%
1390
+ 128 8 16 | *0.2147* 0.4538 0.6259 0.5796 0.5135 0.3396 | 100.00%
1391
+ 256 1 256 | *0.2063* *0.2487* 0.4001 0.4007 0.4446 0.4458 | 100.00%
1392
+ 256 2 128 | *0.2547* *0.2627* 0.4986 0.4207 0.4344 0.3783 | 100.00%
1393
+ 256 4 64 | *0.2088* 0.3580 0.5870 0.4358 0.4285 0.4113 | 100.00%
1394
+ 256 8 32 | *0.2226* 0.4054 0.6899 0.5066 0.4566 0.4059 | 100.00%
1395
+
1396
+
1397
+ ======================================================================
1398
+ SUMMARY: ACTIVATION CV movement (post - pre)
1399
+ ======================================================================
1400
+ D heads hdim | act_emb aQ_h0 aK_h0 aV_h0 aPost0 act_full
1401
+ --------------------------------------------------------------------------------
1402
+ 64 1 64 | +0.0149 -0.0201 +0.0810 +0.0836 +0.0199 +0.0026
1403
+ 64 2 32 | +0.0158 +0.0153 +0.1042 +0.0627 -0.0669 -0.0006
1404
+ 64 4 16 | +0.0326 +0.0298 +0.2600 -0.0138 -0.0291 -0.0432
1405
+ 64 8 8 | +0.0085 -0.0129 +0.0882 -0.0613 -0.0708 +0.0011
1406
+ 128 1 128 | +0.0063 +0.0670 +0.0958 +0.1280 +0.0472 +0.0823
1407
+ 128 2 64 | +0.0352 -0.0014 +0.1395 +0.0946 +0.0226 +0.0352
1408
+ 128 4 32 | -0.0141 -0.0029 +0.1966 +0.0776 -0.0234 +0.0516
1409
+ 128 8 16 | -0.0342 +0.0388 +0.1445 +0.0659 -0.0111 +0.0058
1410
+ 256 1 256 | -0.0563 +0.0393 +0.1563 +0.1652 +0.1751 +0.1339
1411
+ 256 2 128 | +0.0327 +0.0237 +0.2362 +0.1350 +0.1090 +0.1052
1412
+ 256 4 64 | -0.0129 +0.0986 +0.2643 +0.1446 +0.1446 +0.1314
1413
+ 256 8 32 | -0.0164 +0.0116 +0.3421 +0.2175 +0.0535 +0.0887