hshankar113 commited on
Commit
249eb8e
·
verified ·
1 Parent(s): f15d520

hshankar113/multilingual-chat-slm

Browse files
Files changed (6) hide show
  1. README.md +6 -5
  2. config.json +1 -1
  3. generation_config.json +1 -1
  4. model.safetensors +1 -1
  5. trainer_state.json +1801 -401
  6. training_args.bin +1 -1
README.md CHANGED
@@ -41,7 +41,8 @@ The following hyperparameters were used during training:
41
  - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
42
  - lr_scheduler_type: linear
43
  - lr_scheduler_warmup_steps: 1000
44
- - training_steps: 10000
 
45
 
46
  ### Training results
47
 
@@ -49,7 +50,7 @@ The following hyperparameters were used during training:
49
 
50
  ### Framework versions
51
 
52
- - Transformers 4.52.3
53
- - Pytorch 2.7.0
54
- - Datasets 3.6.0
55
- - Tokenizers 0.21.1
 
41
  - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
42
  - lr_scheduler_type: linear
43
  - lr_scheduler_warmup_steps: 1000
44
+ - training_steps: 30000
45
+ - mixed_precision_training: Native AMP
46
 
47
  ### Training results
48
 
 
50
 
51
  ### Framework versions
52
 
53
+ - Transformers 4.51.3
54
+ - Pytorch 2.8.0+cu128
55
+ - Datasets 3.3.2
56
+ - Tokenizers 0.21.0
config.json CHANGED
@@ -24,7 +24,7 @@
24
  "sliding_window": 4096,
25
  "tie_word_embeddings": false,
26
  "torch_dtype": "float32",
27
- "transformers_version": "4.52.3",
28
  "use_cache": false,
29
  "use_sliding_window": false,
30
  "vocab_size": 32000
 
24
  "sliding_window": 4096,
25
  "tie_word_embeddings": false,
26
  "torch_dtype": "float32",
27
+ "transformers_version": "4.51.3",
28
  "use_cache": false,
29
  "use_sliding_window": false,
30
  "vocab_size": 32000
generation_config.json CHANGED
@@ -3,6 +3,6 @@
3
  "bos_token_id": 1,
4
  "eos_token_id": 2,
5
  "pad_token_id": 0,
6
- "transformers_version": "4.52.3",
7
  "use_cache": false
8
  }
 
3
  "bos_token_id": 1,
4
  "eos_token_id": 2,
5
  "pad_token_id": 0,
6
+ "transformers_version": "4.51.3",
7
  "use_cache": false
8
  }
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:626564f565f9b145d0424d221d7a5aaa4744005c87457f0559fd702cbb6e1a07
3
  size 1080120048
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2ede9e7cf02cf9741732c58b51becd5670e199835b1af9b3efac89447877c2bc
3
  size 1080120048
trainer_state.json CHANGED
@@ -2,725 +2,2125 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 1.0001,
6
  "eval_steps": 500,
7
- "global_step": 10001,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
- "epoch": 0.16,
14
- "grad_norm": 5.144001483917236,
15
  "learning_rate": 4.950000000000001e-06,
16
- "loss": 10.4886,
17
  "step": 100
18
  },
19
  {
20
- "epoch": 0.32,
21
- "grad_norm": 2.300384998321533,
22
  "learning_rate": 9.950000000000001e-06,
23
- "loss": 7.6471,
24
  "step": 200
25
  },
26
  {
27
- "epoch": 0.48,
28
- "grad_norm": 2.140571355819702,
29
  "learning_rate": 1.4950000000000001e-05,
30
- "loss": 6.9594,
31
  "step": 300
32
  },
33
  {
34
- "epoch": 0.64,
35
- "grad_norm": 2.083284616470337,
36
  "learning_rate": 1.995e-05,
37
- "loss": 6.7859,
38
  "step": 400
39
  },
40
  {
41
- "epoch": 0.8,
42
- "grad_norm": 2.006448745727539,
43
  "learning_rate": 2.495e-05,
44
- "loss": 6.6356,
45
  "step": 500
46
  },
47
  {
48
- "epoch": 0.96,
49
- "grad_norm": 2.856365919113159,
50
  "learning_rate": 2.995e-05,
51
- "loss": 6.5126,
52
  "step": 600
53
  },
54
  {
55
- "epoch": 1.12,
56
- "grad_norm": 3.0544638633728027,
57
  "learning_rate": 3.495e-05,
58
- "loss": 6.375,
59
  "step": 700
60
  },
61
  {
62
- "epoch": 1.28,
63
- "grad_norm": 2.5620715618133545,
64
  "learning_rate": 3.995e-05,
65
- "loss": 6.2585,
66
  "step": 800
67
  },
68
  {
69
- "epoch": 1.44,
70
- "grad_norm": 2.4715466499328613,
71
  "learning_rate": 4.495e-05,
72
- "loss": 6.1562,
73
  "step": 900
74
  },
75
  {
76
- "epoch": 1.6,
77
- "grad_norm": 2.5716171264648438,
78
  "learning_rate": 4.995e-05,
79
- "loss": 6.062,
80
  "step": 1000
81
  },
82
  {
83
- "epoch": 1.76,
84
- "grad_norm": 2.4870810508728027,
85
- "learning_rate": 4.945e-05,
86
- "loss": 5.9831,
87
  "step": 1100
88
  },
89
  {
90
- "epoch": 1.92,
91
- "grad_norm": 2.457263231277466,
92
- "learning_rate": 4.8894444444444446e-05,
93
- "loss": 5.8745,
94
  "step": 1200
95
  },
96
  {
97
- "epoch": 2.08,
98
- "grad_norm": 2.725148916244507,
99
- "learning_rate": 4.833888888888889e-05,
100
- "loss": 5.7869,
101
  "step": 1300
102
  },
103
  {
104
- "epoch": 2.24,
105
- "grad_norm": 3.010024070739746,
106
- "learning_rate": 4.7783333333333334e-05,
107
- "loss": 5.7044,
108
  "step": 1400
109
  },
110
  {
111
- "epoch": 2.4,
112
- "grad_norm": 2.742307424545288,
113
- "learning_rate": 4.7227777777777784e-05,
114
- "loss": 5.6575,
115
  "step": 1500
116
  },
117
  {
118
- "epoch": 2.56,
119
- "grad_norm": 2.8663551807403564,
120
- "learning_rate": 4.667222222222222e-05,
121
- "loss": 5.602,
122
  "step": 1600
123
  },
124
  {
125
- "epoch": 2.7199999999999998,
126
- "grad_norm": 2.5844039916992188,
127
- "learning_rate": 4.611666666666667e-05,
128
- "loss": 5.5626,
129
  "step": 1700
130
  },
131
  {
132
- "epoch": 2.88,
133
- "grad_norm": 2.871776819229126,
134
- "learning_rate": 4.5561111111111116e-05,
135
- "loss": 5.5071,
136
  "step": 1800
137
  },
138
  {
139
- "epoch": 3.04,
140
- "grad_norm": 2.7475697994232178,
141
- "learning_rate": 4.500555555555556e-05,
142
- "loss": 5.4527,
143
  "step": 1900
144
  },
145
  {
146
- "epoch": 3.2,
147
- "grad_norm": 2.8367366790771484,
148
- "learning_rate": 4.445e-05,
149
- "loss": 5.3543,
150
  "step": 2000
151
  },
152
  {
153
- "epoch": 3.36,
154
- "grad_norm": 2.717906951904297,
155
- "learning_rate": 4.389444444444445e-05,
156
- "loss": 5.3329,
157
  "step": 2100
158
  },
159
  {
160
- "epoch": 3.52,
161
- "grad_norm": 2.6652536392211914,
162
- "learning_rate": 4.333888888888889e-05,
163
- "loss": 5.3185,
164
  "step": 2200
165
  },
166
  {
167
- "epoch": 3.68,
168
- "grad_norm": 2.424541711807251,
169
- "learning_rate": 4.2783333333333334e-05,
170
- "loss": 5.2868,
171
  "step": 2300
172
  },
173
  {
174
- "epoch": 3.84,
175
- "grad_norm": 2.616556406021118,
176
- "learning_rate": 4.222777777777778e-05,
177
- "loss": 5.2582,
178
  "step": 2400
179
  },
180
  {
181
- "epoch": 4.0,
182
- "grad_norm": 2.6706628799438477,
183
- "learning_rate": 4.167222222222222e-05,
184
- "loss": 5.249,
185
  "step": 2500
186
  },
187
  {
188
- "epoch": 4.16,
189
- "grad_norm": 2.4817540645599365,
190
- "learning_rate": 4.111666666666667e-05,
191
- "loss": 5.1244,
192
  "step": 2600
193
  },
194
  {
195
- "epoch": 4.32,
196
- "grad_norm": 2.696004867553711,
197
- "learning_rate": 4.056111111111111e-05,
198
- "loss": 5.1048,
199
  "step": 2700
200
  },
201
  {
202
- "epoch": 4.48,
203
- "grad_norm": 2.7203173637390137,
204
- "learning_rate": 4.000555555555556e-05,
205
- "loss": 5.1084,
206
  "step": 2800
207
  },
208
  {
209
- "epoch": 4.64,
210
- "grad_norm": 2.6082541942596436,
211
- "learning_rate": 3.9450000000000003e-05,
212
- "loss": 5.0946,
213
  "step": 2900
214
  },
215
  {
216
- "epoch": 4.8,
217
- "grad_norm": 2.654949426651001,
218
- "learning_rate": 3.889444444444445e-05,
219
- "loss": 5.0804,
220
  "step": 3000
221
  },
222
  {
223
- "epoch": 4.96,
224
- "grad_norm": 3.218290328979492,
225
- "learning_rate": 3.833888888888889e-05,
226
- "loss": 5.0986,
227
  "step": 3100
228
  },
229
  {
230
- "epoch": 5.12,
231
- "grad_norm": 2.50736665725708,
232
- "learning_rate": 3.7783333333333335e-05,
233
- "loss": 4.9823,
234
  "step": 3200
235
  },
236
  {
237
- "epoch": 5.28,
238
- "grad_norm": 2.39935040473938,
239
- "learning_rate": 3.722777777777778e-05,
240
- "loss": 4.9444,
241
  "step": 3300
242
  },
243
  {
244
- "epoch": 5.44,
245
- "grad_norm": 2.9400389194488525,
246
- "learning_rate": 3.667222222222222e-05,
247
- "loss": 4.952,
248
  "step": 3400
249
  },
250
  {
251
- "epoch": 5.6,
252
- "grad_norm": 2.8050739765167236,
253
- "learning_rate": 3.611666666666667e-05,
254
- "loss": 4.9455,
255
  "step": 3500
256
  },
257
  {
258
- "epoch": 5.76,
259
- "grad_norm": 2.614954948425293,
260
- "learning_rate": 3.556111111111111e-05,
261
- "loss": 4.9633,
262
  "step": 3600
263
  },
264
  {
265
- "epoch": 5.92,
266
- "grad_norm": 2.524243116378784,
267
- "learning_rate": 3.500555555555556e-05,
268
- "loss": 4.9411,
269
  "step": 3700
270
  },
271
  {
272
- "epoch": 6.08,
273
- "grad_norm": 2.5119824409484863,
274
- "learning_rate": 3.445e-05,
275
- "loss": 4.892,
276
  "step": 3800
277
  },
278
  {
279
- "epoch": 6.24,
280
- "grad_norm": 2.7221860885620117,
281
- "learning_rate": 3.389444444444445e-05,
282
- "loss": 4.8186,
283
  "step": 3900
284
  },
285
  {
286
- "epoch": 6.4,
287
- "grad_norm": 2.6388821601867676,
288
- "learning_rate": 3.333888888888889e-05,
289
- "loss": 4.8228,
290
  "step": 4000
291
  },
292
  {
293
- "epoch": 6.5600000000000005,
294
- "grad_norm": 2.783097505569458,
295
- "learning_rate": 3.2783333333333335e-05,
296
- "loss": 4.8326,
297
  "step": 4100
298
  },
299
  {
300
- "epoch": 6.72,
301
- "grad_norm": 2.732416868209839,
302
- "learning_rate": 3.222777777777778e-05,
303
- "loss": 4.8381,
304
  "step": 4200
305
  },
306
  {
307
- "epoch": 6.88,
308
- "grad_norm": 2.6935789585113525,
309
- "learning_rate": 3.167222222222222e-05,
310
- "loss": 4.8337,
311
  "step": 4300
312
  },
313
  {
314
- "epoch": 7.04,
315
- "grad_norm": 2.742158889770508,
316
- "learning_rate": 3.1116666666666666e-05,
317
- "loss": 4.7884,
318
  "step": 4400
319
  },
320
  {
321
- "epoch": 7.2,
322
- "grad_norm": 2.572331666946411,
323
- "learning_rate": 3.056111111111111e-05,
324
- "loss": 4.7088,
325
  "step": 4500
326
  },
327
  {
328
- "epoch": 7.36,
329
- "grad_norm": 2.7174787521362305,
330
- "learning_rate": 3.000555555555556e-05,
331
- "loss": 4.7344,
332
  "step": 4600
333
  },
334
  {
335
- "epoch": 7.52,
336
- "grad_norm": 2.2955660820007324,
337
- "learning_rate": 2.945e-05,
338
- "loss": 4.746,
339
  "step": 4700
340
  },
341
  {
342
- "epoch": 7.68,
343
- "grad_norm": 2.6039907932281494,
344
- "learning_rate": 2.8894444444444445e-05,
345
- "loss": 4.7329,
346
  "step": 4800
347
  },
348
  {
349
- "epoch": 7.84,
350
- "grad_norm": 2.8570940494537354,
351
- "learning_rate": 2.8338888888888892e-05,
352
- "loss": 4.7312,
353
  "step": 4900
354
  },
355
  {
356
- "epoch": 8.0,
357
- "grad_norm": 3.2475857734680176,
358
- "learning_rate": 2.7783333333333332e-05,
359
- "loss": 4.7324,
360
  "step": 5000
361
  },
362
  {
363
- "epoch": 8.16,
364
- "grad_norm": 2.8648529052734375,
365
- "learning_rate": 2.722777777777778e-05,
366
- "loss": 4.619,
367
  "step": 5100
368
  },
369
  {
370
- "epoch": 8.32,
371
- "grad_norm": 2.7932467460632324,
372
- "learning_rate": 2.6672222222222226e-05,
373
- "loss": 4.6577,
374
  "step": 5200
375
  },
376
  {
377
- "epoch": 8.48,
378
- "grad_norm": 2.5735385417938232,
379
- "learning_rate": 2.6116666666666667e-05,
380
- "loss": 4.6458,
381
  "step": 5300
382
  },
383
  {
384
- "epoch": 8.64,
385
- "grad_norm": 2.3901100158691406,
386
- "learning_rate": 2.5561111111111114e-05,
387
- "loss": 4.6412,
388
  "step": 5400
389
  },
390
  {
391
- "epoch": 8.8,
392
- "grad_norm": 2.8626747131347656,
393
- "learning_rate": 2.5005555555555554e-05,
394
- "loss": 4.6545,
395
  "step": 5500
396
  },
397
  {
398
- "epoch": 8.96,
399
- "grad_norm": 2.960085868835449,
400
- "learning_rate": 2.445e-05,
401
- "loss": 4.6494,
402
  "step": 5600
403
  },
404
  {
405
- "epoch": 9.12,
406
- "grad_norm": 2.6465635299682617,
407
- "learning_rate": 2.3894444444444445e-05,
408
- "loss": 4.5837,
409
  "step": 5700
410
  },
411
  {
412
- "epoch": 9.28,
413
- "grad_norm": 2.3963518142700195,
414
- "learning_rate": 2.3338888888888892e-05,
415
- "loss": 4.5695,
416
  "step": 5800
417
  },
418
  {
419
- "epoch": 9.44,
420
- "grad_norm": 2.539828300476074,
421
- "learning_rate": 2.2783333333333336e-05,
422
- "loss": 4.5647,
423
  "step": 5900
424
  },
425
  {
426
- "epoch": 9.6,
427
- "grad_norm": 2.7697598934173584,
428
- "learning_rate": 2.2227777777777776e-05,
429
- "loss": 4.5834,
430
  "step": 6000
431
  },
432
  {
433
- "epoch": 9.76,
434
- "grad_norm": 2.8896372318267822,
435
- "learning_rate": 2.1672222222222223e-05,
436
- "loss": 4.5762,
437
  "step": 6100
438
  },
439
  {
440
- "epoch": 9.92,
441
- "grad_norm": 2.9072511196136475,
442
- "learning_rate": 2.1116666666666667e-05,
443
- "loss": 4.6064,
444
  "step": 6200
445
  },
446
  {
447
- "epoch": 10.08,
448
- "grad_norm": 2.598778247833252,
449
- "learning_rate": 2.056111111111111e-05,
450
- "loss": 4.5386,
451
  "step": 6300
452
  },
453
  {
454
- "epoch": 10.24,
455
- "grad_norm": 2.8078835010528564,
456
- "learning_rate": 2.0005555555555555e-05,
457
- "loss": 4.4946,
458
  "step": 6400
459
  },
460
  {
461
- "epoch": 10.4,
462
- "grad_norm": 2.434978723526001,
463
- "learning_rate": 1.9450000000000002e-05,
464
- "loss": 4.5297,
465
  "step": 6500
466
  },
467
  {
468
- "epoch": 10.56,
469
- "grad_norm": 2.5917904376983643,
470
- "learning_rate": 1.8894444444444446e-05,
471
- "loss": 4.5187,
472
  "step": 6600
473
  },
474
  {
475
- "epoch": 10.72,
476
- "grad_norm": 2.5768167972564697,
477
- "learning_rate": 1.833888888888889e-05,
478
- "loss": 4.5535,
479
  "step": 6700
480
  },
481
  {
482
- "epoch": 10.88,
483
- "grad_norm": 2.7409565448760986,
484
- "learning_rate": 1.7783333333333336e-05,
485
- "loss": 4.5306,
486
  "step": 6800
487
  },
488
  {
489
- "epoch": 11.04,
490
- "grad_norm": 2.722594738006592,
491
- "learning_rate": 1.722777777777778e-05,
492
- "loss": 4.5035,
493
  "step": 6900
494
  },
495
  {
496
- "epoch": 11.2,
497
- "grad_norm": 2.68045711517334,
498
- "learning_rate": 1.6672222222222224e-05,
499
- "loss": 4.4649,
500
  "step": 7000
501
  },
502
  {
503
- "epoch": 11.36,
504
- "grad_norm": 2.6111624240875244,
505
- "learning_rate": 1.6116666666666668e-05,
506
- "loss": 4.4618,
507
  "step": 7100
508
  },
509
  {
510
- "epoch": 11.52,
511
- "grad_norm": 3.0513899326324463,
512
- "learning_rate": 1.556111111111111e-05,
513
- "loss": 4.4787,
514
  "step": 7200
515
  },
516
  {
517
- "epoch": 11.68,
518
- "grad_norm": 2.5727720260620117,
519
- "learning_rate": 1.5005555555555557e-05,
520
- "loss": 4.4691,
521
  "step": 7300
522
  },
523
  {
524
- "epoch": 11.84,
525
- "grad_norm": 2.7505650520324707,
526
- "learning_rate": 1.4449999999999999e-05,
527
- "loss": 4.4737,
528
  "step": 7400
529
  },
530
  {
531
- "epoch": 12.0,
532
- "grad_norm": 2.6556284427642822,
533
- "learning_rate": 1.3894444444444446e-05,
534
- "loss": 4.4753,
535
  "step": 7500
536
  },
537
  {
538
- "epoch": 12.16,
539
- "grad_norm": 2.8100340366363525,
540
- "learning_rate": 1.333888888888889e-05,
541
- "loss": 4.4077,
542
  "step": 7600
543
  },
544
  {
545
- "epoch": 12.32,
546
- "grad_norm": 2.6745927333831787,
547
- "learning_rate": 1.2783333333333333e-05,
548
- "loss": 4.4306,
549
  "step": 7700
550
  },
551
  {
552
- "epoch": 12.48,
553
- "grad_norm": 2.9935076236724854,
554
- "learning_rate": 1.2227777777777779e-05,
555
- "loss": 4.4239,
556
  "step": 7800
557
  },
558
  {
559
- "epoch": 12.64,
560
- "grad_norm": 2.893677234649658,
561
- "learning_rate": 1.1672222222222223e-05,
562
- "loss": 4.423,
563
  "step": 7900
564
  },
565
  {
566
- "epoch": 12.8,
567
- "grad_norm": 2.6659703254699707,
568
- "learning_rate": 1.1116666666666666e-05,
569
- "loss": 4.4291,
570
  "step": 8000
571
  },
572
  {
573
- "epoch": 12.96,
574
- "grad_norm": 2.6794395446777344,
575
- "learning_rate": 1.0561111111111112e-05,
576
- "loss": 4.4407,
577
  "step": 8100
578
  },
579
  {
580
- "epoch": 13.12,
581
- "grad_norm": 2.862091541290283,
582
- "learning_rate": 1.0005555555555556e-05,
583
- "loss": 4.4083,
584
  "step": 8200
585
  },
586
  {
587
- "epoch": 13.28,
588
- "grad_norm": 2.6573102474212646,
589
- "learning_rate": 9.450000000000001e-06,
590
- "loss": 4.3949,
591
  "step": 8300
592
  },
593
  {
594
- "epoch": 13.44,
595
- "grad_norm": 2.6582767963409424,
596
- "learning_rate": 8.894444444444445e-06,
597
- "loss": 4.4,
598
  "step": 8400
599
  },
600
  {
601
- "epoch": 13.6,
602
- "grad_norm": 2.802070140838623,
603
- "learning_rate": 8.338888888888888e-06,
604
- "loss": 4.3769,
605
  "step": 8500
606
  },
607
  {
608
- "epoch": 13.76,
609
- "grad_norm": 2.635528802871704,
610
- "learning_rate": 7.783333333333334e-06,
611
- "loss": 4.3896,
612
  "step": 8600
613
  },
614
  {
615
- "epoch": 13.92,
616
- "grad_norm": 2.940291404724121,
617
- "learning_rate": 7.227777777777778e-06,
618
- "loss": 4.3992,
619
  "step": 8700
620
  },
621
  {
622
- "epoch": 14.08,
623
- "grad_norm": 3.0506865978240967,
624
- "learning_rate": 6.672222222222223e-06,
625
- "loss": 4.3739,
626
  "step": 8800
627
  },
628
  {
629
- "epoch": 14.24,
630
- "grad_norm": 2.7096052169799805,
631
- "learning_rate": 6.116666666666667e-06,
632
- "loss": 4.3511,
633
  "step": 8900
634
  },
635
  {
636
- "epoch": 14.4,
637
- "grad_norm": 3.000335693359375,
638
- "learning_rate": 5.561111111111111e-06,
639
- "loss": 4.3541,
640
  "step": 9000
641
  },
642
  {
643
- "epoch": 14.56,
644
- "grad_norm": 3.0403401851654053,
645
- "learning_rate": 5.005555555555556e-06,
646
- "loss": 4.3696,
647
  "step": 9100
648
  },
649
  {
650
- "epoch": 14.72,
651
- "grad_norm": 2.6936028003692627,
652
- "learning_rate": 4.45e-06,
653
- "loss": 4.3765,
654
  "step": 9200
655
  },
656
  {
657
- "epoch": 14.88,
658
- "grad_norm": 2.8382890224456787,
659
- "learning_rate": 3.894444444444444e-06,
660
- "loss": 4.3587,
661
  "step": 9300
662
  },
663
  {
664
- "epoch": 15.04,
665
- "grad_norm": 2.7517287731170654,
666
- "learning_rate": 3.3388888888888893e-06,
667
- "loss": 4.3703,
668
  "step": 9400
669
  },
670
  {
671
- "epoch": 15.2,
672
- "grad_norm": 3.037428140640259,
673
- "learning_rate": 2.7833333333333335e-06,
674
- "loss": 4.3233,
675
  "step": 9500
676
  },
677
  {
678
- "epoch": 15.36,
679
- "grad_norm": 2.624190330505371,
680
- "learning_rate": 2.227777777777778e-06,
681
- "loss": 4.3242,
682
  "step": 9600
683
  },
684
  {
685
- "epoch": 15.52,
686
- "grad_norm": 2.913299560546875,
687
- "learning_rate": 1.6722222222222223e-06,
688
- "loss": 4.3426,
689
  "step": 9700
690
  },
691
  {
692
- "epoch": 15.68,
693
- "grad_norm": 2.480700731277466,
694
- "learning_rate": 1.1166666666666666e-06,
695
- "loss": 4.3416,
696
  "step": 9800
697
  },
698
  {
699
- "epoch": 15.84,
700
- "grad_norm": 2.8008666038513184,
701
- "learning_rate": 5.611111111111111e-07,
702
- "loss": 4.3539,
703
  "step": 9900
704
  },
705
  {
706
- "epoch": 16.0,
707
- "grad_norm": 3.1308672428131104,
708
- "learning_rate": 5.555555555555556e-09,
709
- "loss": 4.353,
710
  "step": 10000
711
  },
712
  {
713
- "epoch": 1.0001,
714
- "step": 10001,
715
- "total_flos": 1.2492364621381632e+17,
716
- "train_loss": 0.0004475532251767499,
717
- "train_runtime": 17.1582,
718
- "train_samples_per_second": 9324.968,
719
- "train_steps_per_second": 582.811
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
720
  }
721
  ],
722
  "logging_steps": 100,
723
- "max_steps": 10000,
724
  "num_input_tokens_seen": 0,
725
  "num_train_epochs": 9223372036854775807,
726
  "save_steps": 2000,
@@ -736,7 +2136,7 @@
736
  "attributes": {}
737
  }
738
  },
739
- "total_flos": 1.2492364621381632e+17,
740
  "train_batch_size": 4,
741
  "trial_name": null,
742
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 1.0,
6
  "eval_steps": 500,
7
+ "global_step": 30000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
+ "epoch": 0.0033333333333333335,
14
+ "grad_norm": 2.432770013809204,
15
  "learning_rate": 4.950000000000001e-06,
16
+ "loss": 4.4748,
17
  "step": 100
18
  },
19
  {
20
+ "epoch": 0.006666666666666667,
21
+ "grad_norm": 3.0658187866210938,
22
  "learning_rate": 9.950000000000001e-06,
23
+ "loss": 4.5848,
24
  "step": 200
25
  },
26
  {
27
+ "epoch": 0.01,
28
+ "grad_norm": 3.668822765350342,
29
  "learning_rate": 1.4950000000000001e-05,
30
+ "loss": 4.5434,
31
  "step": 300
32
  },
33
  {
34
+ "epoch": 0.013333333333333334,
35
+ "grad_norm": 3.464035749435425,
36
  "learning_rate": 1.995e-05,
37
+ "loss": 4.5642,
38
  "step": 400
39
  },
40
  {
41
+ "epoch": 0.016666666666666666,
42
+ "grad_norm": 3.431352376937866,
43
  "learning_rate": 2.495e-05,
44
+ "loss": 4.6208,
45
  "step": 500
46
  },
47
  {
48
+ "epoch": 0.02,
49
+ "grad_norm": 3.2728869915008545,
50
  "learning_rate": 2.995e-05,
51
+ "loss": 4.5531,
52
  "step": 600
53
  },
54
  {
55
+ "epoch": 0.023333333333333334,
56
+ "grad_norm": 3.092519760131836,
57
  "learning_rate": 3.495e-05,
58
+ "loss": 4.9349,
59
  "step": 700
60
  },
61
  {
62
+ "epoch": 0.02666666666666667,
63
+ "grad_norm": 3.0196480751037598,
64
  "learning_rate": 3.995e-05,
65
+ "loss": 4.98,
66
  "step": 800
67
  },
68
  {
69
+ "epoch": 0.03,
70
+ "grad_norm": 3.531619071960449,
71
  "learning_rate": 4.495e-05,
72
+ "loss": 4.963,
73
  "step": 900
74
  },
75
  {
76
+ "epoch": 0.03333333333333333,
77
+ "grad_norm": 3.0364348888397217,
78
  "learning_rate": 4.995e-05,
79
+ "loss": 4.9439,
80
  "step": 1000
81
  },
82
  {
83
+ "epoch": 0.03666666666666667,
84
+ "grad_norm": 2.966171979904175,
85
+ "learning_rate": 4.982931034482759e-05,
86
+ "loss": 4.9424,
87
  "step": 1100
88
  },
89
  {
90
+ "epoch": 0.04,
91
+ "grad_norm": 2.858612060546875,
92
+ "learning_rate": 4.9656896551724144e-05,
93
+ "loss": 4.9295,
94
  "step": 1200
95
  },
96
  {
97
+ "epoch": 0.043333333333333335,
98
+ "grad_norm": 2.722503900527954,
99
+ "learning_rate": 4.948448275862069e-05,
100
+ "loss": 4.9062,
101
  "step": 1300
102
  },
103
  {
104
+ "epoch": 0.04666666666666667,
105
+ "grad_norm": 2.561314344406128,
106
+ "learning_rate": 4.931206896551724e-05,
107
+ "loss": 4.8918,
108
  "step": 1400
109
  },
110
  {
111
+ "epoch": 0.05,
112
+ "grad_norm": 3.596597671508789,
113
+ "learning_rate": 4.91396551724138e-05,
114
+ "loss": 4.9177,
115
  "step": 1500
116
  },
117
  {
118
+ "epoch": 0.05333333333333334,
119
+ "grad_norm": 2.5951080322265625,
120
+ "learning_rate": 4.8967241379310346e-05,
121
+ "loss": 4.8658,
122
  "step": 1600
123
  },
124
  {
125
+ "epoch": 0.056666666666666664,
126
+ "grad_norm": 2.546725034713745,
127
+ "learning_rate": 4.87948275862069e-05,
128
+ "loss": 4.847,
129
  "step": 1700
130
  },
131
  {
132
+ "epoch": 0.06,
133
+ "grad_norm": 2.793475866317749,
134
+ "learning_rate": 4.862241379310345e-05,
135
+ "loss": 4.8603,
136
  "step": 1800
137
  },
138
  {
139
+ "epoch": 0.06333333333333334,
140
+ "grad_norm": 2.6936521530151367,
141
+ "learning_rate": 4.845e-05,
142
+ "loss": 4.8574,
143
  "step": 1900
144
  },
145
  {
146
+ "epoch": 0.06666666666666667,
147
+ "grad_norm": 2.6505532264709473,
148
+ "learning_rate": 4.8277586206896554e-05,
149
+ "loss": 4.8192,
150
  "step": 2000
151
  },
152
  {
153
+ "epoch": 0.07,
154
+ "grad_norm": 2.7143611907958984,
155
+ "learning_rate": 4.81051724137931e-05,
156
+ "loss": 4.8301,
157
  "step": 2100
158
  },
159
  {
160
+ "epoch": 0.07333333333333333,
161
+ "grad_norm": 2.251673460006714,
162
+ "learning_rate": 4.793275862068966e-05,
163
+ "loss": 4.8221,
164
  "step": 2200
165
  },
166
  {
167
+ "epoch": 0.07666666666666666,
168
+ "grad_norm": 2.6628541946411133,
169
+ "learning_rate": 4.776034482758621e-05,
170
+ "loss": 4.8107,
171
  "step": 2300
172
  },
173
  {
174
+ "epoch": 0.08,
175
+ "grad_norm": 2.4569995403289795,
176
+ "learning_rate": 4.758793103448276e-05,
177
+ "loss": 4.794,
178
  "step": 2400
179
  },
180
  {
181
+ "epoch": 0.08333333333333333,
182
+ "grad_norm": 2.386894702911377,
183
+ "learning_rate": 4.741551724137932e-05,
184
+ "loss": 4.7992,
185
  "step": 2500
186
  },
187
  {
188
+ "epoch": 0.08666666666666667,
189
+ "grad_norm": 2.4557945728302,
190
+ "learning_rate": 4.724310344827587e-05,
191
+ "loss": 4.7774,
192
  "step": 2600
193
  },
194
  {
195
+ "epoch": 0.09,
196
+ "grad_norm": 2.6066713333129883,
197
+ "learning_rate": 4.7070689655172415e-05,
198
+ "loss": 4.7684,
199
  "step": 2700
200
  },
201
  {
202
+ "epoch": 0.09333333333333334,
203
+ "grad_norm": 2.1568965911865234,
204
+ "learning_rate": 4.689827586206897e-05,
205
+ "loss": 4.8058,
206
  "step": 2800
207
  },
208
  {
209
+ "epoch": 0.09666666666666666,
210
+ "grad_norm": 2.782592535018921,
211
+ "learning_rate": 4.672586206896552e-05,
212
+ "loss": 4.7507,
213
  "step": 2900
214
  },
215
  {
216
+ "epoch": 0.1,
217
+ "grad_norm": 2.0947823524475098,
218
+ "learning_rate": 4.655344827586207e-05,
219
+ "loss": 4.7529,
220
  "step": 3000
221
  },
222
  {
223
+ "epoch": 0.10333333333333333,
224
+ "grad_norm": 2.939363956451416,
225
+ "learning_rate": 4.6381034482758624e-05,
226
+ "loss": 4.7397,
227
  "step": 3100
228
  },
229
  {
230
+ "epoch": 0.10666666666666667,
231
+ "grad_norm": 2.1280272006988525,
232
+ "learning_rate": 4.620862068965517e-05,
233
+ "loss": 4.7205,
234
  "step": 3200
235
  },
236
  {
237
+ "epoch": 0.11,
238
+ "grad_norm": 2.5565991401672363,
239
+ "learning_rate": 4.603620689655173e-05,
240
+ "loss": 4.7345,
241
  "step": 3300
242
  },
243
  {
244
+ "epoch": 0.11333333333333333,
245
+ "grad_norm": 2.393437147140503,
246
+ "learning_rate": 4.5863793103448277e-05,
247
+ "loss": 4.7259,
248
  "step": 3400
249
  },
250
  {
251
+ "epoch": 0.11666666666666667,
252
+ "grad_norm": 2.3334264755249023,
253
+ "learning_rate": 4.5691379310344825e-05,
254
+ "loss": 4.7246,
255
  "step": 3500
256
  },
257
  {
258
+ "epoch": 0.12,
259
+ "grad_norm": 2.3572139739990234,
260
+ "learning_rate": 4.551896551724138e-05,
261
+ "loss": 4.7418,
262
  "step": 3600
263
  },
264
  {
265
+ "epoch": 0.12333333333333334,
266
+ "grad_norm": 2.216188907623291,
267
+ "learning_rate": 4.534655172413793e-05,
268
+ "loss": 4.7028,
269
  "step": 3700
270
  },
271
  {
272
+ "epoch": 0.12666666666666668,
273
+ "grad_norm": 2.218505859375,
274
+ "learning_rate": 4.5174137931034485e-05,
275
+ "loss": 4.7195,
276
  "step": 3800
277
  },
278
  {
279
+ "epoch": 0.13,
280
+ "grad_norm": 2.278543710708618,
281
+ "learning_rate": 4.5001724137931034e-05,
282
+ "loss": 4.713,
283
  "step": 3900
284
  },
285
  {
286
+ "epoch": 0.13333333333333333,
287
+ "grad_norm": 2.791719913482666,
288
+ "learning_rate": 4.482931034482759e-05,
289
+ "loss": 4.7183,
290
  "step": 4000
291
  },
292
  {
293
+ "epoch": 0.13666666666666666,
294
+ "grad_norm": 2.6032369136810303,
295
+ "learning_rate": 4.4656896551724145e-05,
296
+ "loss": 4.6735,
297
  "step": 4100
298
  },
299
  {
300
+ "epoch": 0.14,
301
+ "grad_norm": 2.133446216583252,
302
+ "learning_rate": 4.448448275862069e-05,
303
+ "loss": 4.7103,
304
  "step": 4200
305
  },
306
  {
307
+ "epoch": 0.14333333333333334,
308
+ "grad_norm": 2.0948398113250732,
309
+ "learning_rate": 4.431206896551724e-05,
310
+ "loss": 4.7108,
311
  "step": 4300
312
  },
313
  {
314
+ "epoch": 0.14666666666666667,
315
+ "grad_norm": 2.1138408184051514,
316
+ "learning_rate": 4.41396551724138e-05,
317
+ "loss": 4.7027,
318
  "step": 4400
319
  },
320
  {
321
+ "epoch": 0.15,
322
+ "grad_norm": 2.366734743118286,
323
+ "learning_rate": 4.3967241379310346e-05,
324
+ "loss": 4.6546,
325
  "step": 4500
326
  },
327
  {
328
+ "epoch": 0.15333333333333332,
329
+ "grad_norm": 2.615391254425049,
330
+ "learning_rate": 4.37948275862069e-05,
331
+ "loss": 4.6963,
332
  "step": 4600
333
  },
334
  {
335
+ "epoch": 0.15666666666666668,
336
+ "grad_norm": 2.0809595584869385,
337
+ "learning_rate": 4.362241379310345e-05,
338
+ "loss": 4.6004,
339
  "step": 4700
340
  },
341
  {
342
+ "epoch": 0.16,
343
+ "grad_norm": 2.1302947998046875,
344
+ "learning_rate": 4.345e-05,
345
+ "loss": 4.6918,
346
  "step": 4800
347
  },
348
  {
349
+ "epoch": 0.16333333333333333,
350
+ "grad_norm": 2.247417449951172,
351
+ "learning_rate": 4.3277586206896555e-05,
352
+ "loss": 4.6564,
353
  "step": 4900
354
  },
355
  {
356
+ "epoch": 0.16666666666666666,
357
+ "grad_norm": 2.05452561378479,
358
+ "learning_rate": 4.31051724137931e-05,
359
+ "loss": 4.6742,
360
  "step": 5000
361
  },
362
  {
363
+ "epoch": 0.17,
364
+ "grad_norm": 2.0982797145843506,
365
+ "learning_rate": 4.293275862068966e-05,
366
+ "loss": 4.6391,
367
  "step": 5100
368
  },
369
  {
370
+ "epoch": 0.17333333333333334,
371
+ "grad_norm": 2.3988752365112305,
372
+ "learning_rate": 4.276034482758621e-05,
373
+ "loss": 4.6858,
374
  "step": 5200
375
  },
376
  {
377
+ "epoch": 0.17666666666666667,
378
+ "grad_norm": 2.203742265701294,
379
+ "learning_rate": 4.2587931034482756e-05,
380
+ "loss": 4.6463,
381
  "step": 5300
382
  },
383
  {
384
+ "epoch": 0.18,
385
+ "grad_norm": 2.1824591159820557,
386
+ "learning_rate": 4.241551724137931e-05,
387
+ "loss": 4.6393,
388
  "step": 5400
389
  },
390
  {
391
+ "epoch": 0.18333333333333332,
392
+ "grad_norm": 2.5369467735290527,
393
+ "learning_rate": 4.224310344827586e-05,
394
+ "loss": 4.6091,
395
  "step": 5500
396
  },
397
  {
398
+ "epoch": 0.18666666666666668,
399
+ "grad_norm": 2.1592929363250732,
400
+ "learning_rate": 4.2070689655172416e-05,
401
+ "loss": 4.6441,
402
  "step": 5600
403
  },
404
  {
405
+ "epoch": 0.19,
406
+ "grad_norm": 2.350390672683716,
407
+ "learning_rate": 4.189827586206897e-05,
408
+ "loss": 4.604,
409
  "step": 5700
410
  },
411
  {
412
+ "epoch": 0.19333333333333333,
413
+ "grad_norm": 2.2912168502807617,
414
+ "learning_rate": 4.172586206896552e-05,
415
+ "loss": 4.6515,
416
  "step": 5800
417
  },
418
  {
419
+ "epoch": 0.19666666666666666,
420
+ "grad_norm": 2.186971664428711,
421
+ "learning_rate": 4.1553448275862075e-05,
422
+ "loss": 4.6237,
423
  "step": 5900
424
  },
425
  {
426
+ "epoch": 0.2,
427
+ "grad_norm": 2.28682804107666,
428
+ "learning_rate": 4.1381034482758624e-05,
429
+ "loss": 4.6443,
430
  "step": 6000
431
  },
432
  {
433
+ "epoch": 0.20333333333333334,
434
+ "grad_norm": 2.299591064453125,
435
+ "learning_rate": 4.120862068965517e-05,
436
+ "loss": 4.6224,
437
  "step": 6100
438
  },
439
  {
440
+ "epoch": 0.20666666666666667,
441
+ "grad_norm": 2.407121181488037,
442
+ "learning_rate": 4.103620689655173e-05,
443
+ "loss": 4.6194,
444
  "step": 6200
445
  },
446
  {
447
+ "epoch": 0.21,
448
+ "grad_norm": 2.0112767219543457,
449
+ "learning_rate": 4.086379310344828e-05,
450
+ "loss": 4.6089,
451
  "step": 6300
452
  },
453
  {
454
+ "epoch": 0.21333333333333335,
455
+ "grad_norm": 2.166243076324463,
456
+ "learning_rate": 4.069137931034483e-05,
457
+ "loss": 4.6085,
458
  "step": 6400
459
  },
460
  {
461
+ "epoch": 0.21666666666666667,
462
+ "grad_norm": 2.0218312740325928,
463
+ "learning_rate": 4.051896551724138e-05,
464
+ "loss": 4.6101,
465
  "step": 6500
466
  },
467
  {
468
+ "epoch": 0.22,
469
+ "grad_norm": 2.7403626441955566,
470
+ "learning_rate": 4.034655172413793e-05,
471
+ "loss": 4.6245,
472
  "step": 6600
473
  },
474
  {
475
+ "epoch": 0.22333333333333333,
476
+ "grad_norm": 2.2210118770599365,
477
+ "learning_rate": 4.0174137931034485e-05,
478
+ "loss": 4.5907,
479
  "step": 6700
480
  },
481
  {
482
+ "epoch": 0.22666666666666666,
483
+ "grad_norm": 2.169027090072632,
484
+ "learning_rate": 4.0001724137931034e-05,
485
+ "loss": 4.5893,
486
  "step": 6800
487
  },
488
  {
489
+ "epoch": 0.23,
490
+ "grad_norm": 2.4303510189056396,
491
+ "learning_rate": 3.982931034482759e-05,
492
+ "loss": 4.6107,
493
  "step": 6900
494
  },
495
  {
496
+ "epoch": 0.23333333333333334,
497
+ "grad_norm": 2.163461446762085,
498
+ "learning_rate": 3.965689655172414e-05,
499
+ "loss": 4.5775,
500
  "step": 7000
501
  },
502
  {
503
+ "epoch": 0.23666666666666666,
504
+ "grad_norm": 2.205695390701294,
505
+ "learning_rate": 3.948448275862069e-05,
506
+ "loss": 4.5853,
507
  "step": 7100
508
  },
509
  {
510
+ "epoch": 0.24,
511
+ "grad_norm": 2.0187084674835205,
512
+ "learning_rate": 3.931206896551725e-05,
513
+ "loss": 4.5793,
514
  "step": 7200
515
  },
516
  {
517
+ "epoch": 0.24333333333333335,
518
+ "grad_norm": 1.859401822090149,
519
+ "learning_rate": 3.91396551724138e-05,
520
+ "loss": 4.6034,
521
  "step": 7300
522
  },
523
  {
524
+ "epoch": 0.24666666666666667,
525
+ "grad_norm": 2.290074586868286,
526
+ "learning_rate": 3.8967241379310347e-05,
527
+ "loss": 4.5672,
528
  "step": 7400
529
  },
530
  {
531
+ "epoch": 0.25,
532
+ "grad_norm": 2.1642653942108154,
533
+ "learning_rate": 3.87948275862069e-05,
534
+ "loss": 4.5999,
535
  "step": 7500
536
  },
537
  {
538
+ "epoch": 0.25333333333333335,
539
+ "grad_norm": 2.244406223297119,
540
+ "learning_rate": 3.862241379310345e-05,
541
+ "loss": 4.5578,
542
  "step": 7600
543
  },
544
  {
545
+ "epoch": 0.25666666666666665,
546
+ "grad_norm": 1.9028890132904053,
547
+ "learning_rate": 3.845e-05,
548
+ "loss": 4.5886,
549
  "step": 7700
550
  },
551
  {
552
+ "epoch": 0.26,
553
+ "grad_norm": 2.019014835357666,
554
+ "learning_rate": 3.8277586206896555e-05,
555
+ "loss": 4.5244,
556
  "step": 7800
557
  },
558
  {
559
+ "epoch": 0.2633333333333333,
560
+ "grad_norm": 2.1580286026000977,
561
+ "learning_rate": 3.8105172413793104e-05,
562
+ "loss": 4.6004,
563
  "step": 7900
564
  },
565
  {
566
+ "epoch": 0.26666666666666666,
567
+ "grad_norm": 2.341559410095215,
568
+ "learning_rate": 3.793275862068966e-05,
569
+ "loss": 4.5605,
570
  "step": 8000
571
  },
572
  {
573
+ "epoch": 0.27,
574
+ "grad_norm": 2.279217481613159,
575
+ "learning_rate": 3.776034482758621e-05,
576
+ "loss": 4.5713,
577
  "step": 8100
578
  },
579
  {
580
+ "epoch": 0.2733333333333333,
581
+ "grad_norm": 1.8367992639541626,
582
+ "learning_rate": 3.7587931034482757e-05,
583
+ "loss": 4.5318,
584
  "step": 8200
585
  },
586
  {
587
+ "epoch": 0.27666666666666667,
588
+ "grad_norm": 2.3710546493530273,
589
+ "learning_rate": 3.741724137931035e-05,
590
+ "loss": 4.5687,
591
  "step": 8300
592
  },
593
  {
594
+ "epoch": 0.28,
595
+ "grad_norm": 2.3335001468658447,
596
+ "learning_rate": 3.72448275862069e-05,
597
+ "loss": 4.5419,
598
  "step": 8400
599
  },
600
  {
601
+ "epoch": 0.2833333333333333,
602
+ "grad_norm": 2.4355528354644775,
603
+ "learning_rate": 3.707241379310345e-05,
604
+ "loss": 4.5668,
605
  "step": 8500
606
  },
607
  {
608
+ "epoch": 0.2866666666666667,
609
+ "grad_norm": 2.0626087188720703,
610
+ "learning_rate": 3.69e-05,
611
+ "loss": 4.5458,
612
  "step": 8600
613
  },
614
  {
615
+ "epoch": 0.29,
616
+ "grad_norm": 2.086386203765869,
617
+ "learning_rate": 3.672758620689655e-05,
618
+ "loss": 4.5494,
619
  "step": 8700
620
  },
621
  {
622
+ "epoch": 0.29333333333333333,
623
+ "grad_norm": 2.0059709548950195,
624
+ "learning_rate": 3.655517241379311e-05,
625
+ "loss": 4.5051,
626
  "step": 8800
627
  },
628
  {
629
+ "epoch": 0.2966666666666667,
630
+ "grad_norm": 2.086092233657837,
631
+ "learning_rate": 3.6382758620689655e-05,
632
+ "loss": 4.5408,
633
  "step": 8900
634
  },
635
  {
636
+ "epoch": 0.3,
637
+ "grad_norm": 2.6836307048797607,
638
+ "learning_rate": 3.6210344827586204e-05,
639
+ "loss": 4.5253,
640
  "step": 9000
641
  },
642
  {
643
+ "epoch": 0.30333333333333334,
644
+ "grad_norm": 1.8528039455413818,
645
+ "learning_rate": 3.603793103448276e-05,
646
+ "loss": 4.5349,
647
  "step": 9100
648
  },
649
  {
650
+ "epoch": 0.30666666666666664,
651
+ "grad_norm": 2.2291455268859863,
652
+ "learning_rate": 3.586551724137931e-05,
653
+ "loss": 4.5132,
654
  "step": 9200
655
  },
656
  {
657
+ "epoch": 0.31,
658
+ "grad_norm": 1.973479151725769,
659
+ "learning_rate": 3.5693103448275864e-05,
660
+ "loss": 4.5369,
661
  "step": 9300
662
  },
663
  {
664
+ "epoch": 0.31333333333333335,
665
+ "grad_norm": 2.169776201248169,
666
+ "learning_rate": 3.552068965517242e-05,
667
+ "loss": 4.5442,
668
  "step": 9400
669
  },
670
  {
671
+ "epoch": 0.31666666666666665,
672
+ "grad_norm": 2.312795877456665,
673
+ "learning_rate": 3.534827586206897e-05,
674
+ "loss": 4.548,
675
  "step": 9500
676
  },
677
  {
678
+ "epoch": 0.32,
679
+ "grad_norm": 1.946328043937683,
680
+ "learning_rate": 3.517586206896552e-05,
681
+ "loss": 4.512,
682
  "step": 9600
683
  },
684
  {
685
+ "epoch": 0.3233333333333333,
686
+ "grad_norm": 2.379603147506714,
687
+ "learning_rate": 3.500344827586207e-05,
688
+ "loss": 4.5191,
689
  "step": 9700
690
  },
691
  {
692
+ "epoch": 0.32666666666666666,
693
+ "grad_norm": 2.1291146278381348,
694
+ "learning_rate": 3.483103448275862e-05,
695
+ "loss": 4.5521,
696
  "step": 9800
697
  },
698
  {
699
+ "epoch": 0.33,
700
+ "grad_norm": 2.242424488067627,
701
+ "learning_rate": 3.4658620689655176e-05,
702
+ "loss": 4.4897,
703
  "step": 9900
704
  },
705
  {
706
+ "epoch": 0.3333333333333333,
707
+ "grad_norm": 2.0109705924987793,
708
+ "learning_rate": 3.448793103448276e-05,
709
+ "loss": 4.5254,
710
  "step": 10000
711
  },
712
  {
713
+ "epoch": 0.33666666666666667,
714
+ "grad_norm": 2.0069398880004883,
715
+ "learning_rate": 3.431551724137931e-05,
716
+ "loss": 4.4718,
717
+ "step": 10100
718
+ },
719
+ {
720
+ "epoch": 0.34,
721
+ "grad_norm": 2.110619306564331,
722
+ "learning_rate": 3.414310344827587e-05,
723
+ "loss": 4.5204,
724
+ "step": 10200
725
+ },
726
+ {
727
+ "epoch": 0.3433333333333333,
728
+ "grad_norm": 2.287642478942871,
729
+ "learning_rate": 3.3970689655172415e-05,
730
+ "loss": 4.5132,
731
+ "step": 10300
732
+ },
733
+ {
734
+ "epoch": 0.3466666666666667,
735
+ "grad_norm": 2.430785655975342,
736
+ "learning_rate": 3.379827586206897e-05,
737
+ "loss": 4.5419,
738
+ "step": 10400
739
+ },
740
+ {
741
+ "epoch": 0.35,
742
+ "grad_norm": 2.0009684562683105,
743
+ "learning_rate": 3.362586206896552e-05,
744
+ "loss": 4.4966,
745
+ "step": 10500
746
+ },
747
+ {
748
+ "epoch": 0.35333333333333333,
749
+ "grad_norm": 2.163966417312622,
750
+ "learning_rate": 3.345344827586207e-05,
751
+ "loss": 4.5212,
752
+ "step": 10600
753
+ },
754
+ {
755
+ "epoch": 0.3566666666666667,
756
+ "grad_norm": 2.0159249305725098,
757
+ "learning_rate": 3.3281034482758624e-05,
758
+ "loss": 4.4934,
759
+ "step": 10700
760
+ },
761
+ {
762
+ "epoch": 0.36,
763
+ "grad_norm": 2.01526141166687,
764
+ "learning_rate": 3.310862068965517e-05,
765
+ "loss": 4.5503,
766
+ "step": 10800
767
+ },
768
+ {
769
+ "epoch": 0.36333333333333334,
770
+ "grad_norm": 2.336897850036621,
771
+ "learning_rate": 3.293620689655173e-05,
772
+ "loss": 4.4682,
773
+ "step": 10900
774
+ },
775
+ {
776
+ "epoch": 0.36666666666666664,
777
+ "grad_norm": 2.1598005294799805,
778
+ "learning_rate": 3.276379310344828e-05,
779
+ "loss": 4.5306,
780
+ "step": 11000
781
+ },
782
+ {
783
+ "epoch": 0.37,
784
+ "grad_norm": 2.5167276859283447,
785
+ "learning_rate": 3.2591379310344825e-05,
786
+ "loss": 4.4721,
787
+ "step": 11100
788
+ },
789
+ {
790
+ "epoch": 0.37333333333333335,
791
+ "grad_norm": 1.98994779586792,
792
+ "learning_rate": 3.241896551724138e-05,
793
+ "loss": 4.4932,
794
+ "step": 11200
795
+ },
796
+ {
797
+ "epoch": 0.37666666666666665,
798
+ "grad_norm": 2.22099232673645,
799
+ "learning_rate": 3.224655172413793e-05,
800
+ "loss": 4.475,
801
+ "step": 11300
802
+ },
803
+ {
804
+ "epoch": 0.38,
805
+ "grad_norm": 1.780299186706543,
806
+ "learning_rate": 3.2074137931034485e-05,
807
+ "loss": 4.5303,
808
+ "step": 11400
809
+ },
810
+ {
811
+ "epoch": 0.38333333333333336,
812
+ "grad_norm": 2.1039958000183105,
813
+ "learning_rate": 3.190172413793104e-05,
814
+ "loss": 4.4876,
815
+ "step": 11500
816
+ },
817
+ {
818
+ "epoch": 0.38666666666666666,
819
+ "grad_norm": 2.0175621509552,
820
+ "learning_rate": 3.172931034482759e-05,
821
+ "loss": 4.5166,
822
+ "step": 11600
823
+ },
824
+ {
825
+ "epoch": 0.39,
826
+ "grad_norm": 2.2640490531921387,
827
+ "learning_rate": 3.155689655172414e-05,
828
+ "loss": 4.4593,
829
+ "step": 11700
830
+ },
831
+ {
832
+ "epoch": 0.3933333333333333,
833
+ "grad_norm": 2.259965181350708,
834
+ "learning_rate": 3.138448275862069e-05,
835
+ "loss": 4.5223,
836
+ "step": 11800
837
+ },
838
+ {
839
+ "epoch": 0.39666666666666667,
840
+ "grad_norm": 2.384817600250244,
841
+ "learning_rate": 3.121206896551724e-05,
842
+ "loss": 4.493,
843
+ "step": 11900
844
+ },
845
+ {
846
+ "epoch": 0.4,
847
+ "grad_norm": 1.9847548007965088,
848
+ "learning_rate": 3.10396551724138e-05,
849
+ "loss": 4.4944,
850
+ "step": 12000
851
+ },
852
+ {
853
+ "epoch": 0.4033333333333333,
854
+ "grad_norm": 2.0270016193389893,
855
+ "learning_rate": 3.0867241379310346e-05,
856
+ "loss": 4.4925,
857
+ "step": 12100
858
+ },
859
+ {
860
+ "epoch": 0.4066666666666667,
861
+ "grad_norm": 2.279428482055664,
862
+ "learning_rate": 3.069655172413793e-05,
863
+ "loss": 4.4995,
864
+ "step": 12200
865
+ },
866
+ {
867
+ "epoch": 0.41,
868
+ "grad_norm": 2.1263952255249023,
869
+ "learning_rate": 3.052413793103449e-05,
870
+ "loss": 4.4687,
871
+ "step": 12300
872
+ },
873
+ {
874
+ "epoch": 0.41333333333333333,
875
+ "grad_norm": 2.1277477741241455,
876
+ "learning_rate": 3.0351724137931037e-05,
877
+ "loss": 4.4833,
878
+ "step": 12400
879
+ },
880
+ {
881
+ "epoch": 0.4166666666666667,
882
+ "grad_norm": 1.9847360849380493,
883
+ "learning_rate": 3.017931034482759e-05,
884
+ "loss": 4.4832,
885
+ "step": 12500
886
+ },
887
+ {
888
+ "epoch": 0.42,
889
+ "grad_norm": 1.7778632640838623,
890
+ "learning_rate": 3.000689655172414e-05,
891
+ "loss": 4.4682,
892
+ "step": 12600
893
+ },
894
+ {
895
+ "epoch": 0.42333333333333334,
896
+ "grad_norm": 2.1409926414489746,
897
+ "learning_rate": 2.983448275862069e-05,
898
+ "loss": 4.5006,
899
+ "step": 12700
900
+ },
901
+ {
902
+ "epoch": 0.4266666666666667,
903
+ "grad_norm": 2.5149056911468506,
904
+ "learning_rate": 2.966206896551724e-05,
905
+ "loss": 4.4466,
906
+ "step": 12800
907
+ },
908
+ {
909
+ "epoch": 0.43,
910
+ "grad_norm": 2.458773612976074,
911
+ "learning_rate": 2.9489655172413794e-05,
912
+ "loss": 4.4996,
913
+ "step": 12900
914
+ },
915
+ {
916
+ "epoch": 0.43333333333333335,
917
+ "grad_norm": 1.972216248512268,
918
+ "learning_rate": 2.9317241379310346e-05,
919
+ "loss": 4.4611,
920
+ "step": 13000
921
+ },
922
+ {
923
+ "epoch": 0.43666666666666665,
924
+ "grad_norm": 2.464979887008667,
925
+ "learning_rate": 2.9144827586206898e-05,
926
+ "loss": 4.5022,
927
+ "step": 13100
928
+ },
929
+ {
930
+ "epoch": 0.44,
931
+ "grad_norm": 2.4846181869506836,
932
+ "learning_rate": 2.8972413793103447e-05,
933
+ "loss": 4.4629,
934
+ "step": 13200
935
+ },
936
+ {
937
+ "epoch": 0.44333333333333336,
938
+ "grad_norm": 2.5245821475982666,
939
+ "learning_rate": 2.88e-05,
940
+ "loss": 4.4802,
941
+ "step": 13300
942
+ },
943
+ {
944
+ "epoch": 0.44666666666666666,
945
+ "grad_norm": 2.218487024307251,
946
+ "learning_rate": 2.862758620689655e-05,
947
+ "loss": 4.4598,
948
+ "step": 13400
949
+ },
950
+ {
951
+ "epoch": 0.45,
952
+ "grad_norm": 1.7457364797592163,
953
+ "learning_rate": 2.8455172413793106e-05,
954
+ "loss": 4.487,
955
+ "step": 13500
956
+ },
957
+ {
958
+ "epoch": 0.4533333333333333,
959
+ "grad_norm": 2.262539863586426,
960
+ "learning_rate": 2.828275862068966e-05,
961
+ "loss": 4.4315,
962
+ "step": 13600
963
+ },
964
+ {
965
+ "epoch": 0.45666666666666667,
966
+ "grad_norm": 2.005768299102783,
967
+ "learning_rate": 2.811034482758621e-05,
968
+ "loss": 4.4736,
969
+ "step": 13700
970
+ },
971
+ {
972
+ "epoch": 0.46,
973
+ "grad_norm": 1.9539450407028198,
974
+ "learning_rate": 2.7937931034482763e-05,
975
+ "loss": 4.4243,
976
+ "step": 13800
977
+ },
978
+ {
979
+ "epoch": 0.4633333333333333,
980
+ "grad_norm": 2.2052249908447266,
981
+ "learning_rate": 2.7765517241379315e-05,
982
+ "loss": 4.4758,
983
+ "step": 13900
984
+ },
985
+ {
986
+ "epoch": 0.4666666666666667,
987
+ "grad_norm": 2.210599184036255,
988
+ "learning_rate": 2.7593103448275863e-05,
989
+ "loss": 4.4682,
990
+ "step": 14000
991
+ },
992
+ {
993
+ "epoch": 0.47,
994
+ "grad_norm": 1.977975845336914,
995
+ "learning_rate": 2.7420689655172415e-05,
996
+ "loss": 4.4722,
997
+ "step": 14100
998
+ },
999
+ {
1000
+ "epoch": 0.47333333333333333,
1001
+ "grad_norm": 2.3111207485198975,
1002
+ "learning_rate": 2.7248275862068968e-05,
1003
+ "loss": 4.4341,
1004
+ "step": 14200
1005
+ },
1006
+ {
1007
+ "epoch": 0.4766666666666667,
1008
+ "grad_norm": 2.1010982990264893,
1009
+ "learning_rate": 2.707586206896552e-05,
1010
+ "loss": 4.4488,
1011
+ "step": 14300
1012
+ },
1013
+ {
1014
+ "epoch": 0.48,
1015
+ "grad_norm": 2.0630757808685303,
1016
+ "learning_rate": 2.6903448275862068e-05,
1017
+ "loss": 4.4477,
1018
+ "step": 14400
1019
+ },
1020
+ {
1021
+ "epoch": 0.48333333333333334,
1022
+ "grad_norm": 1.975195288658142,
1023
+ "learning_rate": 2.673103448275862e-05,
1024
+ "loss": 4.4461,
1025
+ "step": 14500
1026
+ },
1027
+ {
1028
+ "epoch": 0.4866666666666667,
1029
+ "grad_norm": 2.149717330932617,
1030
+ "learning_rate": 2.6558620689655172e-05,
1031
+ "loss": 4.46,
1032
+ "step": 14600
1033
+ },
1034
+ {
1035
+ "epoch": 0.49,
1036
+ "grad_norm": 2.3318910598754883,
1037
+ "learning_rate": 2.638793103448276e-05,
1038
+ "loss": 4.433,
1039
+ "step": 14700
1040
+ },
1041
+ {
1042
+ "epoch": 0.49333333333333335,
1043
+ "grad_norm": 2.138505220413208,
1044
+ "learning_rate": 2.621551724137931e-05,
1045
+ "loss": 4.4408,
1046
+ "step": 14800
1047
+ },
1048
+ {
1049
+ "epoch": 0.49666666666666665,
1050
+ "grad_norm": 1.8805365562438965,
1051
+ "learning_rate": 2.6043103448275863e-05,
1052
+ "loss": 4.4495,
1053
+ "step": 14900
1054
+ },
1055
+ {
1056
+ "epoch": 0.5,
1057
+ "grad_norm": 2.2338950634002686,
1058
+ "learning_rate": 2.5870689655172415e-05,
1059
+ "loss": 4.4754,
1060
+ "step": 15000
1061
+ },
1062
+ {
1063
+ "epoch": 0.5033333333333333,
1064
+ "grad_norm": 2.114830255508423,
1065
+ "learning_rate": 2.5698275862068967e-05,
1066
+ "loss": 4.4402,
1067
+ "step": 15100
1068
+ },
1069
+ {
1070
+ "epoch": 0.5066666666666667,
1071
+ "grad_norm": 2.1137115955352783,
1072
+ "learning_rate": 2.5525862068965516e-05,
1073
+ "loss": 4.4754,
1074
+ "step": 15200
1075
+ },
1076
+ {
1077
+ "epoch": 0.51,
1078
+ "grad_norm": 2.3145370483398438,
1079
+ "learning_rate": 2.5353448275862068e-05,
1080
+ "loss": 4.4133,
1081
+ "step": 15300
1082
+ },
1083
+ {
1084
+ "epoch": 0.5133333333333333,
1085
+ "grad_norm": 1.9466785192489624,
1086
+ "learning_rate": 2.518103448275862e-05,
1087
+ "loss": 4.4558,
1088
+ "step": 15400
1089
+ },
1090
+ {
1091
+ "epoch": 0.5166666666666667,
1092
+ "grad_norm": 2.052103042602539,
1093
+ "learning_rate": 2.5008620689655172e-05,
1094
+ "loss": 4.4199,
1095
+ "step": 15500
1096
+ },
1097
+ {
1098
+ "epoch": 0.52,
1099
+ "grad_norm": 2.0328545570373535,
1100
+ "learning_rate": 2.4836206896551724e-05,
1101
+ "loss": 4.4633,
1102
+ "step": 15600
1103
+ },
1104
+ {
1105
+ "epoch": 0.5233333333333333,
1106
+ "grad_norm": 1.8531575202941895,
1107
+ "learning_rate": 2.4665517241379314e-05,
1108
+ "loss": 4.4161,
1109
+ "step": 15700
1110
+ },
1111
+ {
1112
+ "epoch": 0.5266666666666666,
1113
+ "grad_norm": 2.1167118549346924,
1114
+ "learning_rate": 2.4493103448275866e-05,
1115
+ "loss": 4.4631,
1116
+ "step": 15800
1117
+ },
1118
+ {
1119
+ "epoch": 0.53,
1120
+ "grad_norm": 2.288839101791382,
1121
+ "learning_rate": 2.4320689655172415e-05,
1122
+ "loss": 4.4275,
1123
+ "step": 15900
1124
+ },
1125
+ {
1126
+ "epoch": 0.5333333333333333,
1127
+ "grad_norm": 2.267571449279785,
1128
+ "learning_rate": 2.4148275862068967e-05,
1129
+ "loss": 4.4367,
1130
+ "step": 16000
1131
+ },
1132
+ {
1133
+ "epoch": 0.5366666666666666,
1134
+ "grad_norm": 2.238534927368164,
1135
+ "learning_rate": 2.397586206896552e-05,
1136
+ "loss": 4.4161,
1137
+ "step": 16100
1138
+ },
1139
+ {
1140
+ "epoch": 0.54,
1141
+ "grad_norm": 1.891422986984253,
1142
+ "learning_rate": 2.380344827586207e-05,
1143
+ "loss": 4.4454,
1144
+ "step": 16200
1145
+ },
1146
+ {
1147
+ "epoch": 0.5433333333333333,
1148
+ "grad_norm": 2.3173861503601074,
1149
+ "learning_rate": 2.363103448275862e-05,
1150
+ "loss": 4.4087,
1151
+ "step": 16300
1152
+ },
1153
+ {
1154
+ "epoch": 0.5466666666666666,
1155
+ "grad_norm": 1.741228461265564,
1156
+ "learning_rate": 2.345862068965517e-05,
1157
+ "loss": 4.4441,
1158
+ "step": 16400
1159
+ },
1160
+ {
1161
+ "epoch": 0.55,
1162
+ "grad_norm": 2.76397442817688,
1163
+ "learning_rate": 2.3286206896551727e-05,
1164
+ "loss": 4.4192,
1165
+ "step": 16500
1166
+ },
1167
+ {
1168
+ "epoch": 0.5533333333333333,
1169
+ "grad_norm": 2.1828739643096924,
1170
+ "learning_rate": 2.311379310344828e-05,
1171
+ "loss": 4.4073,
1172
+ "step": 16600
1173
+ },
1174
+ {
1175
+ "epoch": 0.5566666666666666,
1176
+ "grad_norm": 1.968559741973877,
1177
+ "learning_rate": 2.2941379310344828e-05,
1178
+ "loss": 4.4374,
1179
+ "step": 16700
1180
+ },
1181
+ {
1182
+ "epoch": 0.56,
1183
+ "grad_norm": 2.170126438140869,
1184
+ "learning_rate": 2.276896551724138e-05,
1185
+ "loss": 4.4077,
1186
+ "step": 16800
1187
+ },
1188
+ {
1189
+ "epoch": 0.5633333333333334,
1190
+ "grad_norm": 2.200995922088623,
1191
+ "learning_rate": 2.2596551724137932e-05,
1192
+ "loss": 4.4115,
1193
+ "step": 16900
1194
+ },
1195
+ {
1196
+ "epoch": 0.5666666666666667,
1197
+ "grad_norm": 2.0842859745025635,
1198
+ "learning_rate": 2.2424137931034484e-05,
1199
+ "loss": 4.3951,
1200
+ "step": 17000
1201
+ },
1202
+ {
1203
+ "epoch": 0.57,
1204
+ "grad_norm": 2.1672942638397217,
1205
+ "learning_rate": 2.2251724137931036e-05,
1206
+ "loss": 4.4495,
1207
+ "step": 17100
1208
+ },
1209
+ {
1210
+ "epoch": 0.5733333333333334,
1211
+ "grad_norm": 2.1524171829223633,
1212
+ "learning_rate": 2.2079310344827585e-05,
1213
+ "loss": 4.4148,
1214
+ "step": 17200
1215
+ },
1216
+ {
1217
+ "epoch": 0.5766666666666667,
1218
+ "grad_norm": 2.0464670658111572,
1219
+ "learning_rate": 2.190689655172414e-05,
1220
+ "loss": 4.4217,
1221
+ "step": 17300
1222
+ },
1223
+ {
1224
+ "epoch": 0.58,
1225
+ "grad_norm": 2.345148801803589,
1226
+ "learning_rate": 2.1734482758620693e-05,
1227
+ "loss": 4.3839,
1228
+ "step": 17400
1229
+ },
1230
+ {
1231
+ "epoch": 0.5833333333333334,
1232
+ "grad_norm": 2.089466094970703,
1233
+ "learning_rate": 2.1562068965517245e-05,
1234
+ "loss": 4.4422,
1235
+ "step": 17500
1236
+ },
1237
+ {
1238
+ "epoch": 0.5866666666666667,
1239
+ "grad_norm": 2.0062997341156006,
1240
+ "learning_rate": 2.1389655172413793e-05,
1241
+ "loss": 4.383,
1242
+ "step": 17600
1243
+ },
1244
+ {
1245
+ "epoch": 0.59,
1246
+ "grad_norm": 1.9194973707199097,
1247
+ "learning_rate": 2.1217241379310345e-05,
1248
+ "loss": 4.4357,
1249
+ "step": 17700
1250
+ },
1251
+ {
1252
+ "epoch": 0.5933333333333334,
1253
+ "grad_norm": 2.143671989440918,
1254
+ "learning_rate": 2.1044827586206898e-05,
1255
+ "loss": 4.4016,
1256
+ "step": 17800
1257
+ },
1258
+ {
1259
+ "epoch": 0.5966666666666667,
1260
+ "grad_norm": 2.0662789344787598,
1261
+ "learning_rate": 2.087241379310345e-05,
1262
+ "loss": 4.4194,
1263
+ "step": 17900
1264
+ },
1265
+ {
1266
+ "epoch": 0.6,
1267
+ "grad_norm": 2.1098804473876953,
1268
+ "learning_rate": 2.07e-05,
1269
+ "loss": 4.3904,
1270
+ "step": 18000
1271
+ },
1272
+ {
1273
+ "epoch": 0.6033333333333334,
1274
+ "grad_norm": 2.246016502380371,
1275
+ "learning_rate": 2.0527586206896554e-05,
1276
+ "loss": 4.407,
1277
+ "step": 18100
1278
+ },
1279
+ {
1280
+ "epoch": 0.6066666666666667,
1281
+ "grad_norm": 2.139479637145996,
1282
+ "learning_rate": 2.0355172413793106e-05,
1283
+ "loss": 4.4069,
1284
+ "step": 18200
1285
+ },
1286
+ {
1287
+ "epoch": 0.61,
1288
+ "grad_norm": 2.2395882606506348,
1289
+ "learning_rate": 2.0182758620689658e-05,
1290
+ "loss": 4.4317,
1291
+ "step": 18300
1292
+ },
1293
+ {
1294
+ "epoch": 0.6133333333333333,
1295
+ "grad_norm": 2.2215514183044434,
1296
+ "learning_rate": 2.0010344827586207e-05,
1297
+ "loss": 4.4087,
1298
+ "step": 18400
1299
+ },
1300
+ {
1301
+ "epoch": 0.6166666666666667,
1302
+ "grad_norm": 2.2115671634674072,
1303
+ "learning_rate": 1.983793103448276e-05,
1304
+ "loss": 4.4261,
1305
+ "step": 18500
1306
+ },
1307
+ {
1308
+ "epoch": 0.62,
1309
+ "grad_norm": 2.1851704120635986,
1310
+ "learning_rate": 1.966551724137931e-05,
1311
+ "loss": 4.428,
1312
+ "step": 18600
1313
+ },
1314
+ {
1315
+ "epoch": 0.6233333333333333,
1316
+ "grad_norm": 2.017883539199829,
1317
+ "learning_rate": 1.9493103448275863e-05,
1318
+ "loss": 4.3821,
1319
+ "step": 18700
1320
+ },
1321
+ {
1322
+ "epoch": 0.6266666666666667,
1323
+ "grad_norm": 1.912879228591919,
1324
+ "learning_rate": 1.9320689655172415e-05,
1325
+ "loss": 4.4048,
1326
+ "step": 18800
1327
+ },
1328
+ {
1329
+ "epoch": 0.63,
1330
+ "grad_norm": 2.136014699935913,
1331
+ "learning_rate": 1.9148275862068964e-05,
1332
+ "loss": 4.3849,
1333
+ "step": 18900
1334
+ },
1335
+ {
1336
+ "epoch": 0.6333333333333333,
1337
+ "grad_norm": 1.9832309484481812,
1338
+ "learning_rate": 1.897586206896552e-05,
1339
+ "loss": 4.4062,
1340
+ "step": 19000
1341
+ },
1342
+ {
1343
+ "epoch": 0.6366666666666667,
1344
+ "grad_norm": 1.8475227355957031,
1345
+ "learning_rate": 1.880344827586207e-05,
1346
+ "loss": 4.3949,
1347
+ "step": 19100
1348
+ },
1349
+ {
1350
+ "epoch": 0.64,
1351
+ "grad_norm": 2.476745367050171,
1352
+ "learning_rate": 1.8631034482758623e-05,
1353
+ "loss": 4.416,
1354
+ "step": 19200
1355
+ },
1356
+ {
1357
+ "epoch": 0.6433333333333333,
1358
+ "grad_norm": 2.201724052429199,
1359
+ "learning_rate": 1.8458620689655172e-05,
1360
+ "loss": 4.3844,
1361
+ "step": 19300
1362
+ },
1363
+ {
1364
+ "epoch": 0.6466666666666666,
1365
+ "grad_norm": 1.9169152975082397,
1366
+ "learning_rate": 1.8286206896551724e-05,
1367
+ "loss": 4.4169,
1368
+ "step": 19400
1369
+ },
1370
+ {
1371
+ "epoch": 0.65,
1372
+ "grad_norm": 1.8896160125732422,
1373
+ "learning_rate": 1.8113793103448276e-05,
1374
+ "loss": 4.4032,
1375
+ "step": 19500
1376
+ },
1377
+ {
1378
+ "epoch": 0.6533333333333333,
1379
+ "grad_norm": 1.9147884845733643,
1380
+ "learning_rate": 1.794137931034483e-05,
1381
+ "loss": 4.4098,
1382
+ "step": 19600
1383
+ },
1384
+ {
1385
+ "epoch": 0.6566666666666666,
1386
+ "grad_norm": 2.461538076400757,
1387
+ "learning_rate": 1.776896551724138e-05,
1388
+ "loss": 4.4274,
1389
+ "step": 19700
1390
+ },
1391
+ {
1392
+ "epoch": 0.66,
1393
+ "grad_norm": 2.043869733810425,
1394
+ "learning_rate": 1.7596551724137933e-05,
1395
+ "loss": 4.3963,
1396
+ "step": 19800
1397
+ },
1398
+ {
1399
+ "epoch": 0.6633333333333333,
1400
+ "grad_norm": 2.003953218460083,
1401
+ "learning_rate": 1.7424137931034485e-05,
1402
+ "loss": 4.4025,
1403
+ "step": 19900
1404
+ },
1405
+ {
1406
+ "epoch": 0.6666666666666666,
1407
+ "grad_norm": 2.514071464538574,
1408
+ "learning_rate": 1.7251724137931037e-05,
1409
+ "loss": 4.3973,
1410
+ "step": 20000
1411
+ },
1412
+ {
1413
+ "epoch": 0.67,
1414
+ "grad_norm": 2.3290865421295166,
1415
+ "learning_rate": 1.7079310344827585e-05,
1416
+ "loss": 4.3999,
1417
+ "step": 20100
1418
+ },
1419
+ {
1420
+ "epoch": 0.6733333333333333,
1421
+ "grad_norm": 1.8519926071166992,
1422
+ "learning_rate": 1.6906896551724138e-05,
1423
+ "loss": 4.4046,
1424
+ "step": 20200
1425
+ },
1426
+ {
1427
+ "epoch": 0.6766666666666666,
1428
+ "grad_norm": 2.53118896484375,
1429
+ "learning_rate": 1.673448275862069e-05,
1430
+ "loss": 4.3959,
1431
+ "step": 20300
1432
+ },
1433
+ {
1434
+ "epoch": 0.68,
1435
+ "grad_norm": 1.9727709293365479,
1436
+ "learning_rate": 1.6562068965517242e-05,
1437
+ "loss": 4.4176,
1438
+ "step": 20400
1439
+ },
1440
+ {
1441
+ "epoch": 0.6833333333333333,
1442
+ "grad_norm": 1.9265756607055664,
1443
+ "learning_rate": 1.6389655172413794e-05,
1444
+ "loss": 4.3849,
1445
+ "step": 20500
1446
+ },
1447
+ {
1448
+ "epoch": 0.6866666666666666,
1449
+ "grad_norm": 2.2798376083374023,
1450
+ "learning_rate": 1.6217241379310346e-05,
1451
+ "loss": 4.4101,
1452
+ "step": 20600
1453
+ },
1454
+ {
1455
+ "epoch": 0.69,
1456
+ "grad_norm": 2.1076509952545166,
1457
+ "learning_rate": 1.6044827586206898e-05,
1458
+ "loss": 4.3888,
1459
+ "step": 20700
1460
+ },
1461
+ {
1462
+ "epoch": 0.6933333333333334,
1463
+ "grad_norm": 2.338351011276245,
1464
+ "learning_rate": 1.587241379310345e-05,
1465
+ "loss": 4.3772,
1466
+ "step": 20800
1467
+ },
1468
+ {
1469
+ "epoch": 0.6966666666666667,
1470
+ "grad_norm": 2.0186917781829834,
1471
+ "learning_rate": 1.5700000000000002e-05,
1472
+ "loss": 4.4018,
1473
+ "step": 20900
1474
+ },
1475
+ {
1476
+ "epoch": 0.7,
1477
+ "grad_norm": 2.1765296459198,
1478
+ "learning_rate": 1.552758620689655e-05,
1479
+ "loss": 4.4103,
1480
+ "step": 21000
1481
+ },
1482
+ {
1483
+ "epoch": 0.7033333333333334,
1484
+ "grad_norm": 2.109718084335327,
1485
+ "learning_rate": 1.5355172413793103e-05,
1486
+ "loss": 4.3969,
1487
+ "step": 21100
1488
+ },
1489
+ {
1490
+ "epoch": 0.7066666666666667,
1491
+ "grad_norm": 2.078711748123169,
1492
+ "learning_rate": 1.5182758620689655e-05,
1493
+ "loss": 4.4051,
1494
+ "step": 21200
1495
+ },
1496
+ {
1497
+ "epoch": 0.71,
1498
+ "grad_norm": 2.2366254329681396,
1499
+ "learning_rate": 1.5010344827586207e-05,
1500
+ "loss": 4.377,
1501
+ "step": 21300
1502
+ },
1503
+ {
1504
+ "epoch": 0.7133333333333334,
1505
+ "grad_norm": 2.2516391277313232,
1506
+ "learning_rate": 1.4837931034482761e-05,
1507
+ "loss": 4.4015,
1508
+ "step": 21400
1509
+ },
1510
+ {
1511
+ "epoch": 0.7166666666666667,
1512
+ "grad_norm": 2.1501176357269287,
1513
+ "learning_rate": 1.4665517241379311e-05,
1514
+ "loss": 4.3737,
1515
+ "step": 21500
1516
+ },
1517
+ {
1518
+ "epoch": 0.72,
1519
+ "grad_norm": 1.8726160526275635,
1520
+ "learning_rate": 1.4493103448275863e-05,
1521
+ "loss": 4.3776,
1522
+ "step": 21600
1523
+ },
1524
+ {
1525
+ "epoch": 0.7233333333333334,
1526
+ "grad_norm": 2.260007381439209,
1527
+ "learning_rate": 1.4320689655172414e-05,
1528
+ "loss": 4.3961,
1529
+ "step": 21700
1530
+ },
1531
+ {
1532
+ "epoch": 0.7266666666666667,
1533
+ "grad_norm": 1.9862884283065796,
1534
+ "learning_rate": 1.415e-05,
1535
+ "loss": 4.3974,
1536
+ "step": 21800
1537
+ },
1538
+ {
1539
+ "epoch": 0.73,
1540
+ "grad_norm": 2.1817476749420166,
1541
+ "learning_rate": 1.3977586206896554e-05,
1542
+ "loss": 4.4077,
1543
+ "step": 21900
1544
+ },
1545
+ {
1546
+ "epoch": 0.7333333333333333,
1547
+ "grad_norm": 2.2883946895599365,
1548
+ "learning_rate": 1.3805172413793104e-05,
1549
+ "loss": 4.3457,
1550
+ "step": 22000
1551
+ },
1552
+ {
1553
+ "epoch": 0.7366666666666667,
1554
+ "grad_norm": 2.1526737213134766,
1555
+ "learning_rate": 1.3632758620689656e-05,
1556
+ "loss": 4.4059,
1557
+ "step": 22100
1558
+ },
1559
+ {
1560
+ "epoch": 0.74,
1561
+ "grad_norm": 2.2343320846557617,
1562
+ "learning_rate": 1.3460344827586208e-05,
1563
+ "loss": 4.3799,
1564
+ "step": 22200
1565
+ },
1566
+ {
1567
+ "epoch": 0.7433333333333333,
1568
+ "grad_norm": 2.1139650344848633,
1569
+ "learning_rate": 1.3289655172413793e-05,
1570
+ "loss": 4.3759,
1571
+ "step": 22300
1572
+ },
1573
+ {
1574
+ "epoch": 0.7466666666666667,
1575
+ "grad_norm": 2.2490551471710205,
1576
+ "learning_rate": 1.3117241379310347e-05,
1577
+ "loss": 4.3726,
1578
+ "step": 22400
1579
+ },
1580
+ {
1581
+ "epoch": 0.75,
1582
+ "grad_norm": 2.03560209274292,
1583
+ "learning_rate": 1.2944827586206897e-05,
1584
+ "loss": 4.3795,
1585
+ "step": 22500
1586
+ },
1587
+ {
1588
+ "epoch": 0.7533333333333333,
1589
+ "grad_norm": 2.175682783126831,
1590
+ "learning_rate": 1.277241379310345e-05,
1591
+ "loss": 4.3911,
1592
+ "step": 22600
1593
+ },
1594
+ {
1595
+ "epoch": 0.7566666666666667,
1596
+ "grad_norm": 2.171412467956543,
1597
+ "learning_rate": 1.2600000000000001e-05,
1598
+ "loss": 4.3755,
1599
+ "step": 22700
1600
+ },
1601
+ {
1602
+ "epoch": 0.76,
1603
+ "grad_norm": 2.1491260528564453,
1604
+ "learning_rate": 1.2427586206896552e-05,
1605
+ "loss": 4.3995,
1606
+ "step": 22800
1607
+ },
1608
+ {
1609
+ "epoch": 0.7633333333333333,
1610
+ "grad_norm": 2.0756146907806396,
1611
+ "learning_rate": 1.2255172413793104e-05,
1612
+ "loss": 4.3824,
1613
+ "step": 22900
1614
+ },
1615
+ {
1616
+ "epoch": 0.7666666666666667,
1617
+ "grad_norm": 1.9129120111465454,
1618
+ "learning_rate": 1.2082758620689656e-05,
1619
+ "loss": 4.379,
1620
+ "step": 23000
1621
+ },
1622
+ {
1623
+ "epoch": 0.77,
1624
+ "grad_norm": 2.1584272384643555,
1625
+ "learning_rate": 1.1910344827586208e-05,
1626
+ "loss": 4.393,
1627
+ "step": 23100
1628
+ },
1629
+ {
1630
+ "epoch": 0.7733333333333333,
1631
+ "grad_norm": 2.1815624237060547,
1632
+ "learning_rate": 1.1737931034482758e-05,
1633
+ "loss": 4.3407,
1634
+ "step": 23200
1635
+ },
1636
+ {
1637
+ "epoch": 0.7766666666666666,
1638
+ "grad_norm": 2.2393853664398193,
1639
+ "learning_rate": 1.156551724137931e-05,
1640
+ "loss": 4.3876,
1641
+ "step": 23300
1642
+ },
1643
+ {
1644
+ "epoch": 0.78,
1645
+ "grad_norm": 2.191389560699463,
1646
+ "learning_rate": 1.1393103448275863e-05,
1647
+ "loss": 4.3888,
1648
+ "step": 23400
1649
+ },
1650
+ {
1651
+ "epoch": 0.7833333333333333,
1652
+ "grad_norm": 1.861325740814209,
1653
+ "learning_rate": 1.1220689655172415e-05,
1654
+ "loss": 4.3659,
1655
+ "step": 23500
1656
+ },
1657
+ {
1658
+ "epoch": 0.7866666666666666,
1659
+ "grad_norm": 2.1595823764801025,
1660
+ "learning_rate": 1.1048275862068965e-05,
1661
+ "loss": 4.374,
1662
+ "step": 23600
1663
+ },
1664
+ {
1665
+ "epoch": 0.79,
1666
+ "grad_norm": 2.048743963241577,
1667
+ "learning_rate": 1.0875862068965517e-05,
1668
+ "loss": 4.3554,
1669
+ "step": 23700
1670
+ },
1671
+ {
1672
+ "epoch": 0.7933333333333333,
1673
+ "grad_norm": 1.8800294399261475,
1674
+ "learning_rate": 1.070344827586207e-05,
1675
+ "loss": 4.3815,
1676
+ "step": 23800
1677
+ },
1678
+ {
1679
+ "epoch": 0.7966666666666666,
1680
+ "grad_norm": 2.2559168338775635,
1681
+ "learning_rate": 1.0531034482758621e-05,
1682
+ "loss": 4.3809,
1683
+ "step": 23900
1684
+ },
1685
+ {
1686
+ "epoch": 0.8,
1687
+ "grad_norm": 2.2554898262023926,
1688
+ "learning_rate": 1.0358620689655173e-05,
1689
+ "loss": 4.3688,
1690
+ "step": 24000
1691
+ },
1692
+ {
1693
+ "epoch": 0.8033333333333333,
1694
+ "grad_norm": 2.4968557357788086,
1695
+ "learning_rate": 1.0186206896551724e-05,
1696
+ "loss": 4.3834,
1697
+ "step": 24100
1698
+ },
1699
+ {
1700
+ "epoch": 0.8066666666666666,
1701
+ "grad_norm": 2.2546260356903076,
1702
+ "learning_rate": 1.0013793103448278e-05,
1703
+ "loss": 4.3671,
1704
+ "step": 24200
1705
+ },
1706
+ {
1707
+ "epoch": 0.81,
1708
+ "grad_norm": 2.0959572792053223,
1709
+ "learning_rate": 9.841379310344828e-06,
1710
+ "loss": 4.4036,
1711
+ "step": 24300
1712
+ },
1713
+ {
1714
+ "epoch": 0.8133333333333334,
1715
+ "grad_norm": 2.429842472076416,
1716
+ "learning_rate": 9.66896551724138e-06,
1717
+ "loss": 4.3778,
1718
+ "step": 24400
1719
+ },
1720
+ {
1721
+ "epoch": 0.8166666666666667,
1722
+ "grad_norm": 1.9144500494003296,
1723
+ "learning_rate": 9.49655172413793e-06,
1724
+ "loss": 4.3597,
1725
+ "step": 24500
1726
+ },
1727
+ {
1728
+ "epoch": 0.82,
1729
+ "grad_norm": 2.014716863632202,
1730
+ "learning_rate": 9.324137931034484e-06,
1731
+ "loss": 4.3398,
1732
+ "step": 24600
1733
+ },
1734
+ {
1735
+ "epoch": 0.8233333333333334,
1736
+ "grad_norm": 2.0111021995544434,
1737
+ "learning_rate": 9.151724137931035e-06,
1738
+ "loss": 4.3688,
1739
+ "step": 24700
1740
+ },
1741
+ {
1742
+ "epoch": 0.8266666666666667,
1743
+ "grad_norm": 2.206125259399414,
1744
+ "learning_rate": 8.979310344827587e-06,
1745
+ "loss": 4.4069,
1746
+ "step": 24800
1747
+ },
1748
+ {
1749
+ "epoch": 0.83,
1750
+ "grad_norm": 1.9322938919067383,
1751
+ "learning_rate": 8.806896551724137e-06,
1752
+ "loss": 4.3585,
1753
+ "step": 24900
1754
+ },
1755
+ {
1756
+ "epoch": 0.8333333333333334,
1757
+ "grad_norm": 2.382385492324829,
1758
+ "learning_rate": 8.634482758620691e-06,
1759
+ "loss": 4.379,
1760
+ "step": 25000
1761
+ },
1762
+ {
1763
+ "epoch": 0.8366666666666667,
1764
+ "grad_norm": 2.0957460403442383,
1765
+ "learning_rate": 8.462068965517241e-06,
1766
+ "loss": 4.3633,
1767
+ "step": 25100
1768
+ },
1769
+ {
1770
+ "epoch": 0.84,
1771
+ "grad_norm": 2.191102981567383,
1772
+ "learning_rate": 8.289655172413793e-06,
1773
+ "loss": 4.3723,
1774
+ "step": 25200
1775
+ },
1776
+ {
1777
+ "epoch": 0.8433333333333334,
1778
+ "grad_norm": 2.186511993408203,
1779
+ "learning_rate": 8.117241379310346e-06,
1780
+ "loss": 4.396,
1781
+ "step": 25300
1782
+ },
1783
+ {
1784
+ "epoch": 0.8466666666666667,
1785
+ "grad_norm": 2.2075576782226562,
1786
+ "learning_rate": 7.944827586206898e-06,
1787
+ "loss": 4.3534,
1788
+ "step": 25400
1789
+ },
1790
+ {
1791
+ "epoch": 0.85,
1792
+ "grad_norm": 2.1940252780914307,
1793
+ "learning_rate": 7.772413793103448e-06,
1794
+ "loss": 4.3564,
1795
+ "step": 25500
1796
+ },
1797
+ {
1798
+ "epoch": 0.8533333333333334,
1799
+ "grad_norm": 1.975804090499878,
1800
+ "learning_rate": 7.6e-06,
1801
+ "loss": 4.3497,
1802
+ "step": 25600
1803
+ },
1804
+ {
1805
+ "epoch": 0.8566666666666667,
1806
+ "grad_norm": 2.2161664962768555,
1807
+ "learning_rate": 7.427586206896551e-06,
1808
+ "loss": 4.3383,
1809
+ "step": 25700
1810
+ },
1811
+ {
1812
+ "epoch": 0.86,
1813
+ "grad_norm": 2.422048807144165,
1814
+ "learning_rate": 7.255172413793104e-06,
1815
+ "loss": 4.381,
1816
+ "step": 25800
1817
+ },
1818
+ {
1819
+ "epoch": 0.8633333333333333,
1820
+ "grad_norm": 2.26328444480896,
1821
+ "learning_rate": 7.0827586206896555e-06,
1822
+ "loss": 4.337,
1823
+ "step": 25900
1824
+ },
1825
+ {
1826
+ "epoch": 0.8666666666666667,
1827
+ "grad_norm": 2.0234344005584717,
1828
+ "learning_rate": 6.912068965517242e-06,
1829
+ "loss": 4.3614,
1830
+ "step": 26000
1831
+ },
1832
+ {
1833
+ "epoch": 0.87,
1834
+ "grad_norm": 2.1131584644317627,
1835
+ "learning_rate": 6.739655172413793e-06,
1836
+ "loss": 4.3512,
1837
+ "step": 26100
1838
+ },
1839
+ {
1840
+ "epoch": 0.8733333333333333,
1841
+ "grad_norm": 2.498945713043213,
1842
+ "learning_rate": 6.567241379310344e-06,
1843
+ "loss": 4.3559,
1844
+ "step": 26200
1845
+ },
1846
+ {
1847
+ "epoch": 0.8766666666666667,
1848
+ "grad_norm": 2.271238327026367,
1849
+ "learning_rate": 6.394827586206897e-06,
1850
+ "loss": 4.3568,
1851
+ "step": 26300
1852
+ },
1853
+ {
1854
+ "epoch": 0.88,
1855
+ "grad_norm": 2.2349765300750732,
1856
+ "learning_rate": 6.2224137931034484e-06,
1857
+ "loss": 4.3303,
1858
+ "step": 26400
1859
+ },
1860
+ {
1861
+ "epoch": 0.8833333333333333,
1862
+ "grad_norm": 2.2044858932495117,
1863
+ "learning_rate": 6.0500000000000005e-06,
1864
+ "loss": 4.3573,
1865
+ "step": 26500
1866
+ },
1867
+ {
1868
+ "epoch": 0.8866666666666667,
1869
+ "grad_norm": 2.143218994140625,
1870
+ "learning_rate": 5.877586206896552e-06,
1871
+ "loss": 4.3548,
1872
+ "step": 26600
1873
+ },
1874
+ {
1875
+ "epoch": 0.89,
1876
+ "grad_norm": 2.3432939052581787,
1877
+ "learning_rate": 5.705172413793104e-06,
1878
+ "loss": 4.3687,
1879
+ "step": 26700
1880
+ },
1881
+ {
1882
+ "epoch": 0.8933333333333333,
1883
+ "grad_norm": 1.8604556322097778,
1884
+ "learning_rate": 5.532758620689656e-06,
1885
+ "loss": 4.3866,
1886
+ "step": 26800
1887
+ },
1888
+ {
1889
+ "epoch": 0.8966666666666666,
1890
+ "grad_norm": 2.41178560256958,
1891
+ "learning_rate": 5.360344827586207e-06,
1892
+ "loss": 4.3309,
1893
+ "step": 26900
1894
+ },
1895
+ {
1896
+ "epoch": 0.9,
1897
+ "grad_norm": 2.5105397701263428,
1898
+ "learning_rate": 5.187931034482759e-06,
1899
+ "loss": 4.3829,
1900
+ "step": 27000
1901
+ },
1902
+ {
1903
+ "epoch": 0.9033333333333333,
1904
+ "grad_norm": 2.303903102874756,
1905
+ "learning_rate": 5.0155172413793105e-06,
1906
+ "loss": 4.3343,
1907
+ "step": 27100
1908
+ },
1909
+ {
1910
+ "epoch": 0.9066666666666666,
1911
+ "grad_norm": 2.1825873851776123,
1912
+ "learning_rate": 4.843103448275863e-06,
1913
+ "loss": 4.3467,
1914
+ "step": 27200
1915
+ },
1916
+ {
1917
+ "epoch": 0.91,
1918
+ "grad_norm": 2.1242332458496094,
1919
+ "learning_rate": 4.670689655172414e-06,
1920
+ "loss": 4.3591,
1921
+ "step": 27300
1922
+ },
1923
+ {
1924
+ "epoch": 0.9133333333333333,
1925
+ "grad_norm": 2.355365037918091,
1926
+ "learning_rate": 4.498275862068966e-06,
1927
+ "loss": 4.3175,
1928
+ "step": 27400
1929
+ },
1930
+ {
1931
+ "epoch": 0.9166666666666666,
1932
+ "grad_norm": 2.075387954711914,
1933
+ "learning_rate": 4.325862068965517e-06,
1934
+ "loss": 4.3861,
1935
+ "step": 27500
1936
+ },
1937
+ {
1938
+ "epoch": 0.92,
1939
+ "grad_norm": 2.1146600246429443,
1940
+ "learning_rate": 4.153448275862069e-06,
1941
+ "loss": 4.355,
1942
+ "step": 27600
1943
+ },
1944
+ {
1945
+ "epoch": 0.9233333333333333,
1946
+ "grad_norm": 1.9889869689941406,
1947
+ "learning_rate": 3.9810344827586205e-06,
1948
+ "loss": 4.3627,
1949
+ "step": 27700
1950
+ },
1951
+ {
1952
+ "epoch": 0.9266666666666666,
1953
+ "grad_norm": 2.166405200958252,
1954
+ "learning_rate": 3.8086206896551726e-06,
1955
+ "loss": 4.3459,
1956
+ "step": 27800
1957
+ },
1958
+ {
1959
+ "epoch": 0.93,
1960
+ "grad_norm": 2.054823160171509,
1961
+ "learning_rate": 3.6362068965517243e-06,
1962
+ "loss": 4.3174,
1963
+ "step": 27900
1964
+ },
1965
+ {
1966
+ "epoch": 0.9333333333333333,
1967
+ "grad_norm": 2.1031033992767334,
1968
+ "learning_rate": 3.4637931034482764e-06,
1969
+ "loss": 4.358,
1970
+ "step": 28000
1971
+ },
1972
+ {
1973
+ "epoch": 0.9366666666666666,
1974
+ "grad_norm": 2.0477893352508545,
1975
+ "learning_rate": 3.2913793103448276e-06,
1976
+ "loss": 4.341,
1977
+ "step": 28100
1978
+ },
1979
+ {
1980
+ "epoch": 0.94,
1981
+ "grad_norm": 2.4143428802490234,
1982
+ "learning_rate": 3.1189655172413793e-06,
1983
+ "loss": 4.355,
1984
+ "step": 28200
1985
+ },
1986
+ {
1987
+ "epoch": 0.9433333333333334,
1988
+ "grad_norm": 1.8853615522384644,
1989
+ "learning_rate": 2.946551724137931e-06,
1990
+ "loss": 4.3365,
1991
+ "step": 28300
1992
+ },
1993
+ {
1994
+ "epoch": 0.9466666666666667,
1995
+ "grad_norm": 2.3704171180725098,
1996
+ "learning_rate": 2.7741379310344826e-06,
1997
+ "loss": 4.3356,
1998
+ "step": 28400
1999
+ },
2000
+ {
2001
+ "epoch": 0.95,
2002
+ "grad_norm": 2.3981566429138184,
2003
+ "learning_rate": 2.6017241379310343e-06,
2004
+ "loss": 4.3553,
2005
+ "step": 28500
2006
+ },
2007
+ {
2008
+ "epoch": 0.9533333333333334,
2009
+ "grad_norm": 2.259207010269165,
2010
+ "learning_rate": 2.4310344827586205e-06,
2011
+ "loss": 4.3363,
2012
+ "step": 28600
2013
+ },
2014
+ {
2015
+ "epoch": 0.9566666666666667,
2016
+ "grad_norm": 2.0507473945617676,
2017
+ "learning_rate": 2.258620689655172e-06,
2018
+ "loss": 4.3574,
2019
+ "step": 28700
2020
+ },
2021
+ {
2022
+ "epoch": 0.96,
2023
+ "grad_norm": 2.1110222339630127,
2024
+ "learning_rate": 2.0862068965517243e-06,
2025
+ "loss": 4.3434,
2026
+ "step": 28800
2027
+ },
2028
+ {
2029
+ "epoch": 0.9633333333333334,
2030
+ "grad_norm": 2.7897815704345703,
2031
+ "learning_rate": 1.913793103448276e-06,
2032
+ "loss": 4.3536,
2033
+ "step": 28900
2034
+ },
2035
+ {
2036
+ "epoch": 0.9666666666666667,
2037
+ "grad_norm": 2.439835548400879,
2038
+ "learning_rate": 1.7413793103448276e-06,
2039
+ "loss": 4.353,
2040
+ "step": 29000
2041
+ },
2042
+ {
2043
+ "epoch": 0.97,
2044
+ "grad_norm": 2.11780047416687,
2045
+ "learning_rate": 1.5689655172413793e-06,
2046
+ "loss": 4.3291,
2047
+ "step": 29100
2048
+ },
2049
+ {
2050
+ "epoch": 0.9733333333333334,
2051
+ "grad_norm": 2.232104539871216,
2052
+ "learning_rate": 1.3965517241379312e-06,
2053
+ "loss": 4.3563,
2054
+ "step": 29200
2055
+ },
2056
+ {
2057
+ "epoch": 0.9766666666666667,
2058
+ "grad_norm": 2.321014404296875,
2059
+ "learning_rate": 1.2241379310344828e-06,
2060
+ "loss": 4.3352,
2061
+ "step": 29300
2062
+ },
2063
+ {
2064
+ "epoch": 0.98,
2065
+ "grad_norm": 2.1317617893218994,
2066
+ "learning_rate": 1.0517241379310345e-06,
2067
+ "loss": 4.3548,
2068
+ "step": 29400
2069
+ },
2070
+ {
2071
+ "epoch": 0.9833333333333333,
2072
+ "grad_norm": 2.2252442836761475,
2073
+ "learning_rate": 8.793103448275863e-07,
2074
+ "loss": 4.3548,
2075
+ "step": 29500
2076
+ },
2077
+ {
2078
+ "epoch": 0.9866666666666667,
2079
+ "grad_norm": 2.241938829421997,
2080
+ "learning_rate": 7.068965517241379e-07,
2081
+ "loss": 4.3312,
2082
+ "step": 29600
2083
+ },
2084
+ {
2085
+ "epoch": 0.99,
2086
+ "grad_norm": 2.1634891033172607,
2087
+ "learning_rate": 5.344827586206897e-07,
2088
+ "loss": 4.3697,
2089
+ "step": 29700
2090
+ },
2091
+ {
2092
+ "epoch": 0.9933333333333333,
2093
+ "grad_norm": 2.746436357498169,
2094
+ "learning_rate": 3.6206896551724143e-07,
2095
+ "loss": 4.3528,
2096
+ "step": 29800
2097
+ },
2098
+ {
2099
+ "epoch": 0.9966666666666667,
2100
+ "grad_norm": 2.436894178390503,
2101
+ "learning_rate": 1.8965517241379312e-07,
2102
+ "loss": 4.34,
2103
+ "step": 29900
2104
+ },
2105
+ {
2106
+ "epoch": 1.0,
2107
+ "grad_norm": 2.4377429485321045,
2108
+ "learning_rate": 1.896551724137931e-08,
2109
+ "loss": 4.3691,
2110
+ "step": 30000
2111
+ },
2112
+ {
2113
+ "epoch": 1.0,
2114
+ "step": 30000,
2115
+ "total_flos": 4.0980178796544e+17,
2116
+ "train_loss": 4.49529921875,
2117
+ "train_runtime": 18816.3377,
2118
+ "train_samples_per_second": 25.51,
2119
+ "train_steps_per_second": 1.594
2120
  }
2121
  ],
2122
  "logging_steps": 100,
2123
+ "max_steps": 30000,
2124
  "num_input_tokens_seen": 0,
2125
  "num_train_epochs": 9223372036854775807,
2126
  "save_steps": 2000,
 
2136
  "attributes": {}
2137
  }
2138
  },
2139
+ "total_flos": 4.0980178796544e+17,
2140
  "train_batch_size": 4,
2141
  "trial_name": null,
2142
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7ea4a998b317602911f0d66a372b45f4e97b0f2fbb9e6effe3568b417a1f5d3b
3
  size 5649
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3738b1d95d83de80dfa79724ed211c5cf61fffa774e34afaf060492ba8dbdb1a
3
  size 5649