Upload task output 22683721-f995-4c95-ad47-2bd47697bc9d

Browse files

Files changed (4) hide show

loss.txt +1 -1
model.safetensors +1 -1
trainer_state.json +376 -376
training_args.bin +1 -1

loss.txt CHANGED Viewed

	@@ -1 +1 @@
1	- 600,0.~~12757942080497742~~


1	+ 600,0.1242036521434784

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de788c65166c635cb384206107dc0c6c7b9053ce108d4d43a15b90fcaa90ad09
 size 324662984

 version https://git-lfs.github.com/spec/v1
+oid sha256:8da3dd006f7b033ce16aea3b41d53313e0f1f5fc5a315238d0db5334aa24fa47
 size 324662984

trainer_state.json CHANGED Viewed

@@ -11,874 +11,874 @@
   "log_history": [
     {
       "epoch": 0.025,
-      "grad_norm": 172.0,
-      "learning_rate": 1.4913733827943399e-05,
-      "loss": 0.5808,
       "step": 5
     },
     {
       "epoch": 0.05,
-      "grad_norm": 175.0,
-      "learning_rate": 3.355590111287265e-05,
-      "loss": 0.4361,
       "step": 10
     },
     {
       "epoch": 0.075,
-      "grad_norm": 195.0,
-      "learning_rate": 5.21980683978019e-05,
-      "loss": 0.3371,
       "step": 15
     },
     {
       "epoch": 0.1,
-      "grad_norm": 108.5,
-      "learning_rate": 7.084023568273114e-05,
-      "loss": 0.3287,
       "step": 20
     },
     {
       "epoch": 0.125,
-      "grad_norm": 95.5,
-      "learning_rate": 8.94824029676604e-05,
-      "loss": 0.3412,
       "step": 25
     },
     {
       "epoch": 0.15,
-      "grad_norm": 244.0,
-      "learning_rate": 0.00010812457025258965,
-      "loss": 0.8152,
       "step": 30
     },
     {
       "epoch": 0.175,
-      "grad_norm": 52.5,
-      "learning_rate": 0.0001267667375375189,
-      "loss": 1.1844,
       "step": 35
     },
     {
       "epoch": 0.2,
-      "grad_norm": 15.6875,
-      "learning_rate": 0.00013048306778245657,
-      "loss": 0.4712,
       "step": 40
     },
     {
       "epoch": 0.225,
-      "grad_norm": 17.75,
-      "learning_rate": 0.00013043390874416683,
-      "loss": 0.336,
       "step": 45
     },
     {
       "epoch": 0.25,
-      "grad_norm": 12.25,
-      "learning_rate": 0.00013034697539393133,
-      "loss": 0.3254,
       "step": 50
     },
     {
       "epoch": 0.275,
-      "grad_norm": 15.6875,
-      "learning_rate": 0.00013022233492123342,
-      "loss": 0.32,
       "step": 55
     },
     {
       "epoch": 0.3,
-      "grad_norm": 8.0,
-      "learning_rate": 0.00013006008365882616,
-      "loss": 0.2932,
       "step": 60
     },
     {
       "epoch": 0.325,
-      "grad_norm": 6.03125,
-      "learning_rate": 0.0001298603470082783,
-      "loss": 0.2688,
       "step": 65
     },
     {
       "epoch": 0.35,
-      "grad_norm": 4.0,
-      "learning_rate": 0.00012962327934305313,
-      "loss": 0.2377,
       "step": 70
     },
     {
       "epoch": 0.375,
-      "grad_norm": 13.4375,
-      "learning_rate": 0.00012934906388919573,
-      "loss": 0.2255,
       "step": 75
     },
     {
       "epoch": 0.4,
-      "grad_norm": 3.75,
-      "learning_rate": 0.0001290379125837201,
-      "loss": 0.2182,
       "step": 80
     },
     {
       "epoch": 0.425,
-      "grad_norm": 3.015625,
-      "learning_rate": 0.00012869006591080637,
-      "loss": 0.2016,
       "step": 85
     },
     {
       "epoch": 0.45,
-      "grad_norm": 6.46875,
-      "learning_rate": 0.0001283057927159341,
-      "loss": 0.22,
       "step": 90
     },
     {
       "epoch": 0.475,
-      "grad_norm": 4.40625,
-      "learning_rate": 0.00012788538999809575,
-      "loss": 0.2246,
       "step": 95
     },
     {
       "epoch": 0.5,
-      "grad_norm": 6.3125,
-      "learning_rate": 0.00012742918268025043,
-      "loss": 0.2283,
       "step": 100
     },
     {
       "epoch": 0.525,
-      "grad_norm": 4.6875,
-      "learning_rate": 0.00012693752335819598,
-      "loss": 0.2131,
       "step": 105
     },
     {
       "epoch": 0.55,
-      "grad_norm": 4.03125,
-      "learning_rate": 0.0001264107920280529,
-      "loss": 0.2147,
       "step": 110
     },
     {
       "epoch": 0.575,
-      "grad_norm": 2.734375,
-      "learning_rate": 0.00012584939579257098,
-      "loss": 0.2142,
       "step": 115
     },
     {
       "epoch": 0.6,
-      "grad_norm": 3.46875,
-      "learning_rate": 0.00012525376854648584,
-      "loss": 0.2131,
       "step": 120
     },
     {
       "epoch": 0.625,
-      "grad_norm": 2.4375,
-      "learning_rate": 0.000124624370641168,
-      "loss": 0.2029,
       "step": 125
     },
     {
       "epoch": 0.65,
-      "grad_norm": 2.21875,
-      "learning_rate": 0.00012396168852882444,
-      "loss": 0.1917,
       "step": 130
     },
     {
       "epoch": 0.675,
-      "grad_norm": 2.21875,
-      "learning_rate": 0.00012326623438652673,
-      "loss": 0.1877,
       "step": 135
     },
     {
       "epoch": 0.7,
-      "grad_norm": 2.3125,
-      "learning_rate": 0.00012253854572035722,
-      "loss": 0.1902,
       "step": 140
     },
     {
       "epoch": 0.725,
-      "grad_norm": 2.625,
-      "learning_rate": 0.00012177918494997859,
-      "loss": 0.1907,
       "step": 145
     },
     {
       "epoch": 0.75,
-      "grad_norm": 2.234375,
-      "learning_rate": 0.00012098873897394814,
-      "loss": 0.1798,
       "step": 150
     },
     {
       "epoch": 0.775,
-      "grad_norm": 2.4375,
-      "learning_rate": 0.00012016781871611264,
-      "loss": 0.1809,
       "step": 155
     },
     {
       "epoch": 0.8,
-      "grad_norm": 14.0625,
-      "learning_rate": 0.00011931705865343452,
-      "loss": 0.1879,
       "step": 160
     },
     {
       "epoch": 0.825,
-      "grad_norm": 8.5625,
-      "learning_rate": 0.00011843711632561409,
-      "loss": 0.2072,
       "step": 165
     },
     {
       "epoch": 0.85,
-      "grad_norm": 9.375,
-      "learning_rate": 0.00011752867182688697,
-      "loss": 0.2098,
       "step": 170
     },
     {
       "epoch": 0.875,
-      "grad_norm": 4.78125,
-      "learning_rate": 0.00011659242728038948,
-      "loss": 0.2244,
       "step": 175
     },
     {
       "epoch": 0.9,
-      "grad_norm": 16.75,
-      "learning_rate": 0.00011562910629549808,
-      "loss": 0.248,
       "step": 180
     },
     {
       "epoch": 0.925,
-      "grad_norm": 3.15625,
-      "learning_rate": 0.0001146394534085627,
-      "loss": 0.2085,
       "step": 185
     },
     {
       "epoch": 0.95,
-      "grad_norm": 9.6875,
-      "learning_rate": 0.00011362423350746566,
-      "loss": 0.2193,
       "step": 190
     },
     {
       "epoch": 0.975,
-      "grad_norm": 7.875,
-      "learning_rate": 0.00011258423124045127,
-      "loss": 0.2158,
       "step": 195
     },
     {
       "epoch": 1.0,
-      "grad_norm": 7.65625,
-      "learning_rate": 0.00011152025040968297,
-      "loss": 0.2198,
       "step": 200
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.23302562534809113,
-      "eval_runtime": 0.6083,
-      "eval_samples_per_second": 42.739,
-      "eval_steps_per_second": 42.739,
       "step": 200
     },
     {
       "epoch": 1.025,
-      "grad_norm": 10.625,
-      "learning_rate": 0.00011043311334999674,
-      "loss": 0.2557,
       "step": 205
     },
     {
       "epoch": 1.05,
-      "grad_norm": 7.46875,
-      "learning_rate": 0.00010932366029333083,
-      "loss": 0.244,
       "step": 210
     },
     {
       "epoch": 1.075,
-      "grad_norm": 4.5625,
-      "learning_rate": 0.00010819274871932301,
-      "loss": 0.2418,
       "step": 215
     },
     {
       "epoch": 1.1,
-      "grad_norm": 4.375,
-      "learning_rate": 0.00010704125269257747,
-      "loss": 0.2404,
       "step": 220
     },
     {
       "epoch": 1.125,
-      "grad_norm": 3.796875,
-      "learning_rate": 0.00010587006218711337,
-      "loss": 0.2088,
       "step": 225
     },
     {
       "epoch": 1.15,
-      "grad_norm": 3.15625,
-      "learning_rate": 0.00010468008239851731,
-      "loss": 0.2046,
       "step": 230
     },
     {
       "epoch": 1.175,
-      "grad_norm": 6.375,
-      "learning_rate": 0.00010347223304433115,
-      "loss": 0.2003,
       "step": 235
     },
     {
       "epoch": 1.2,
-      "grad_norm": 2.71875,
-      "learning_rate": 0.00010224744765321614,
-      "loss": 0.1991,
       "step": 240
     },
     {
       "epoch": 1.225,
-      "grad_norm": 3.09375,
-      "learning_rate": 0.00010100667284344267,
-      "loss": 0.2017,
       "step": 245
     },
     {
       "epoch": 1.25,
-      "grad_norm": 2.078125,
-      "learning_rate": 9.975086759126306e-05,
-      "loss": 0.1945,
       "step": 250
     },
     {
       "epoch": 1.275,
-      "grad_norm": 2.0625,
-      "learning_rate": 9.848100248973335e-05,
-      "loss": 0.1827,
       "step": 255
     },
     {
       "epoch": 1.3,
-      "grad_norm": 4.625,
-      "learning_rate": 9.719805899855635e-05,
-      "loss": 0.1792,
       "step": 260
     },
     {
       "epoch": 1.325,
-      "grad_norm": 1.6328125,
-      "learning_rate": 9.590302868552622e-05,
-      "loss": 0.1768,
       "step": 265
     },
     {
       "epoch": 1.35,
-      "grad_norm": 1.4140625,
-      "learning_rate": 9.459691246016056e-05,
-      "loss": 0.1692,
       "step": 270
     },
     {
       "epoch": 1.375,
-      "grad_norm": 1.5078125,
-      "learning_rate": 9.328071980011245e-05,
-      "loss": 0.1717,
       "step": 275
     },
     {
       "epoch": 1.4,
-      "grad_norm": 1.328125,
-      "learning_rate": 9.195546797096022e-05,
-      "loss": 0.1651,
       "step": 280
     },
     {
       "epoch": 1.425,
-      "grad_norm": 1.3671875,
-      "learning_rate": 9.062218123997836e-05,
-      "loss": 0.1637,
       "step": 285
     },
     {
       "epoch": 1.45,
-      "grad_norm": 1.2265625,
-      "learning_rate": 8.928189008449641e-05,
-      "loss": 0.1659,
       "step": 290
     },
     {
       "epoch": 1.475,
-      "grad_norm": 1.5703125,
-      "learning_rate": 8.793563039545874e-05,
-      "loss": 0.1616,
       "step": 295
     },
     {
       "epoch": 1.5,
-      "grad_norm": 1.8671875,
-      "learning_rate": 8.658444267679969e-05,
-      "loss": 0.1642,
       "step": 300
     },
     {
       "epoch": 1.525,
-      "grad_norm": 2.46875,
-      "learning_rate": 8.522937124125397e-05,
-      "loss": 0.1674,
       "step": 305
     },
     {
       "epoch": 1.55,
-      "grad_norm": 1.5625,
-      "learning_rate": 8.387146340322277e-05,
-      "loss": 0.1613,
       "step": 310
     },
     {
       "epoch": 1.575,
-      "grad_norm": 1.3125,
-      "learning_rate": 8.251176866932034e-05,
-      "loss": 0.1595,
       "step": 315
     },
     {
       "epoch": 1.6,
-      "grad_norm": 1.078125,
-      "learning_rate": 8.115133792722579e-05,
-      "loss": 0.1512,
       "step": 320
     },
     {
       "epoch": 1.625,
-      "grad_norm": 1.515625,
-      "learning_rate": 7.979122263346816e-05,
-      "loss": 0.152,
       "step": 325
     },
     {
       "epoch": 1.65,
-      "grad_norm": 1.7265625,
-      "learning_rate": 7.8432474000771e-05,
-      "loss": 0.1557,
       "step": 330
     },
     {
       "epoch": 1.675,
-      "grad_norm": 1.453125,
-      "learning_rate": 7.707614218558612e-05,
-      "loss": 0.1531,
       "step": 335
     },
     {
       "epoch": 1.7,
-      "grad_norm": 1.3046875,
-      "learning_rate": 7.572327547644329e-05,
-      "loss": 0.152,
       "step": 340
     },
     {
       "epoch": 1.725,
-      "grad_norm": 1.390625,
-      "learning_rate": 7.437491948374369e-05,
-      "loss": 0.1491,
       "step": 345
     },
     {
       "epoch": 1.75,
-      "grad_norm": 6.46875,
-      "learning_rate": 7.303211633162347e-05,
-      "loss": 0.1506,
       "step": 350
     },
     {
       "epoch": 1.775,
-      "grad_norm": 1.6796875,
-      "learning_rate": 7.169590385251147e-05,
-      "loss": 0.1479,
       "step": 355
     },
     {
       "epoch": 1.8,
-      "grad_norm": 1.2421875,
-      "learning_rate": 7.036731478500415e-05,
-      "loss": 0.1539,
       "step": 360
     },
     {
       "epoch": 1.825,
-      "grad_norm": 1.046875,
-      "learning_rate": 6.904737597567746e-05,
-      "loss": 0.1461,
       "step": 365
     },
     {
       "epoch": 1.85,
-      "grad_norm": 1.1171875,
-      "learning_rate": 6.773710758545238e-05,
-      "loss": 0.1483,
       "step": 370
     },
     {
       "epoch": 1.875,
-      "grad_norm": 0.94140625,
-      "learning_rate": 6.643752230112798e-05,
-      "loss": 0.1473,
       "step": 375
     },
     {
       "epoch": 1.9,
-      "grad_norm": 1.03125,
-      "learning_rate": 6.514962455269088e-05,
-      "loss": 0.1488,
       "step": 380
     },
     {
       "epoch": 1.925,
-      "grad_norm": 0.8046875,
-      "learning_rate": 6.38744097370064e-05,
-      "loss": 0.1497,
       "step": 385
     },
     {
       "epoch": 1.95,
-      "grad_norm": 0.95703125,
-      "learning_rate": 6.261286344849127e-05,
-      "loss": 0.1457,
       "step": 390
     },
     {
       "epoch": 1.975,
-      "grad_norm": 0.85546875,
-      "learning_rate": 6.136596071736244e-05,
-      "loss": 0.1485,
       "step": 395
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.1171875,
-      "learning_rate": 6.0134665256050806e-05,
-      "loss": 0.1456,
       "step": 400
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.1398458033800125,
-      "eval_runtime": 0.6061,
-      "eval_samples_per_second": 42.895,
-      "eval_steps_per_second": 42.895,
       "step": 400
     },
     {
       "epoch": 2.025,
-      "grad_norm": 0.87109375,
-      "learning_rate": 5.891992871436244e-05,
-      "loss": 0.1469,
       "step": 405
     },
     {
       "epoch": 2.05,
-      "grad_norm": 0.8125,
-      "learning_rate": 5.772268994396255e-05,
-      "loss": 0.1343,
       "step": 410
     },
     {
       "epoch": 2.075,
-      "grad_norm": 0.83984375,
-      "learning_rate": 5.6543874272751244e-05,
-      "loss": 0.14,
       "step": 415
     },
     {
       "epoch": 2.1,
-      "grad_norm": 0.80078125,
-      "learning_rate": 5.5384392789691435e-05,
-      "loss": 0.1368,
       "step": 420
     },
     {
       "epoch": 2.125,
-      "grad_norm": 0.828125,
-      "learning_rate": 5.4245141640641774e-05,
-      "loss": 0.1431,
       "step": 425
     },
     {
       "epoch": 2.15,
-      "grad_norm": 0.83203125,
-      "learning_rate": 5.312700133573899e-05,
-      "loss": 0.1394,
       "step": 430
     },
     {
       "epoch": 2.175,
-      "grad_norm": 0.76171875,
-      "learning_rate": 5.203083606886482e-05,
-      "loss": 0.1379,
       "step": 435
     },
     {
       "epoch": 2.2,
-      "grad_norm": 0.8984375,
-      "learning_rate": 5.095749304972349e-05,
-      "loss": 0.1365,
       "step": 440
     },
     {
       "epoch": 2.225,
-      "grad_norm": 0.84375,
-      "learning_rate": 4.990780184904607e-05,
-      "loss": 0.1347,
       "step": 445
     },
     {
       "epoch": 2.25,
-      "grad_norm": 0.8203125,
-      "learning_rate": 4.888257375742759e-05,
-      "loss": 0.1415,
       "step": 450
     },
     {
       "epoch": 2.275,
-      "grad_norm": 0.91796875,
-      "learning_rate": 4.788260115829281e-05,
-      "loss": 0.1417,
       "step": 455
     },
     {
       "epoch": 2.3,
-      "grad_norm": 0.984375,
-      "learning_rate": 4.690865691547493e-05,
-      "loss": 0.1354,
       "step": 460
     },
     {
       "epoch": 2.325,
-      "grad_norm": 0.87890625,
-      "learning_rate": 4.596149377588066e-05,
-      "loss": 0.1346,
       "step": 465
     },
     {
       "epoch": 2.35,
-      "grad_norm": 0.9453125,
-      "learning_rate": 4.504184378770344e-05,
-      "loss": 0.1389,
       "step": 470
     },
     {
       "epoch": 2.375,
-      "grad_norm": 1.109375,
-      "learning_rate": 4.415041773463443e-05,
-      "loss": 0.1374,
       "step": 475
     },
     {
       "epoch": 2.4,
-      "grad_norm": 0.87890625,
-      "learning_rate": 4.3287904586508334e-05,
-      "loss": 0.135,
       "step": 480
     },
     {
       "epoch": 2.425,
-      "grad_norm": 0.83203125,
-      "learning_rate": 4.2454970966809075e-05,
-      "loss": 0.1333,
       "step": 485
     },
     {
       "epoch": 2.45,
-      "grad_norm": 0.73046875,
-      "learning_rate": 4.165226063744636e-05,
-      "loss": 0.1387,
       "step": 490
     },
     {
       "epoch": 2.475,
-      "grad_norm": 0.71484375,
-      "learning_rate": 4.088039400120184e-05,
-      "loss": 0.1302,
       "step": 495
     },
     {
       "epoch": 2.5,
-      "grad_norm": 0.9375,
-      "learning_rate": 4.0139967622229077e-05,
-      "loss": 0.1379,
       "step": 500
     },
     {
       "epoch": 2.5,
-      "eval_loss": 0.12946058809757233,
-      "eval_runtime": 0.6048,
-      "eval_samples_per_second": 42.989,
-      "eval_steps_per_second": 42.989,
       "step": 500
     },
     {
       "epoch": 2.525,
-      "grad_norm": 0.73046875,
-      "learning_rate": 3.943155376497806e-05,
-      "loss": 0.1328,
       "step": 505
     },
     {
       "epoch": 2.55,
-      "grad_norm": 0.93359375,
-      "learning_rate": 3.8755699951900555e-05,
-      "loss": 0.134,
       "step": 510
     },
     {
       "epoch": 2.575,
-      "grad_norm": 0.74609375,
-      "learning_rate": 3.811292854027826e-05,
-      "loss": 0.1327,
       "step": 515
     },
     {
       "epoch": 2.6,
-      "grad_norm": 0.734375,
-      "learning_rate": 3.750373631850063e-05,
-      "loss": 0.1328,
       "step": 520
     },
     {
       "epoch": 2.625,
-      "grad_norm": 0.74609375,
-      "learning_rate": 3.692859412210464e-05,
-      "loss": 0.1329,
       "step": 525
     },
     {
       "epoch": 2.65,
-      "grad_norm": 0.69921875,
-      "learning_rate": 3.6387946469873e-05,
-      "loss": 0.1333,
       "step": 530
     },
     {
       "epoch": 2.675,
-      "grad_norm": 0.69921875,
-      "learning_rate": 3.588221122027231e-05,
-      "loss": 0.1287,
       "step": 535
     },
     {
       "epoch": 2.7,
-      "grad_norm": 0.59765625,
-      "learning_rate": 3.541177924849646e-05,
-      "loss": 0.1325,
       "step": 540
     },
     {
       "epoch": 2.725,
-      "grad_norm": 0.77734375,
-      "learning_rate": 3.497701414436508e-05,
-      "loss": 0.1298,
       "step": 545
     },
     {
       "epoch": 2.75,
-      "grad_norm": 0.65234375,
-      "learning_rate": 3.457825193131042e-05,
-      "loss": 0.1307,
       "step": 550
     },
     {
       "epoch": 2.775,
-      "grad_norm": 0.73828125,
-      "learning_rate": 3.4215800806669854e-05,
-      "loss": 0.1326,
       "step": 555
     },
     {
       "epoch": 2.8,
-      "grad_norm": 0.5859375,
-      "learning_rate": 3.388994090348479e-05,
-      "loss": 0.1356,
       "step": 560
     },
     {
       "epoch": 2.825,
-      "grad_norm": 0.69921875,
-      "learning_rate": 3.360092407399007e-05,
-      "loss": 0.1277,
       "step": 565
     },
     {
       "epoch": 2.85,
-      "grad_norm": 0.7109375,
-      "learning_rate": 3.334897369496107e-05,
-      "loss": 0.1295,
       "step": 570
     },
     {
       "epoch": 2.875,
-      "grad_norm": 0.72265625,
-      "learning_rate": 3.313428449506927e-05,
-      "loss": 0.1286,
       "step": 575
     },
     {
       "epoch": 2.9,
-      "grad_norm": 0.63671875,
-      "learning_rate": 3.295702240437926e-05,
-      "loss": 0.1357,
       "step": 580
     },
     {
       "epoch": 2.925,
-      "grad_norm": 0.68359375,
-      "learning_rate": 3.2817324426103896e-05,
-      "loss": 0.131,
       "step": 585
     },
     {
       "epoch": 2.95,
-      "grad_norm": 0.7109375,
-      "learning_rate": 3.271529853071668e-05,
-      "loss": 0.1293,
       "step": 590
     },
     {
       "epoch": 2.975,
-      "grad_norm": 0.7578125,
-      "learning_rate": 3.265102357250287e-05,
-      "loss": 0.1286,
       "step": 595
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.69140625,
-      "learning_rate": 3.2624549228614246e-05,
-      "loss": 0.132,
       "step": 600
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.12757942080497742,
-      "eval_runtime": 0.6043,
-      "eval_samples_per_second": 43.022,
-      "eval_steps_per_second": 43.022,
       "step": 600
     }
   ],

   "log_history": [
     {
       "epoch": 0.025,
+      "grad_norm": 198.0,
+      "learning_rate": 1.747190540874941e-05,
+      "loss": 0.5751,
       "step": 5
     },
     {
       "epoch": 0.05,
+      "grad_norm": 186.0,
+      "learning_rate": 3.931178716968617e-05,
+      "loss": 0.4175,
       "step": 10
     },
     {
       "epoch": 0.075,
+      "grad_norm": 270.0,
+      "learning_rate": 6.115166893062294e-05,
+      "loss": 0.3509,
       "step": 15
     },
     {
       "epoch": 0.1,
+      "grad_norm": 110.5,
+      "learning_rate": 8.29915506915597e-05,
+      "loss": 0.3508,
       "step": 20
     },
     {
       "epoch": 0.125,
+      "grad_norm": 111.0,
+      "learning_rate": 0.00010483143245249646,
+      "loss": 0.4222,
       "step": 25
     },
     {
       "epoch": 0.15,
+      "grad_norm": 83.5,
+      "learning_rate": 0.00012667131421343323,
+      "loss": 0.6498,
       "step": 30
     },
     {
       "epoch": 0.175,
+      "grad_norm": 65.0,
+      "learning_rate": 0.00014851119597437,
+      "loss": 0.8894,
       "step": 35
     },
     {
       "epoch": 0.2,
+      "grad_norm": 104.5,
+      "learning_rate": 0.0001528649930352754,
+      "loss": 0.6775,
       "step": 40
     },
     {
       "epoch": 0.225,
+      "grad_norm": 29.5,
+      "learning_rate": 0.00015280740168512177,
+      "loss": 0.6998,
       "step": 45
     },
     {
       "epoch": 0.25,
+      "grad_norm": 17.0,
+      "learning_rate": 0.00015270555654763282,
+      "loss": 0.6402,
       "step": 50
     },
     {
       "epoch": 0.275,
+      "grad_norm": 16.75,
+      "learning_rate": 0.00015255953633738878,
+      "loss": 0.4757,
       "step": 55
     },
     {
       "epoch": 0.3,
+      "grad_norm": 11.75,
+      "learning_rate": 0.0001523694539112214,
+      "loss": 0.3831,
       "step": 60
     },
     {
       "epoch": 0.325,
+      "grad_norm": 6.5625,
+      "learning_rate": 0.00015213545618098876,
+      "loss": 0.3437,
       "step": 65
     },
     {
       "epoch": 0.35,
+      "grad_norm": 6.03125,
+      "learning_rate": 0.00015185772400002907,
+      "loss": 0.2986,
       "step": 70
     },
     {
       "epoch": 0.375,
+      "grad_norm": 4.46875,
+      "learning_rate": 0.00015153647202338207,
+      "loss": 0.2774,
       "step": 75
     },
     {
       "epoch": 0.4,
+      "grad_norm": 7.6875,
+      "learning_rate": 0.00015117194854188525,
+      "loss": 0.2703,
       "step": 80
     },
     {
       "epoch": 0.425,
+      "grad_norm": 5.65625,
+      "learning_rate": 0.00015076443529027353,
+      "loss": 0.2501,
       "step": 85
     },
     {
       "epoch": 0.45,
+      "grad_norm": 26.375,
+      "learning_rate": 0.00015031424722943083,
+      "loss": 0.3738,
       "step": 90
     },
     {
       "epoch": 0.475,
+      "grad_norm": 8.1875,
+      "learning_rate": 0.00014982173230296148,
+      "loss": 0.2765,
       "step": 95
     },
     {
       "epoch": 0.5,
+      "grad_norm": 7.125,
+      "learning_rate": 0.00014928727116826976,
+      "loss": 0.2929,
       "step": 100
     },
     {
       "epoch": 0.525,
+      "grad_norm": 7.8125,
+      "learning_rate": 0.00014871127690235564,
+      "loss": 0.2699,
       "step": 105
     },
     {
       "epoch": 0.55,
+      "grad_norm": 6.125,
+      "learning_rate": 0.00014809419468255356,
+      "loss": 0.269,
       "step": 110
     },
     {
       "epoch": 0.575,
+      "grad_norm": 4.1875,
+      "learning_rate": 0.00014743650144246167,
+      "loss": 0.2615,
       "step": 115
     },
     {
       "epoch": 0.6,
+      "grad_norm": 3.828125,
+      "learning_rate": 0.00014673870550332703,
+      "loss": 0.2325,
       "step": 120
     },
     {
       "epoch": 0.625,
+      "grad_norm": 5.375,
+      "learning_rate": 0.00014600134618117166,
+      "loss": 0.2295,
       "step": 125
     },
     {
       "epoch": 0.65,
+      "grad_norm": 3.953125,
+      "learning_rate": 0.0001452249933699633,
+      "loss": 0.2407,
       "step": 130
     },
     {
       "epoch": 0.675,
+      "grad_norm": 2.09375,
+      "learning_rate": 0.0001444102471011529,
+      "loss": 0.2192,
       "step": 135
     },
     {
       "epoch": 0.7,
+      "grad_norm": 1.8515625,
+      "learning_rate": 0.00014355773707991926,
+      "loss": 0.2133,
       "step": 140
     },
     {
       "epoch": 0.725,
+      "grad_norm": 2.078125,
+      "learning_rate": 0.00014266812219847945,
+      "loss": 0.2014,
       "step": 145
     },
     {
       "epoch": 0.75,
+      "grad_norm": 2.0625,
+      "learning_rate": 0.00014174209002684087,
+      "loss": 0.191,
       "step": 150
     },
     {
       "epoch": 0.775,
+      "grad_norm": 2.828125,
+      "learning_rate": 0.00014078035628138847,
+      "loss": 0.2024,
       "step": 155
     },
     {
       "epoch": 0.8,
+      "grad_norm": 2.015625,
+      "learning_rate": 0.00013978366427171864,
+      "loss": 0.1871,
       "step": 160
     },
     {
       "epoch": 0.825,
+      "grad_norm": 1.90625,
+      "learning_rate": 0.00013875278432614612,
+      "loss": 0.1751,
       "step": 165
     },
     {
       "epoch": 0.85,
+      "grad_norm": 1.1171875,
+      "learning_rate": 0.00013768851319632887,
+      "loss": 0.1679,
       "step": 170
     },
     {
       "epoch": 0.875,
+      "grad_norm": 2.015625,
+      "learning_rate": 0.00013659167344147067,
+      "loss": 0.1818,
       "step": 175
     },
     {
       "epoch": 0.9,
+      "grad_norm": 1.8671875,
+      "learning_rate": 0.0001354631127925774,
+      "loss": 0.1692,
       "step": 180
     },
     {
       "epoch": 0.925,
+      "grad_norm": 1.5078125,
+      "learning_rate": 0.0001343037034972584,
+      "loss": 0.1619,
       "step": 185
     },
     {
       "epoch": 0.95,
+      "grad_norm": 1.6328125,
+      "learning_rate": 0.0001331143416455796,
+      "loss": 0.1617,
       "step": 190
     },
     {
       "epoch": 0.975,
+      "grad_norm": 1.6953125,
+      "learning_rate": 0.00013189594647748868,
+      "loss": 0.1615,
       "step": 195
     },
     {
       "epoch": 1.0,
+      "grad_norm": 1.5,
+      "learning_rate": 0.00013064945967234835,
+      "loss": 0.1689,
       "step": 200
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.16072207689285278,
+      "eval_runtime": 0.5972,
+      "eval_samples_per_second": 43.533,
+      "eval_steps_per_second": 43.533,
       "step": 200
     },
     {
       "epoch": 1.025,
+      "grad_norm": 1.828125,
+      "learning_rate": 0.0001293758446211266,
+      "loss": 0.1629,
       "step": 205
     },
     {
       "epoch": 1.05,
+      "grad_norm": 1.59375,
+      "learning_rate": 0.00012807608568180618,
+      "loss": 0.1624,
       "step": 210
     },
     {
       "epoch": 1.075,
+      "grad_norm": 1.0859375,
+      "learning_rate": 0.00012675118741858906,
+      "loss": 0.1614,
       "step": 215
     },
     {
       "epoch": 1.1,
+      "grad_norm": 1.265625,
+      "learning_rate": 0.00012540217382548384,
+      "loss": 0.1636,
       "step": 220
     },
     {
       "epoch": 1.125,
+      "grad_norm": 1.46875,
+      "learning_rate": 0.0001240300875348761,
+      "loss": 0.1567,
       "step": 225
     },
     {
       "epoch": 1.15,
+      "grad_norm": 2.609375,
+      "learning_rate": 0.0001226359890116935,
+      "loss": 0.1663,
       "step": 230
     },
     {
       "epoch": 1.175,
+      "grad_norm": 1.9140625,
+      "learning_rate": 0.00012122095573378837,
+      "loss": 0.1774,
       "step": 235
     },
     {
       "epoch": 1.2,
+      "grad_norm": 3.015625,
+      "learning_rate": 0.00011978608135917105,
+      "loss": 0.1701,
       "step": 240
     },
     {
       "epoch": 1.225,
+      "grad_norm": 2.59375,
+      "learning_rate": 0.00011833247488073823,
+      "loss": 0.1853,
       "step": 245
     },
     {
       "epoch": 1.25,
+      "grad_norm": 2.453125,
+      "learning_rate": 0.00011686125976914878,
+      "loss": 0.1948,
       "step": 250
     },
     {
       "epoch": 1.275,
+      "grad_norm": 1.3359375,
+      "learning_rate": 0.00011537357310451031,
+      "loss": 0.1733,
       "step": 255
     },
     {
       "epoch": 1.3,
+      "grad_norm": 1.890625,
+      "learning_rate": 0.00011387056469754679,
+      "loss": 0.1624,
       "step": 260
     },
     {
       "epoch": 1.325,
+      "grad_norm": 2.390625,
+      "learning_rate": 0.00011235339620092721,
+      "loss": 0.1684,
       "step": 265
     },
     {
       "epoch": 1.35,
+      "grad_norm": 2.390625,
+      "learning_rate": 0.0001108232402114416,
+      "loss": 0.169,
       "step": 270
     },
     {
       "epoch": 1.375,
+      "grad_norm": 2.65625,
+      "learning_rate": 0.0001092812793637186,
+      "loss": 0.1789,
       "step": 275
     },
     {
       "epoch": 1.4,
+      "grad_norm": 1.6875,
+      "learning_rate": 0.0001077287054161847,
+      "loss": 0.1695,
       "step": 280
     },
     {
       "epoch": 1.425,
+      "grad_norm": 1.4375,
+      "learning_rate": 0.00010616671832997237,
+      "loss": 0.1671,
       "step": 285
     },
     {
       "epoch": 1.45,
+      "grad_norm": 1.0390625,
+      "learning_rate": 0.00010459652534148764,
+      "loss": 0.1675,
       "step": 290
     },
     {
       "epoch": 1.475,
+      "grad_norm": 0.97265625,
+      "learning_rate": 0.00010301934002935564,
+      "loss": 0.159,
       "step": 295
     },
     {
       "epoch": 1.5,
+      "grad_norm": 1.7109375,
+      "learning_rate": 0.00010143638137646338,
+      "loss": 0.1578,
       "step": 300
     },
     {
       "epoch": 1.525,
+      "grad_norm": 1.171875,
+      "learning_rate": 9.984887282782665e-05,
+      "loss": 0.1588,
       "step": 305
     },
     {
       "epoch": 1.55,
+      "grad_norm": 1.0546875,
+      "learning_rate": 9.825804134500727e-05,
+      "loss": 0.1535,
       "step": 310
     },
     {
       "epoch": 1.575,
+      "grad_norm": 1.296875,
+      "learning_rate": 9.666511645781328e-05,
+      "loss": 0.1587,
       "step": 315
     },
     {
       "epoch": 1.6,
+      "grad_norm": 1.109375,
+      "learning_rate": 9.507132931401333e-05,
+      "loss": 0.1514,
       "step": 320
     },
     {
       "epoch": 1.625,
+      "grad_norm": 1.21875,
+      "learning_rate": 9.347791172780155e-05,
+      "loss": 0.1486,
       "step": 325
     },
     {
       "epoch": 1.65,
+      "grad_norm": 1.0703125,
+      "learning_rate": 9.188609522774628e-05,
+      "loss": 0.149,
       "step": 330
     },
     {
       "epoch": 1.675,
+      "grad_norm": 0.87109375,
+      "learning_rate": 9.029711010496061e-05,
+      "loss": 0.1467,
       "step": 335
     },
     {
       "epoch": 1.7,
+      "grad_norm": 0.8984375,
+      "learning_rate": 8.871218446222844e-05,
+      "loss": 0.1456,
       "step": 340
     },
     {
       "epoch": 1.725,
+      "grad_norm": 0.7734375,
+      "learning_rate": 8.713254326482237e-05,
+      "loss": 0.1439,
       "step": 345
     },
     {
       "epoch": 1.75,
+      "grad_norm": 1.0625,
+      "learning_rate": 8.555940739374653e-05,
+      "loss": 0.1426,
       "step": 350
     },
     {
       "epoch": 1.775,
+      "grad_norm": 0.9453125,
+      "learning_rate": 8.399399270213575e-05,
+      "loss": 0.1399,
       "step": 355
     },
     {
       "epoch": 1.8,
+      "grad_norm": 0.953125,
+      "learning_rate": 8.243750907554097e-05,
+      "loss": 0.1436,
       "step": 360
     },
     {
       "epoch": 1.825,
+      "grad_norm": 0.7421875,
+      "learning_rate": 8.089115949682696e-05,
+      "loss": 0.1375,
       "step": 365
     },
     {
       "epoch": 1.85,
+      "grad_norm": 0.6640625,
+      "learning_rate": 7.935613911640464e-05,
+      "loss": 0.1384,
       "step": 370
     },
     {
       "epoch": 1.875,
+      "grad_norm": 0.828125,
+      "learning_rate": 7.783363432851746e-05,
+      "loss": 0.1366,
       "step": 375
     },
     {
       "epoch": 1.9,
+      "grad_norm": 0.859375,
+      "learning_rate": 7.632482185429501e-05,
+      "loss": 0.1374,
       "step": 380
     },
     {
       "epoch": 1.925,
+      "grad_norm": 0.87890625,
+      "learning_rate": 7.483086783228284e-05,
+      "loss": 0.1413,
       "step": 385
     },
     {
       "epoch": 1.95,
+      "grad_norm": 1.1015625,
+      "learning_rate": 7.335292691715154e-05,
+      "loss": 0.1371,
       "step": 390
     },
     {
       "epoch": 1.975,
+      "grad_norm": 0.8359375,
+      "learning_rate": 7.189214138728142e-05,
+      "loss": 0.1413,
       "step": 395
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.8359375,
+      "learning_rate": 7.044964026191261e-05,
+      "loss": 0.1378,
       "step": 400
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.13336719572544098,
+      "eval_runtime": 0.5924,
+      "eval_samples_per_second": 43.887,
+      "eval_steps_per_second": 43.887,
       "step": 400
     },
     {
       "epoch": 2.025,
+      "grad_norm": 0.8125,
+      "learning_rate": 6.902653842854314e-05,
+      "loss": 0.1382,
       "step": 405
     },
     {
       "epoch": 2.05,
+      "grad_norm": 0.6640625,
+      "learning_rate": 6.762393578124894e-05,
+      "loss": 0.1273,
       "step": 410
     },
     {
       "epoch": 2.075,
+      "grad_norm": 0.6640625,
+      "learning_rate": 6.624291637059237e-05,
+      "loss": 0.1319,
       "step": 415
     },
     {
       "epoch": 2.1,
+      "grad_norm": 0.6796875,
+      "learning_rate": 6.48845475657757e-05,
+      "loss": 0.1296,
       "step": 420
     },
     {
       "epoch": 2.125,
+      "grad_norm": 0.68359375,
+      "learning_rate": 6.354987922968741e-05,
+      "loss": 0.136,
       "step": 425
     },
     {
       "epoch": 2.15,
+      "grad_norm": 0.8203125,
+      "learning_rate": 6.223994290747898e-05,
+      "loss": 0.1332,
       "step": 430
     },
     {
       "epoch": 2.175,
+      "grad_norm": 0.79296875,
+      "learning_rate": 6.095575102929907e-05,
+      "loss": 0.1337,
       "step": 435
     },
     {
       "epoch": 2.2,
+      "grad_norm": 0.7421875,
+      "learning_rate": 5.969829612780141e-05,
+      "loss": 0.1295,
       "step": 440
     },
     {
       "epoch": 2.225,
+      "grad_norm": 0.85546875,
+      "learning_rate": 5.8468550071031296e-05,
+      "loss": 0.1291,
       "step": 445
     },
     {
       "epoch": 2.25,
+      "grad_norm": 1.0390625,
+      "learning_rate": 5.726746331128316e-05,
+      "loss": 0.1364,
       "step": 450
     },
     {
       "epoch": 2.275,
+      "grad_norm": 1.0,
+      "learning_rate": 5.609596415051039e-05,
+      "loss": 0.1365,
       "step": 455
     },
     {
       "epoch": 2.3,
+      "grad_norm": 1.0390625,
+      "learning_rate": 5.495495802285465e-05,
+      "loss": 0.1317,
       "step": 460
     },
     {
       "epoch": 2.325,
+      "grad_norm": 0.7890625,
+      "learning_rate": 5.384532679484933e-05,
+      "loss": 0.1296,
       "step": 465
     },
     {
       "epoch": 2.35,
+      "grad_norm": 0.66796875,
+      "learning_rate": 5.276792808383817e-05,
+      "loss": 0.1355,
       "step": 470
     },
     {
       "epoch": 2.375,
+      "grad_norm": 0.875,
+      "learning_rate": 5.1723594595135666e-05,
+      "loss": 0.1324,
       "step": 475
     },
     {
       "epoch": 2.4,
+      "grad_norm": 0.77734375,
+      "learning_rate": 5.07131334784416e-05,
+      "loss": 0.1315,
       "step": 480
     },
     {
       "epoch": 2.425,
+      "grad_norm": 0.8359375,
+      "learning_rate": 4.973732570400718e-05,
+      "loss": 0.1284,
       "step": 485
     },
     {
       "epoch": 2.45,
+      "grad_norm": 0.79296875,
+      "learning_rate": 4.879692545903476e-05,
+      "loss": 0.1345,
       "step": 490
     },
     {
       "epoch": 2.475,
+      "grad_norm": 0.875,
+      "learning_rate": 4.789265956477791e-05,
+      "loss": 0.126,
       "step": 495
     },
     {
       "epoch": 2.5,
+      "grad_norm": 0.953125,
+      "learning_rate": 4.702522691479217e-05,
+      "loss": 0.1345,
       "step": 500
     },
     {
       "epoch": 2.5,
+      "eval_loss": 0.12545974552631378,
+      "eval_runtime": 0.5917,
+      "eval_samples_per_second": 43.943,
+      "eval_steps_per_second": 43.943,
       "step": 500
     },
     {
       "epoch": 2.525,
+      "grad_norm": 0.8125,
+      "learning_rate": 4.619529793477068e-05,
+      "loss": 0.1291,
       "step": 505
     },
     {
       "epoch": 2.55,
+      "grad_norm": 1.078125,
+      "learning_rate": 4.540351406438219e-05,
+      "loss": 0.1301,
       "step": 510
     },
     {
       "epoch": 2.575,
+      "grad_norm": 0.921875,
+      "learning_rate": 4.465048726151201e-05,
+      "loss": 0.128,
       "step": 515
     },
     {
       "epoch": 2.6,
+      "grad_norm": 1.1875,
+      "learning_rate": 4.393679952928885e-05,
+      "loss": 0.1288,
       "step": 520
     },
     {
       "epoch": 2.625,
+      "grad_norm": 1.203125,
+      "learning_rate": 4.3263002466263436e-05,
+      "loss": 0.1281,
       "step": 525
     },
     {
       "epoch": 2.65,
+      "grad_norm": 0.9609375,
+      "learning_rate": 4.262961684008613e-05,
+      "loss": 0.1305,
       "step": 530
     },
     {
       "epoch": 2.675,
+      "grad_norm": 0.88671875,
+      "learning_rate": 4.203713218501353e-05,
+      "loss": 0.1258,
       "step": 535
     },
     {
       "epoch": 2.7,
+      "grad_norm": 0.9921875,
+      "learning_rate": 4.1486006423554745e-05,
+      "loss": 0.1284,
       "step": 540
     },
     {
       "epoch": 2.725,
+      "grad_norm": 0.84765625,
+      "learning_rate": 4.097666551254989e-05,
+      "loss": 0.1269,
       "step": 545
     },
     {
       "epoch": 2.75,
+      "grad_norm": 0.92578125,
+      "learning_rate": 4.0509503113954545e-05,
+      "loss": 0.128,
       "step": 550
     },
     {
       "epoch": 2.775,
+      "grad_norm": 0.90234375,
+      "learning_rate": 4.008488029058422e-05,
+      "loss": 0.1293,
       "step": 555
     },
     {
       "epoch": 2.8,
+      "grad_norm": 0.85546875,
+      "learning_rate": 3.9703125227054376e-05,
+      "loss": 0.132,
       "step": 560
     },
     {
       "epoch": 2.825,
+      "grad_norm": 0.859375,
+      "learning_rate": 3.9364532976131475e-05,
+      "loss": 0.1247,
       "step": 565
     },
     {
       "epoch": 2.85,
+      "grad_norm": 1.6796875,
+      "learning_rate": 3.906936523069101e-05,
+      "loss": 0.1246,
       "step": 570
     },
     {
       "epoch": 2.875,
+      "grad_norm": 1.0390625,
+      "learning_rate": 3.8817850121459174e-05,
+      "loss": 0.1246,
       "step": 575
     },
     {
       "epoch": 2.9,
+      "grad_norm": 1.03125,
+      "learning_rate": 3.861018204069391e-05,
+      "loss": 0.1322,
       "step": 580
     },
     {
       "epoch": 2.925,
+      "grad_norm": 0.859375,
+      "learning_rate": 3.8446521491942034e-05,
+      "loss": 0.1277,
       "step": 585
     },
     {
       "epoch": 2.95,
+      "grad_norm": 0.984375,
+      "learning_rate": 3.832699496598859e-05,
+      "loss": 0.1264,
       "step": 590
     },
     {
       "epoch": 2.975,
+      "grad_norm": 0.81640625,
+      "learning_rate": 3.8251694843093894e-05,
+      "loss": 0.1277,
       "step": 595
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.78515625,
+      "learning_rate": 3.8220679321594226e-05,
+      "loss": 0.1288,
       "step": 600
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.1242036521434784,
+      "eval_runtime": 0.5964,
+      "eval_samples_per_second": 43.593,
+      "eval_steps_per_second": 43.593,
       "step": 600
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67a1019718a4de0599994b980cfc030edc112fa7937d0aaf986d18a627026760
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:ded8479bbdb5f158c653056fc1b2defb99d73e60bfc8e9a594082dbf0c979c26
 size 5688