9b-3 / trainer_state.json
furproxy's picture
Upload folder using huggingface_hub
5c766cb verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 2.0,
"eval_steps": 500,
"global_step": 3000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0013333333333333333,
"grad_norm": 2.65625,
"learning_rate": 1.1111111111111112e-07,
"loss": 1.426961898803711,
"step": 2
},
{
"epoch": 0.0026666666666666666,
"grad_norm": 2.671875,
"learning_rate": 3.3333333333333335e-07,
"loss": 1.0916433334350586,
"step": 4
},
{
"epoch": 0.004,
"grad_norm": 20.625,
"learning_rate": 5.555555555555555e-07,
"loss": 2.423888683319092,
"step": 6
},
{
"epoch": 0.005333333333333333,
"grad_norm": 8.6875,
"learning_rate": 7.777777777777779e-07,
"loss": 2.0880517959594727,
"step": 8
},
{
"epoch": 0.006666666666666667,
"grad_norm": 12.8125,
"learning_rate": 1.0000000000000002e-06,
"loss": 2.239799976348877,
"step": 10
},
{
"epoch": 0.008,
"grad_norm": 8.625,
"learning_rate": 1.2222222222222223e-06,
"loss": 1.9201855659484863,
"step": 12
},
{
"epoch": 0.009333333333333334,
"grad_norm": 7.0,
"learning_rate": 1.4444444444444445e-06,
"loss": 1.9083274602890015,
"step": 14
},
{
"epoch": 0.010666666666666666,
"grad_norm": 11.0625,
"learning_rate": 1.6666666666666667e-06,
"loss": 2.2220070362091064,
"step": 16
},
{
"epoch": 0.012,
"grad_norm": 14.6875,
"learning_rate": 1.888888888888889e-06,
"loss": 2.5249276161193848,
"step": 18
},
{
"epoch": 0.013333333333333334,
"grad_norm": 6.09375,
"learning_rate": 2.1111111111111114e-06,
"loss": 1.8995552062988281,
"step": 20
},
{
"epoch": 0.014666666666666666,
"grad_norm": 30.625,
"learning_rate": 2.3333333333333336e-06,
"loss": 1.7150570154190063,
"step": 22
},
{
"epoch": 0.016,
"grad_norm": 12.5,
"learning_rate": 2.5555555555555557e-06,
"loss": 1.7441375255584717,
"step": 24
},
{
"epoch": 0.017333333333333333,
"grad_norm": 4.09375,
"learning_rate": 2.7777777777777783e-06,
"loss": 1.1571142673492432,
"step": 26
},
{
"epoch": 0.018666666666666668,
"grad_norm": 9.75,
"learning_rate": 3e-06,
"loss": 1.8743200302124023,
"step": 28
},
{
"epoch": 0.02,
"grad_norm": 4.90625,
"learning_rate": 3.2222222222222227e-06,
"loss": 1.9281845092773438,
"step": 30
},
{
"epoch": 0.021333333333333333,
"grad_norm": 6.40625,
"learning_rate": 3.444444444444445e-06,
"loss": 1.9411826133728027,
"step": 32
},
{
"epoch": 0.02266666666666667,
"grad_norm": 14.9375,
"learning_rate": 3.6666666666666666e-06,
"loss": 1.7532334327697754,
"step": 34
},
{
"epoch": 0.024,
"grad_norm": 6.53125,
"learning_rate": 3.88888888888889e-06,
"loss": 2.0853347778320312,
"step": 36
},
{
"epoch": 0.025333333333333333,
"grad_norm": 1.2578125,
"learning_rate": 4.111111111111111e-06,
"loss": 1.3436920642852783,
"step": 38
},
{
"epoch": 0.02666666666666667,
"grad_norm": 10.125,
"learning_rate": 4.333333333333334e-06,
"loss": 1.9322056770324707,
"step": 40
},
{
"epoch": 0.028,
"grad_norm": 17.5,
"learning_rate": 4.555555555555556e-06,
"loss": 2.2416582107543945,
"step": 42
},
{
"epoch": 0.029333333333333333,
"grad_norm": 13.5,
"learning_rate": 4.777777777777778e-06,
"loss": 2.0358848571777344,
"step": 44
},
{
"epoch": 0.030666666666666665,
"grad_norm": 9.625,
"learning_rate": 5e-06,
"loss": 2.0231871604919434,
"step": 46
},
{
"epoch": 0.032,
"grad_norm": 8.6875,
"learning_rate": 5.2222222222222226e-06,
"loss": 2.0352306365966797,
"step": 48
},
{
"epoch": 0.03333333333333333,
"grad_norm": 4.1875,
"learning_rate": 5.444444444444445e-06,
"loss": 1.1770884990692139,
"step": 50
},
{
"epoch": 0.034666666666666665,
"grad_norm": 10.4375,
"learning_rate": 5.666666666666667e-06,
"loss": 2.528522491455078,
"step": 52
},
{
"epoch": 0.036,
"grad_norm": 9.125,
"learning_rate": 5.88888888888889e-06,
"loss": 2.0782127380371094,
"step": 54
},
{
"epoch": 0.037333333333333336,
"grad_norm": 14.25,
"learning_rate": 6.111111111111112e-06,
"loss": 2.3558883666992188,
"step": 56
},
{
"epoch": 0.03866666666666667,
"grad_norm": 10.0625,
"learning_rate": 6.333333333333333e-06,
"loss": 2.3600592613220215,
"step": 58
},
{
"epoch": 0.04,
"grad_norm": 2.15625,
"learning_rate": 6.555555555555556e-06,
"loss": 1.1547472476959229,
"step": 60
},
{
"epoch": 0.04133333333333333,
"grad_norm": 12.625,
"learning_rate": 6.777777777777779e-06,
"loss": 2.318289279937744,
"step": 62
},
{
"epoch": 0.042666666666666665,
"grad_norm": 8.6875,
"learning_rate": 7e-06,
"loss": 1.987494707107544,
"step": 64
},
{
"epoch": 0.044,
"grad_norm": 5.59375,
"learning_rate": 7.222222222222223e-06,
"loss": 1.0594491958618164,
"step": 66
},
{
"epoch": 0.04533333333333334,
"grad_norm": 2.03125,
"learning_rate": 7.444444444444445e-06,
"loss": 1.0497875213623047,
"step": 68
},
{
"epoch": 0.04666666666666667,
"grad_norm": 7.46875,
"learning_rate": 7.666666666666667e-06,
"loss": 1.9007290601730347,
"step": 70
},
{
"epoch": 0.048,
"grad_norm": 13.4375,
"learning_rate": 7.88888888888889e-06,
"loss": 1.7056117057800293,
"step": 72
},
{
"epoch": 0.04933333333333333,
"grad_norm": 2.25,
"learning_rate": 8.111111111111112e-06,
"loss": 1.1812058687210083,
"step": 74
},
{
"epoch": 0.050666666666666665,
"grad_norm": 10.1875,
"learning_rate": 8.333333333333334e-06,
"loss": 2.21980357170105,
"step": 76
},
{
"epoch": 0.052,
"grad_norm": 5.125,
"learning_rate": 8.555555555555556e-06,
"loss": 1.8565629720687866,
"step": 78
},
{
"epoch": 0.05333333333333334,
"grad_norm": 2.21875,
"learning_rate": 8.777777777777778e-06,
"loss": 1.2600555419921875,
"step": 80
},
{
"epoch": 0.05466666666666667,
"grad_norm": 13.3125,
"learning_rate": 9e-06,
"loss": 2.3689146041870117,
"step": 82
},
{
"epoch": 0.056,
"grad_norm": 5.5,
"learning_rate": 9.222222222222224e-06,
"loss": 1.7448933124542236,
"step": 84
},
{
"epoch": 0.05733333333333333,
"grad_norm": 13.8125,
"learning_rate": 9.444444444444445e-06,
"loss": 1.8399966955184937,
"step": 86
},
{
"epoch": 0.058666666666666666,
"grad_norm": 4.875,
"learning_rate": 9.666666666666667e-06,
"loss": 1.6913926601409912,
"step": 88
},
{
"epoch": 0.06,
"grad_norm": 2.609375,
"learning_rate": 9.88888888888889e-06,
"loss": 1.218923807144165,
"step": 90
},
{
"epoch": 0.06133333333333333,
"grad_norm": 3.359375,
"learning_rate": 9.99999757186691e-06,
"loss": 0.9948500394821167,
"step": 92
},
{
"epoch": 0.06266666666666666,
"grad_norm": 5.25,
"learning_rate": 9.999978146819149e-06,
"loss": 1.7063817977905273,
"step": 94
},
{
"epoch": 0.064,
"grad_norm": 6.4375,
"learning_rate": 9.999939296814194e-06,
"loss": 1.944851279258728,
"step": 96
},
{
"epoch": 0.06533333333333333,
"grad_norm": 24.0,
"learning_rate": 9.999881022033159e-06,
"loss": 1.8162541389465332,
"step": 98
},
{
"epoch": 0.06666666666666667,
"grad_norm": 4.0625,
"learning_rate": 9.99980332274772e-06,
"loss": 1.777747392654419,
"step": 100
},
{
"epoch": 0.068,
"grad_norm": 4.34375,
"learning_rate": 9.999706199320119e-06,
"loss": 1.6522843837738037,
"step": 102
},
{
"epoch": 0.06933333333333333,
"grad_norm": 5.0,
"learning_rate": 9.999589652203143e-06,
"loss": 1.89161217212677,
"step": 104
},
{
"epoch": 0.07066666666666667,
"grad_norm": 4.5,
"learning_rate": 9.999453681940135e-06,
"loss": 1.8623158931732178,
"step": 106
},
{
"epoch": 0.072,
"grad_norm": 5.8125,
"learning_rate": 9.999298289164992e-06,
"loss": 1.7459262609481812,
"step": 108
},
{
"epoch": 0.07333333333333333,
"grad_norm": 25.875,
"learning_rate": 9.999123474602156e-06,
"loss": 2.047550916671753,
"step": 110
},
{
"epoch": 0.07466666666666667,
"grad_norm": 10.5,
"learning_rate": 9.998929239066614e-06,
"loss": 2.235140323638916,
"step": 112
},
{
"epoch": 0.076,
"grad_norm": 2.34375,
"learning_rate": 9.998715583463898e-06,
"loss": 1.2381446361541748,
"step": 114
},
{
"epoch": 0.07733333333333334,
"grad_norm": 5.3125,
"learning_rate": 9.998482508790072e-06,
"loss": 1.7317302227020264,
"step": 116
},
{
"epoch": 0.07866666666666666,
"grad_norm": 10.0,
"learning_rate": 9.998230016131736e-06,
"loss": 1.3054664134979248,
"step": 118
},
{
"epoch": 0.08,
"grad_norm": 8.1875,
"learning_rate": 9.99795810666601e-06,
"loss": 1.6727921962738037,
"step": 120
},
{
"epoch": 0.08133333333333333,
"grad_norm": 8.0625,
"learning_rate": 9.99766678166054e-06,
"loss": 1.8442578315734863,
"step": 122
},
{
"epoch": 0.08266666666666667,
"grad_norm": 3.625,
"learning_rate": 9.997356042473491e-06,
"loss": 1.2996498346328735,
"step": 124
},
{
"epoch": 0.084,
"grad_norm": 19.5,
"learning_rate": 9.997025890553532e-06,
"loss": 1.3131730556488037,
"step": 126
},
{
"epoch": 0.08533333333333333,
"grad_norm": 2.609375,
"learning_rate": 9.996676327439833e-06,
"loss": 1.1626245975494385,
"step": 128
},
{
"epoch": 0.08666666666666667,
"grad_norm": 2.75,
"learning_rate": 9.996307354762064e-06,
"loss": 1.3802151679992676,
"step": 130
},
{
"epoch": 0.088,
"grad_norm": 7.75,
"learning_rate": 9.995918974240384e-06,
"loss": 1.9702292680740356,
"step": 132
},
{
"epoch": 0.08933333333333333,
"grad_norm": 7.71875,
"learning_rate": 9.995511187685424e-06,
"loss": 2.1353108882904053,
"step": 134
},
{
"epoch": 0.09066666666666667,
"grad_norm": 4.9375,
"learning_rate": 9.995083996998295e-06,
"loss": 1.7128398418426514,
"step": 136
},
{
"epoch": 0.092,
"grad_norm": 9.4375,
"learning_rate": 9.994637404170562e-06,
"loss": 2.146682024002075,
"step": 138
},
{
"epoch": 0.09333333333333334,
"grad_norm": 14.1875,
"learning_rate": 9.994171411284248e-06,
"loss": 1.4107303619384766,
"step": 140
},
{
"epoch": 0.09466666666666666,
"grad_norm": 7.21875,
"learning_rate": 9.993686020511822e-06,
"loss": 1.8499665260314941,
"step": 142
},
{
"epoch": 0.096,
"grad_norm": 2.484375,
"learning_rate": 9.993181234116179e-06,
"loss": 1.0920655727386475,
"step": 144
},
{
"epoch": 0.09733333333333333,
"grad_norm": 22.25,
"learning_rate": 9.992657054450638e-06,
"loss": 1.8085236549377441,
"step": 146
},
{
"epoch": 0.09866666666666667,
"grad_norm": 9.75,
"learning_rate": 9.992113483958936e-06,
"loss": 1.6384665966033936,
"step": 148
},
{
"epoch": 0.1,
"grad_norm": 6.65625,
"learning_rate": 9.991550525175209e-06,
"loss": 1.6129257678985596,
"step": 150
},
{
"epoch": 0.10133333333333333,
"grad_norm": 8.1875,
"learning_rate": 9.990968180723972e-06,
"loss": 1.9638266563415527,
"step": 152
},
{
"epoch": 0.10266666666666667,
"grad_norm": 5.0625,
"learning_rate": 9.990366453320128e-06,
"loss": 1.8066442012786865,
"step": 154
},
{
"epoch": 0.104,
"grad_norm": 3.671875,
"learning_rate": 9.989745345768936e-06,
"loss": 1.6543402671813965,
"step": 156
},
{
"epoch": 0.10533333333333333,
"grad_norm": 3.78125,
"learning_rate": 9.98910486096601e-06,
"loss": 1.08891761302948,
"step": 158
},
{
"epoch": 0.10666666666666667,
"grad_norm": 8.4375,
"learning_rate": 9.9884450018973e-06,
"loss": 1.6041430234909058,
"step": 160
},
{
"epoch": 0.108,
"grad_norm": 5.125,
"learning_rate": 9.987765771639075e-06,
"loss": 1.6626205444335938,
"step": 162
},
{
"epoch": 0.10933333333333334,
"grad_norm": 8.5,
"learning_rate": 9.987067173357918e-06,
"loss": 1.7176623344421387,
"step": 164
},
{
"epoch": 0.11066666666666666,
"grad_norm": 1.796875,
"learning_rate": 9.986349210310707e-06,
"loss": 1.1125199794769287,
"step": 166
},
{
"epoch": 0.112,
"grad_norm": 21.875,
"learning_rate": 9.985611885844591e-06,
"loss": 1.8107001781463623,
"step": 168
},
{
"epoch": 0.11333333333333333,
"grad_norm": 4.125,
"learning_rate": 9.984855203396988e-06,
"loss": 1.684809923171997,
"step": 170
},
{
"epoch": 0.11466666666666667,
"grad_norm": 5.40625,
"learning_rate": 9.984079166495563e-06,
"loss": 1.624544620513916,
"step": 172
},
{
"epoch": 0.116,
"grad_norm": 2.53125,
"learning_rate": 9.983283778758216e-06,
"loss": 1.1144016981124878,
"step": 174
},
{
"epoch": 0.11733333333333333,
"grad_norm": 3.46875,
"learning_rate": 9.982469043893046e-06,
"loss": 1.2474544048309326,
"step": 176
},
{
"epoch": 0.11866666666666667,
"grad_norm": 6.9375,
"learning_rate": 9.981634965698366e-06,
"loss": 1.864957332611084,
"step": 178
},
{
"epoch": 0.12,
"grad_norm": 15.8125,
"learning_rate": 9.980781548062659e-06,
"loss": 1.8649969100952148,
"step": 180
},
{
"epoch": 0.12133333333333333,
"grad_norm": 10.875,
"learning_rate": 9.979908794964571e-06,
"loss": 1.6164734363555908,
"step": 182
},
{
"epoch": 0.12266666666666666,
"grad_norm": 3.96875,
"learning_rate": 9.979016710472882e-06,
"loss": 1.6327316761016846,
"step": 184
},
{
"epoch": 0.124,
"grad_norm": 5.09375,
"learning_rate": 9.978105298746514e-06,
"loss": 1.5323165655136108,
"step": 186
},
{
"epoch": 0.12533333333333332,
"grad_norm": 9.4375,
"learning_rate": 9.977174564034473e-06,
"loss": 1.6481460332870483,
"step": 188
},
{
"epoch": 0.12666666666666668,
"grad_norm": 5.4375,
"learning_rate": 9.97622451067586e-06,
"loss": 1.7201898097991943,
"step": 190
},
{
"epoch": 0.128,
"grad_norm": 4.125,
"learning_rate": 9.975255143099838e-06,
"loss": 1.567455768585205,
"step": 192
},
{
"epoch": 0.12933333333333333,
"grad_norm": 2.796875,
"learning_rate": 9.97426646582561e-06,
"loss": 1.070652723312378,
"step": 194
},
{
"epoch": 0.13066666666666665,
"grad_norm": 6.0625,
"learning_rate": 9.973258483462406e-06,
"loss": 2.008556365966797,
"step": 196
},
{
"epoch": 0.132,
"grad_norm": 5.625,
"learning_rate": 9.972231200709455e-06,
"loss": 1.6150736808776855,
"step": 198
},
{
"epoch": 0.13333333333333333,
"grad_norm": 4.0625,
"learning_rate": 9.97118462235596e-06,
"loss": 1.167098045349121,
"step": 200
},
{
"epoch": 0.13466666666666666,
"grad_norm": 5.65625,
"learning_rate": 9.970118753281088e-06,
"loss": 1.6983978748321533,
"step": 202
},
{
"epoch": 0.136,
"grad_norm": 11.125,
"learning_rate": 9.969033598453932e-06,
"loss": 2.083345651626587,
"step": 204
},
{
"epoch": 0.13733333333333334,
"grad_norm": 3.578125,
"learning_rate": 9.9679291629335e-06,
"loss": 1.5576822757720947,
"step": 206
},
{
"epoch": 0.13866666666666666,
"grad_norm": 6.25,
"learning_rate": 9.96680545186869e-06,
"loss": 1.6733722686767578,
"step": 208
},
{
"epoch": 0.14,
"grad_norm": 1.6171875,
"learning_rate": 9.965662470498253e-06,
"loss": 1.0353288650512695,
"step": 210
},
{
"epoch": 0.14133333333333334,
"grad_norm": 4.125,
"learning_rate": 9.96450022415079e-06,
"loss": 1.5584754943847656,
"step": 212
},
{
"epoch": 0.14266666666666666,
"grad_norm": 10.625,
"learning_rate": 9.963318718244706e-06,
"loss": 1.9951732158660889,
"step": 214
},
{
"epoch": 0.144,
"grad_norm": 3.25,
"learning_rate": 9.9621179582882e-06,
"loss": 1.2333295345306396,
"step": 216
},
{
"epoch": 0.14533333333333334,
"grad_norm": 7.25,
"learning_rate": 9.960897949879232e-06,
"loss": 1.8798540830612183,
"step": 218
},
{
"epoch": 0.14666666666666667,
"grad_norm": 5.25,
"learning_rate": 9.959658698705497e-06,
"loss": 1.6423976421356201,
"step": 220
},
{
"epoch": 0.148,
"grad_norm": 18.25,
"learning_rate": 9.958400210544404e-06,
"loss": 1.7932629585266113,
"step": 222
},
{
"epoch": 0.14933333333333335,
"grad_norm": 7.90625,
"learning_rate": 9.957122491263038e-06,
"loss": 1.6173839569091797,
"step": 224
},
{
"epoch": 0.15066666666666667,
"grad_norm": 8.0,
"learning_rate": 9.95582554681815e-06,
"loss": 2.040992259979248,
"step": 226
},
{
"epoch": 0.152,
"grad_norm": 17.875,
"learning_rate": 9.95450938325611e-06,
"loss": 1.217178225517273,
"step": 228
},
{
"epoch": 0.15333333333333332,
"grad_norm": 3.25,
"learning_rate": 9.953174006712894e-06,
"loss": 1.5595924854278564,
"step": 230
},
{
"epoch": 0.15466666666666667,
"grad_norm": 5.6875,
"learning_rate": 9.951819423414044e-06,
"loss": 1.7298460006713867,
"step": 232
},
{
"epoch": 0.156,
"grad_norm": 39.5,
"learning_rate": 9.950445639674647e-06,
"loss": 1.4321881532669067,
"step": 234
},
{
"epoch": 0.15733333333333333,
"grad_norm": 8.0,
"learning_rate": 9.9490526618993e-06,
"loss": 1.7013092041015625,
"step": 236
},
{
"epoch": 0.15866666666666668,
"grad_norm": 17.625,
"learning_rate": 9.947640496582092e-06,
"loss": 2.0311379432678223,
"step": 238
},
{
"epoch": 0.16,
"grad_norm": 3.46875,
"learning_rate": 9.94620915030655e-06,
"loss": 1.2982442378997803,
"step": 240
},
{
"epoch": 0.16133333333333333,
"grad_norm": 4.90625,
"learning_rate": 9.944758629745635e-06,
"loss": 1.5099470615386963,
"step": 242
},
{
"epoch": 0.16266666666666665,
"grad_norm": 5.90625,
"learning_rate": 9.943288941661693e-06,
"loss": 1.9453644752502441,
"step": 244
},
{
"epoch": 0.164,
"grad_norm": 5.125,
"learning_rate": 9.941800092906431e-06,
"loss": 1.4081361293792725,
"step": 246
},
{
"epoch": 0.16533333333333333,
"grad_norm": 6.09375,
"learning_rate": 9.940292090420882e-06,
"loss": 1.5031116008758545,
"step": 248
},
{
"epoch": 0.16666666666666666,
"grad_norm": 6.25,
"learning_rate": 9.938764941235376e-06,
"loss": 1.620882272720337,
"step": 250
},
{
"epoch": 0.168,
"grad_norm": 4.09375,
"learning_rate": 9.937218652469508e-06,
"loss": 1.623213291168213,
"step": 252
},
{
"epoch": 0.16933333333333334,
"grad_norm": 6.28125,
"learning_rate": 9.93565323133209e-06,
"loss": 1.0710468292236328,
"step": 254
},
{
"epoch": 0.17066666666666666,
"grad_norm": 3.609375,
"learning_rate": 9.934068685121144e-06,
"loss": 1.6882750988006592,
"step": 256
},
{
"epoch": 0.172,
"grad_norm": 3.171875,
"learning_rate": 9.932465021223843e-06,
"loss": 1.2838215827941895,
"step": 258
},
{
"epoch": 0.17333333333333334,
"grad_norm": 7.78125,
"learning_rate": 9.930842247116495e-06,
"loss": 1.9634010791778564,
"step": 260
},
{
"epoch": 0.17466666666666666,
"grad_norm": 4.96875,
"learning_rate": 9.929200370364492e-06,
"loss": 1.5601741075515747,
"step": 262
},
{
"epoch": 0.176,
"grad_norm": 1.46875,
"learning_rate": 9.927539398622288e-06,
"loss": 1.2826993465423584,
"step": 264
},
{
"epoch": 0.17733333333333334,
"grad_norm": 7.6875,
"learning_rate": 9.925859339633355e-06,
"loss": 1.7858996391296387,
"step": 266
},
{
"epoch": 0.17866666666666667,
"grad_norm": 4.65625,
"learning_rate": 9.924160201230157e-06,
"loss": 1.612287163734436,
"step": 268
},
{
"epoch": 0.18,
"grad_norm": 4.0,
"learning_rate": 9.922441991334097e-06,
"loss": 1.0408704280853271,
"step": 270
},
{
"epoch": 0.18133333333333335,
"grad_norm": 2.546875,
"learning_rate": 9.920704717955494e-06,
"loss": 1.4308617115020752,
"step": 272
},
{
"epoch": 0.18266666666666667,
"grad_norm": 4.53125,
"learning_rate": 9.918948389193544e-06,
"loss": 1.5153369903564453,
"step": 274
},
{
"epoch": 0.184,
"grad_norm": 4.75,
"learning_rate": 9.917173013236274e-06,
"loss": 1.577946662902832,
"step": 276
},
{
"epoch": 0.18533333333333332,
"grad_norm": 9.25,
"learning_rate": 9.915378598360513e-06,
"loss": 1.7744827270507812,
"step": 278
},
{
"epoch": 0.18666666666666668,
"grad_norm": 1.78125,
"learning_rate": 9.913565152931848e-06,
"loss": 1.1672523021697998,
"step": 280
},
{
"epoch": 0.188,
"grad_norm": 6.6875,
"learning_rate": 9.911732685404586e-06,
"loss": 1.0714428424835205,
"step": 282
},
{
"epoch": 0.18933333333333333,
"grad_norm": 13.6875,
"learning_rate": 9.909881204321719e-06,
"loss": 1.6007957458496094,
"step": 284
},
{
"epoch": 0.19066666666666668,
"grad_norm": 3.515625,
"learning_rate": 9.908010718314878e-06,
"loss": 1.1711657047271729,
"step": 286
},
{
"epoch": 0.192,
"grad_norm": 1.90625,
"learning_rate": 9.906121236104294e-06,
"loss": 0.9995139837265015,
"step": 288
},
{
"epoch": 0.19333333333333333,
"grad_norm": 2.53125,
"learning_rate": 9.90421276649876e-06,
"loss": 1.2077773809432983,
"step": 290
},
{
"epoch": 0.19466666666666665,
"grad_norm": 4.625,
"learning_rate": 9.902285318395588e-06,
"loss": 1.6521837711334229,
"step": 292
},
{
"epoch": 0.196,
"grad_norm": 3.921875,
"learning_rate": 9.90033890078057e-06,
"loss": 1.549246072769165,
"step": 294
},
{
"epoch": 0.19733333333333333,
"grad_norm": 6.0,
"learning_rate": 9.898373522727933e-06,
"loss": 1.6926743984222412,
"step": 296
},
{
"epoch": 0.19866666666666666,
"grad_norm": 4.09375,
"learning_rate": 9.896389193400296e-06,
"loss": 1.424901008605957,
"step": 298
},
{
"epoch": 0.2,
"grad_norm": 6.4375,
"learning_rate": 9.894385922048627e-06,
"loss": 1.5778025388717651,
"step": 300
},
{
"epoch": 0.20133333333333334,
"grad_norm": 10.5,
"learning_rate": 9.89236371801221e-06,
"loss": 1.8592967987060547,
"step": 302
},
{
"epoch": 0.20266666666666666,
"grad_norm": 4.875,
"learning_rate": 9.890322590718588e-06,
"loss": 1.5442957878112793,
"step": 304
},
{
"epoch": 0.204,
"grad_norm": 3.15625,
"learning_rate": 9.888262549683528e-06,
"loss": 1.1914174556732178,
"step": 306
},
{
"epoch": 0.20533333333333334,
"grad_norm": 5.78125,
"learning_rate": 9.886183604510962e-06,
"loss": 1.9909839630126953,
"step": 308
},
{
"epoch": 0.20666666666666667,
"grad_norm": 5.34375,
"learning_rate": 9.884085764892972e-06,
"loss": 1.573006510734558,
"step": 310
},
{
"epoch": 0.208,
"grad_norm": 2.703125,
"learning_rate": 9.881969040609709e-06,
"loss": 1.158943772315979,
"step": 312
},
{
"epoch": 0.20933333333333334,
"grad_norm": 2.125,
"learning_rate": 9.879833441529376e-06,
"loss": 1.1194008588790894,
"step": 314
},
{
"epoch": 0.21066666666666667,
"grad_norm": 8.4375,
"learning_rate": 9.877678977608163e-06,
"loss": 1.5121419429779053,
"step": 316
},
{
"epoch": 0.212,
"grad_norm": 7.1875,
"learning_rate": 9.875505658890214e-06,
"loss": 1.510066032409668,
"step": 318
},
{
"epoch": 0.21333333333333335,
"grad_norm": 11.1875,
"learning_rate": 9.873313495507569e-06,
"loss": 0.9876103401184082,
"step": 320
},
{
"epoch": 0.21466666666666667,
"grad_norm": 4.875,
"learning_rate": 9.871102497680127e-06,
"loss": 1.8244948387145996,
"step": 322
},
{
"epoch": 0.216,
"grad_norm": 4.78125,
"learning_rate": 9.86887267571559e-06,
"loss": 1.1998775005340576,
"step": 324
},
{
"epoch": 0.21733333333333332,
"grad_norm": 4.25,
"learning_rate": 9.86662404000942e-06,
"loss": 1.5374467372894287,
"step": 326
},
{
"epoch": 0.21866666666666668,
"grad_norm": 2.328125,
"learning_rate": 9.864356601044789e-06,
"loss": 1.1450176239013672,
"step": 328
},
{
"epoch": 0.22,
"grad_norm": 4.46875,
"learning_rate": 9.86207036939253e-06,
"loss": 1.261959195137024,
"step": 330
},
{
"epoch": 0.22133333333333333,
"grad_norm": 3.421875,
"learning_rate": 9.859765355711084e-06,
"loss": 1.1870423555374146,
"step": 332
},
{
"epoch": 0.22266666666666668,
"grad_norm": 3.359375,
"learning_rate": 9.85744157074646e-06,
"loss": 1.5192539691925049,
"step": 334
},
{
"epoch": 0.224,
"grad_norm": 2.5,
"learning_rate": 9.855099025332178e-06,
"loss": 1.0173918008804321,
"step": 336
},
{
"epoch": 0.22533333333333333,
"grad_norm": 1.4375,
"learning_rate": 9.852737730389217e-06,
"loss": 1.1494295597076416,
"step": 338
},
{
"epoch": 0.22666666666666666,
"grad_norm": 4.65625,
"learning_rate": 9.850357696925965e-06,
"loss": 1.9026292562484741,
"step": 340
},
{
"epoch": 0.228,
"grad_norm": 4.71875,
"learning_rate": 9.847958936038176e-06,
"loss": 1.59890878200531,
"step": 342
},
{
"epoch": 0.22933333333333333,
"grad_norm": 1.8203125,
"learning_rate": 9.845541458908903e-06,
"loss": 1.1450040340423584,
"step": 344
},
{
"epoch": 0.23066666666666666,
"grad_norm": 5.9375,
"learning_rate": 9.84310527680846e-06,
"loss": 1.528599739074707,
"step": 346
},
{
"epoch": 0.232,
"grad_norm": 7.6875,
"learning_rate": 9.840650401094363e-06,
"loss": 1.938246488571167,
"step": 348
},
{
"epoch": 0.23333333333333334,
"grad_norm": 2.0625,
"learning_rate": 9.838176843211278e-06,
"loss": 1.1424744129180908,
"step": 350
},
{
"epoch": 0.23466666666666666,
"grad_norm": 4.21875,
"learning_rate": 9.835684614690967e-06,
"loss": 1.617881178855896,
"step": 352
},
{
"epoch": 0.236,
"grad_norm": 11.4375,
"learning_rate": 9.833173727152234e-06,
"loss": 1.0590524673461914,
"step": 354
},
{
"epoch": 0.23733333333333334,
"grad_norm": 4.6875,
"learning_rate": 9.830644192300871e-06,
"loss": 1.597219467163086,
"step": 356
},
{
"epoch": 0.23866666666666667,
"grad_norm": 5.6875,
"learning_rate": 9.828096021929607e-06,
"loss": 2.0535879135131836,
"step": 358
},
{
"epoch": 0.24,
"grad_norm": 5.03125,
"learning_rate": 9.825529227918052e-06,
"loss": 1.5197744369506836,
"step": 360
},
{
"epoch": 0.24133333333333334,
"grad_norm": 7.0,
"learning_rate": 9.822943822232627e-06,
"loss": 1.502641201019287,
"step": 362
},
{
"epoch": 0.24266666666666667,
"grad_norm": 5.40625,
"learning_rate": 9.820339816926538e-06,
"loss": 1.582297682762146,
"step": 364
},
{
"epoch": 0.244,
"grad_norm": 7.34375,
"learning_rate": 9.817717224139689e-06,
"loss": 1.879384994506836,
"step": 366
},
{
"epoch": 0.24533333333333332,
"grad_norm": 3.84375,
"learning_rate": 9.815076056098651e-06,
"loss": 1.1634621620178223,
"step": 368
},
{
"epoch": 0.24666666666666667,
"grad_norm": 4.1875,
"learning_rate": 9.81241632511658e-06,
"loss": 1.5249799489974976,
"step": 370
},
{
"epoch": 0.248,
"grad_norm": 2.84375,
"learning_rate": 9.809738043593187e-06,
"loss": 1.0248550176620483,
"step": 372
},
{
"epoch": 0.24933333333333332,
"grad_norm": 3.28125,
"learning_rate": 9.807041224014651e-06,
"loss": 1.5375021696090698,
"step": 374
},
{
"epoch": 0.25066666666666665,
"grad_norm": 4.0,
"learning_rate": 9.804325878953588e-06,
"loss": 1.4876121282577515,
"step": 376
},
{
"epoch": 0.252,
"grad_norm": 4.71875,
"learning_rate": 9.801592021068973e-06,
"loss": 1.5311915874481201,
"step": 378
},
{
"epoch": 0.25333333333333335,
"grad_norm": 1.8671875,
"learning_rate": 9.79883966310609e-06,
"loss": 1.199878215789795,
"step": 380
},
{
"epoch": 0.25466666666666665,
"grad_norm": 1.7890625,
"learning_rate": 9.796068817896474e-06,
"loss": 1.1104457378387451,
"step": 382
},
{
"epoch": 0.256,
"grad_norm": 1.046875,
"learning_rate": 9.793279498357842e-06,
"loss": 1.2461895942687988,
"step": 384
},
{
"epoch": 0.25733333333333336,
"grad_norm": 1.6875,
"learning_rate": 9.790471717494038e-06,
"loss": 1.0979530811309814,
"step": 386
},
{
"epoch": 0.25866666666666666,
"grad_norm": 9.5,
"learning_rate": 9.787645488394985e-06,
"loss": 1.9058414697647095,
"step": 388
},
{
"epoch": 0.26,
"grad_norm": 6.6875,
"learning_rate": 9.784800824236595e-06,
"loss": 1.4592888355255127,
"step": 390
},
{
"epoch": 0.2613333333333333,
"grad_norm": 12.0,
"learning_rate": 9.781937738280735e-06,
"loss": 1.8315216302871704,
"step": 392
},
{
"epoch": 0.26266666666666666,
"grad_norm": 5.75,
"learning_rate": 9.779056243875155e-06,
"loss": 1.5205374956130981,
"step": 394
},
{
"epoch": 0.264,
"grad_norm": 10.75,
"learning_rate": 9.77615635445342e-06,
"loss": 1.4809885025024414,
"step": 396
},
{
"epoch": 0.2653333333333333,
"grad_norm": 8.75,
"learning_rate": 9.773238083534857e-06,
"loss": 2.0717709064483643,
"step": 398
},
{
"epoch": 0.26666666666666666,
"grad_norm": 2.15625,
"learning_rate": 9.770301444724484e-06,
"loss": 0.9559568762779236,
"step": 400
},
{
"epoch": 0.268,
"grad_norm": 7.46875,
"learning_rate": 9.767346451712955e-06,
"loss": 1.602325439453125,
"step": 402
},
{
"epoch": 0.2693333333333333,
"grad_norm": 1.890625,
"learning_rate": 9.76437311827649e-06,
"loss": 1.3470821380615234,
"step": 404
},
{
"epoch": 0.27066666666666667,
"grad_norm": 7.6875,
"learning_rate": 9.76138145827681e-06,
"loss": 2.051486015319824,
"step": 406
},
{
"epoch": 0.272,
"grad_norm": 9.3125,
"learning_rate": 9.758371485661076e-06,
"loss": 1.547593116760254,
"step": 408
},
{
"epoch": 0.2733333333333333,
"grad_norm": 12.1875,
"learning_rate": 9.755343214461826e-06,
"loss": 0.7995688915252686,
"step": 410
},
{
"epoch": 0.27466666666666667,
"grad_norm": 2.609375,
"learning_rate": 9.752296658796896e-06,
"loss": 1.067533254623413,
"step": 412
},
{
"epoch": 0.276,
"grad_norm": 2.609375,
"learning_rate": 9.749231832869382e-06,
"loss": 1.1320441961288452,
"step": 414
},
{
"epoch": 0.2773333333333333,
"grad_norm": 5.53125,
"learning_rate": 9.746148750967537e-06,
"loss": 1.570180058479309,
"step": 416
},
{
"epoch": 0.2786666666666667,
"grad_norm": 2.59375,
"learning_rate": 9.743047427464738e-06,
"loss": 1.1230032444000244,
"step": 418
},
{
"epoch": 0.28,
"grad_norm": 1.65625,
"learning_rate": 9.739927876819396e-06,
"loss": 1.3301358222961426,
"step": 420
},
{
"epoch": 0.2813333333333333,
"grad_norm": 4.78125,
"learning_rate": 9.736790113574905e-06,
"loss": 1.5038044452667236,
"step": 422
},
{
"epoch": 0.2826666666666667,
"grad_norm": 1.34375,
"learning_rate": 9.733634152359554e-06,
"loss": 1.1231873035430908,
"step": 424
},
{
"epoch": 0.284,
"grad_norm": 5.46875,
"learning_rate": 9.730460007886487e-06,
"loss": 1.4550846815109253,
"step": 426
},
{
"epoch": 0.2853333333333333,
"grad_norm": 2.828125,
"learning_rate": 9.727267694953607e-06,
"loss": 1.2031742334365845,
"step": 428
},
{
"epoch": 0.2866666666666667,
"grad_norm": 7.625,
"learning_rate": 9.72405722844352e-06,
"loss": 2.016512870788574,
"step": 430
},
{
"epoch": 0.288,
"grad_norm": 10.9375,
"learning_rate": 9.720828623323469e-06,
"loss": 1.8591995239257812,
"step": 432
},
{
"epoch": 0.28933333333333333,
"grad_norm": 5.34375,
"learning_rate": 9.717581894645257e-06,
"loss": 1.607204556465149,
"step": 434
},
{
"epoch": 0.2906666666666667,
"grad_norm": 6.5625,
"learning_rate": 9.714317057545176e-06,
"loss": 1.7864959239959717,
"step": 436
},
{
"epoch": 0.292,
"grad_norm": 60.25,
"learning_rate": 9.711034127243948e-06,
"loss": 1.471695899963379,
"step": 438
},
{
"epoch": 0.29333333333333333,
"grad_norm": 12.375,
"learning_rate": 9.707733119046636e-06,
"loss": 1.7200267314910889,
"step": 440
},
{
"epoch": 0.2946666666666667,
"grad_norm": 4.15625,
"learning_rate": 9.70441404834259e-06,
"loss": 1.4870445728302002,
"step": 442
},
{
"epoch": 0.296,
"grad_norm": 8.8125,
"learning_rate": 9.701076930605364e-06,
"loss": 1.579514503479004,
"step": 444
},
{
"epoch": 0.29733333333333334,
"grad_norm": 11.25,
"learning_rate": 9.697721781392649e-06,
"loss": 1.1523479223251343,
"step": 446
},
{
"epoch": 0.2986666666666667,
"grad_norm": 11.375,
"learning_rate": 9.694348616346195e-06,
"loss": 1.970068097114563,
"step": 448
},
{
"epoch": 0.3,
"grad_norm": 5.0,
"learning_rate": 9.690957451191745e-06,
"loss": 1.5304884910583496,
"step": 450
},
{
"epoch": 0.30133333333333334,
"grad_norm": 12.625,
"learning_rate": 9.687548301738965e-06,
"loss": 1.4972553253173828,
"step": 452
},
{
"epoch": 0.30266666666666664,
"grad_norm": 8.1875,
"learning_rate": 9.684121183881354e-06,
"loss": 1.4987800121307373,
"step": 454
},
{
"epoch": 0.304,
"grad_norm": 3.984375,
"learning_rate": 9.680676113596183e-06,
"loss": 1.607285499572754,
"step": 456
},
{
"epoch": 0.30533333333333335,
"grad_norm": 5.09375,
"learning_rate": 9.677213106944422e-06,
"loss": 1.5995099544525146,
"step": 458
},
{
"epoch": 0.30666666666666664,
"grad_norm": 16.0,
"learning_rate": 9.673732180070654e-06,
"loss": 1.8780418634414673,
"step": 460
},
{
"epoch": 0.308,
"grad_norm": 17.625,
"learning_rate": 9.670233349203008e-06,
"loss": 1.6614197492599487,
"step": 462
},
{
"epoch": 0.30933333333333335,
"grad_norm": 1.9375,
"learning_rate": 9.666716630653087e-06,
"loss": 1.0368998050689697,
"step": 464
},
{
"epoch": 0.31066666666666665,
"grad_norm": 14.875,
"learning_rate": 9.663182040815883e-06,
"loss": 1.773169755935669,
"step": 466
},
{
"epoch": 0.312,
"grad_norm": 1.921875,
"learning_rate": 9.659629596169704e-06,
"loss": 1.0493347644805908,
"step": 468
},
{
"epoch": 0.31333333333333335,
"grad_norm": 4.40625,
"learning_rate": 9.656059313276094e-06,
"loss": 1.3263812065124512,
"step": 470
},
{
"epoch": 0.31466666666666665,
"grad_norm": 16.25,
"learning_rate": 9.65247120877976e-06,
"loss": 1.6804672479629517,
"step": 472
},
{
"epoch": 0.316,
"grad_norm": 9.375,
"learning_rate": 9.648865299408506e-06,
"loss": 1.946678638458252,
"step": 474
},
{
"epoch": 0.31733333333333336,
"grad_norm": 5.09375,
"learning_rate": 9.645241601973123e-06,
"loss": 1.5437986850738525,
"step": 476
},
{
"epoch": 0.31866666666666665,
"grad_norm": 4.8125,
"learning_rate": 9.641600133367346e-06,
"loss": 1.4694257974624634,
"step": 478
},
{
"epoch": 0.32,
"grad_norm": 8.4375,
"learning_rate": 9.63794091056775e-06,
"loss": 1.4415161609649658,
"step": 480
},
{
"epoch": 0.32133333333333336,
"grad_norm": 7.0,
"learning_rate": 9.634263950633682e-06,
"loss": 1.4647676944732666,
"step": 482
},
{
"epoch": 0.32266666666666666,
"grad_norm": 10.4375,
"learning_rate": 9.630569270707186e-06,
"loss": 1.9553511142730713,
"step": 484
},
{
"epoch": 0.324,
"grad_norm": 1.8828125,
"learning_rate": 9.62685688801291e-06,
"loss": 1.3038352727890015,
"step": 486
},
{
"epoch": 0.3253333333333333,
"grad_norm": 5.09375,
"learning_rate": 9.623126819858035e-06,
"loss": 1.6100306510925293,
"step": 488
},
{
"epoch": 0.32666666666666666,
"grad_norm": 6.125,
"learning_rate": 9.61937908363219e-06,
"loss": 1.477756381034851,
"step": 490
},
{
"epoch": 0.328,
"grad_norm": 6.4375,
"learning_rate": 9.615613696807377e-06,
"loss": 1.5422775745391846,
"step": 492
},
{
"epoch": 0.3293333333333333,
"grad_norm": 11.1875,
"learning_rate": 9.611830676937881e-06,
"loss": 1.6656134128570557,
"step": 494
},
{
"epoch": 0.33066666666666666,
"grad_norm": 8.5625,
"learning_rate": 9.608030041660195e-06,
"loss": 2.0399422645568848,
"step": 496
},
{
"epoch": 0.332,
"grad_norm": 7.78125,
"learning_rate": 9.604211808692936e-06,
"loss": 1.023806095123291,
"step": 498
},
{
"epoch": 0.3333333333333333,
"grad_norm": 5.21875,
"learning_rate": 9.600375995836757e-06,
"loss": 1.828716516494751,
"step": 500
},
{
"epoch": 0.33466666666666667,
"grad_norm": 5.3125,
"learning_rate": 9.596522620974274e-06,
"loss": 1.6109929084777832,
"step": 502
},
{
"epoch": 0.336,
"grad_norm": 1.8828125,
"learning_rate": 9.59265170206997e-06,
"loss": 1.0516669750213623,
"step": 504
},
{
"epoch": 0.3373333333333333,
"grad_norm": 4.6875,
"learning_rate": 9.588763257170135e-06,
"loss": 1.4694746732711792,
"step": 506
},
{
"epoch": 0.33866666666666667,
"grad_norm": 7.6875,
"learning_rate": 9.584857304402746e-06,
"loss": 1.5151875019073486,
"step": 508
},
{
"epoch": 0.34,
"grad_norm": 12.9375,
"learning_rate": 9.58093386197741e-06,
"loss": 1.5199638605117798,
"step": 510
},
{
"epoch": 0.3413333333333333,
"grad_norm": 1.6953125,
"learning_rate": 9.576992948185276e-06,
"loss": 1.1889758110046387,
"step": 512
},
{
"epoch": 0.3426666666666667,
"grad_norm": 9.875,
"learning_rate": 9.573034581398937e-06,
"loss": 1.5682647228240967,
"step": 514
},
{
"epoch": 0.344,
"grad_norm": 3.875,
"learning_rate": 9.569058780072353e-06,
"loss": 1.5848019123077393,
"step": 516
},
{
"epoch": 0.3453333333333333,
"grad_norm": 9.25,
"learning_rate": 9.565065562740769e-06,
"loss": 1.883324146270752,
"step": 518
},
{
"epoch": 0.3466666666666667,
"grad_norm": 4.03125,
"learning_rate": 9.561054948020623e-06,
"loss": 1.1338858604431152,
"step": 520
},
{
"epoch": 0.348,
"grad_norm": 4.5,
"learning_rate": 9.557026954609452e-06,
"loss": 1.504443883895874,
"step": 522
},
{
"epoch": 0.34933333333333333,
"grad_norm": 13.375,
"learning_rate": 9.552981601285822e-06,
"loss": 1.4343321323394775,
"step": 524
},
{
"epoch": 0.3506666666666667,
"grad_norm": 4.4375,
"learning_rate": 9.548918906909225e-06,
"loss": 1.5061818361282349,
"step": 526
},
{
"epoch": 0.352,
"grad_norm": 4.96875,
"learning_rate": 9.544838890420005e-06,
"loss": 1.6417787075042725,
"step": 528
},
{
"epoch": 0.35333333333333333,
"grad_norm": 2.46875,
"learning_rate": 9.540741570839254e-06,
"loss": 1.2109320163726807,
"step": 530
},
{
"epoch": 0.3546666666666667,
"grad_norm": 12.8125,
"learning_rate": 9.53662696726873e-06,
"loss": 1.592550277709961,
"step": 532
},
{
"epoch": 0.356,
"grad_norm": 2.25,
"learning_rate": 9.53249509889078e-06,
"loss": 1.0606516599655151,
"step": 534
},
{
"epoch": 0.35733333333333334,
"grad_norm": 4.25,
"learning_rate": 9.528345984968229e-06,
"loss": 1.4385344982147217,
"step": 536
},
{
"epoch": 0.3586666666666667,
"grad_norm": 7.71875,
"learning_rate": 9.524179644844303e-06,
"loss": 1.8518590927124023,
"step": 538
},
{
"epoch": 0.36,
"grad_norm": 4.6875,
"learning_rate": 9.519996097942541e-06,
"loss": 1.7862706184387207,
"step": 540
},
{
"epoch": 0.36133333333333334,
"grad_norm": 4.65625,
"learning_rate": 9.5157953637667e-06,
"loss": 1.541890263557434,
"step": 542
},
{
"epoch": 0.3626666666666667,
"grad_norm": 4.28125,
"learning_rate": 9.51157746190066e-06,
"loss": 1.0391428470611572,
"step": 544
},
{
"epoch": 0.364,
"grad_norm": 5.53125,
"learning_rate": 9.50734241200834e-06,
"loss": 1.4924867153167725,
"step": 546
},
{
"epoch": 0.36533333333333334,
"grad_norm": 3.859375,
"learning_rate": 9.503090233833603e-06,
"loss": 1.4717371463775635,
"step": 548
},
{
"epoch": 0.36666666666666664,
"grad_norm": 7.5,
"learning_rate": 9.498820947200163e-06,
"loss": 1.8459192514419556,
"step": 550
},
{
"epoch": 0.368,
"grad_norm": 4.6875,
"learning_rate": 9.494534572011493e-06,
"loss": 1.5080983638763428,
"step": 552
},
{
"epoch": 0.36933333333333335,
"grad_norm": 4.375,
"learning_rate": 9.49023112825074e-06,
"loss": 1.432806372642517,
"step": 554
},
{
"epoch": 0.37066666666666664,
"grad_norm": 2.1875,
"learning_rate": 9.485910635980615e-06,
"loss": 1.2087211608886719,
"step": 556
},
{
"epoch": 0.372,
"grad_norm": 3.453125,
"learning_rate": 9.481573115343316e-06,
"loss": 1.5064131021499634,
"step": 558
},
{
"epoch": 0.37333333333333335,
"grad_norm": 8.125,
"learning_rate": 9.477218586560428e-06,
"loss": 1.9642555713653564,
"step": 560
},
{
"epoch": 0.37466666666666665,
"grad_norm": 1.6328125,
"learning_rate": 9.472847069932823e-06,
"loss": 1.278930425643921,
"step": 562
},
{
"epoch": 0.376,
"grad_norm": 5.71875,
"learning_rate": 9.468458585840574e-06,
"loss": 1.361438512802124,
"step": 564
},
{
"epoch": 0.37733333333333335,
"grad_norm": 4.8125,
"learning_rate": 9.464053154742856e-06,
"loss": 1.5573828220367432,
"step": 566
},
{
"epoch": 0.37866666666666665,
"grad_norm": 7.3125,
"learning_rate": 9.459630797177852e-06,
"loss": 1.8953866958618164,
"step": 568
},
{
"epoch": 0.38,
"grad_norm": 8.3125,
"learning_rate": 9.455191533762656e-06,
"loss": 1.8274908065795898,
"step": 570
},
{
"epoch": 0.38133333333333336,
"grad_norm": 3.484375,
"learning_rate": 9.450735385193174e-06,
"loss": 0.9719834327697754,
"step": 572
},
{
"epoch": 0.38266666666666665,
"grad_norm": 4.59375,
"learning_rate": 9.446262372244037e-06,
"loss": 1.5405220985412598,
"step": 574
},
{
"epoch": 0.384,
"grad_norm": 4.4375,
"learning_rate": 9.441772515768496e-06,
"loss": 1.5655242204666138,
"step": 576
},
{
"epoch": 0.38533333333333336,
"grad_norm": 10.5625,
"learning_rate": 9.437265836698321e-06,
"loss": 2.027954578399658,
"step": 578
},
{
"epoch": 0.38666666666666666,
"grad_norm": 6.40625,
"learning_rate": 9.432742356043716e-06,
"loss": 1.5380610227584839,
"step": 580
},
{
"epoch": 0.388,
"grad_norm": 3.875,
"learning_rate": 9.428202094893212e-06,
"loss": 1.251591682434082,
"step": 582
},
{
"epoch": 0.3893333333333333,
"grad_norm": 2.984375,
"learning_rate": 9.423645074413573e-06,
"loss": 1.127235770225525,
"step": 584
},
{
"epoch": 0.39066666666666666,
"grad_norm": 11.1875,
"learning_rate": 9.419071315849689e-06,
"loss": 1.574254035949707,
"step": 586
},
{
"epoch": 0.392,
"grad_norm": 6.65625,
"learning_rate": 9.41448084052449e-06,
"loss": 1.6922552585601807,
"step": 588
},
{
"epoch": 0.3933333333333333,
"grad_norm": 6.53125,
"learning_rate": 9.409873669838836e-06,
"loss": 1.503310203552246,
"step": 590
},
{
"epoch": 0.39466666666666667,
"grad_norm": 4.75,
"learning_rate": 9.405249825271422e-06,
"loss": 1.559074878692627,
"step": 592
},
{
"epoch": 0.396,
"grad_norm": 4.25,
"learning_rate": 9.400609328378677e-06,
"loss": 1.4986786842346191,
"step": 594
},
{
"epoch": 0.3973333333333333,
"grad_norm": 6.21875,
"learning_rate": 9.395952200794667e-06,
"loss": 1.4592822790145874,
"step": 596
},
{
"epoch": 0.39866666666666667,
"grad_norm": 15.1875,
"learning_rate": 9.39127846423098e-06,
"loss": 0.4564563035964966,
"step": 598
},
{
"epoch": 0.4,
"grad_norm": 3.96875,
"learning_rate": 9.386588140476646e-06,
"loss": 1.4600090980529785,
"step": 600
},
{
"epoch": 0.4013333333333333,
"grad_norm": 5.78125,
"learning_rate": 9.381881251398022e-06,
"loss": 1.618513822555542,
"step": 602
},
{
"epoch": 0.4026666666666667,
"grad_norm": 2.6875,
"learning_rate": 9.377157818938689e-06,
"loss": 0.9879556894302368,
"step": 604
},
{
"epoch": 0.404,
"grad_norm": 1.5703125,
"learning_rate": 9.372417865119359e-06,
"loss": 1.0576777458190918,
"step": 606
},
{
"epoch": 0.4053333333333333,
"grad_norm": 8.5,
"learning_rate": 9.367661412037758e-06,
"loss": 0.7936822175979614,
"step": 608
},
{
"epoch": 0.4066666666666667,
"grad_norm": 7.25,
"learning_rate": 9.362888481868543e-06,
"loss": 1.8808355331420898,
"step": 610
},
{
"epoch": 0.408,
"grad_norm": 2.25,
"learning_rate": 9.358099096863185e-06,
"loss": 0.9202804565429688,
"step": 612
},
{
"epoch": 0.4093333333333333,
"grad_norm": 4.90625,
"learning_rate": 9.353293279349855e-06,
"loss": 1.534444808959961,
"step": 614
},
{
"epoch": 0.4106666666666667,
"grad_norm": 4.0,
"learning_rate": 9.348471051733351e-06,
"loss": 1.4413414001464844,
"step": 616
},
{
"epoch": 0.412,
"grad_norm": 9.375,
"learning_rate": 9.343632436494966e-06,
"loss": 1.8454234600067139,
"step": 618
},
{
"epoch": 0.41333333333333333,
"grad_norm": 5.65625,
"learning_rate": 9.338777456192387e-06,
"loss": 1.5563803911209106,
"step": 620
},
{
"epoch": 0.4146666666666667,
"grad_norm": 7.40625,
"learning_rate": 9.333906133459608e-06,
"loss": 1.7403740882873535,
"step": 622
},
{
"epoch": 0.416,
"grad_norm": 6.40625,
"learning_rate": 9.329018491006796e-06,
"loss": 1.380486249923706,
"step": 624
},
{
"epoch": 0.41733333333333333,
"grad_norm": 10.25,
"learning_rate": 9.324114551620216e-06,
"loss": 1.8002688884735107,
"step": 626
},
{
"epoch": 0.4186666666666667,
"grad_norm": 2.15625,
"learning_rate": 9.319194338162103e-06,
"loss": 1.0972381830215454,
"step": 628
},
{
"epoch": 0.42,
"grad_norm": 8.375,
"learning_rate": 9.31425787357056e-06,
"loss": 1.166933536529541,
"step": 630
},
{
"epoch": 0.42133333333333334,
"grad_norm": 4.90625,
"learning_rate": 9.309305180859455e-06,
"loss": 1.0162211656570435,
"step": 632
},
{
"epoch": 0.4226666666666667,
"grad_norm": 11.3125,
"learning_rate": 9.304336283118313e-06,
"loss": 1.5658559799194336,
"step": 634
},
{
"epoch": 0.424,
"grad_norm": 4.625,
"learning_rate": 9.299351203512204e-06,
"loss": 1.5108516216278076,
"step": 636
},
{
"epoch": 0.42533333333333334,
"grad_norm": 1.78125,
"learning_rate": 9.29434996528164e-06,
"loss": 1.030600905418396,
"step": 638
},
{
"epoch": 0.4266666666666667,
"grad_norm": 6.4375,
"learning_rate": 9.289332591742465e-06,
"loss": 1.501643419265747,
"step": 640
},
{
"epoch": 0.428,
"grad_norm": 5.8125,
"learning_rate": 9.284299106285748e-06,
"loss": 1.3692076206207275,
"step": 642
},
{
"epoch": 0.42933333333333334,
"grad_norm": 4.21875,
"learning_rate": 9.279249532377663e-06,
"loss": 1.4648946523666382,
"step": 644
},
{
"epoch": 0.43066666666666664,
"grad_norm": 5.0,
"learning_rate": 9.2741838935594e-06,
"loss": 1.129237174987793,
"step": 646
},
{
"epoch": 0.432,
"grad_norm": 3.84375,
"learning_rate": 9.26910221344704e-06,
"loss": 1.4659708738327026,
"step": 648
},
{
"epoch": 0.43333333333333335,
"grad_norm": 7.34375,
"learning_rate": 9.264004515731449e-06,
"loss": 1.9087955951690674,
"step": 650
},
{
"epoch": 0.43466666666666665,
"grad_norm": 6.3125,
"learning_rate": 9.25889082417816e-06,
"loss": 1.4802827835083008,
"step": 652
},
{
"epoch": 0.436,
"grad_norm": 4.15625,
"learning_rate": 9.253761162627278e-06,
"loss": 1.500867247581482,
"step": 654
},
{
"epoch": 0.43733333333333335,
"grad_norm": 5.625,
"learning_rate": 9.248615554993359e-06,
"loss": 1.6107925176620483,
"step": 656
},
{
"epoch": 0.43866666666666665,
"grad_norm": 5.25,
"learning_rate": 9.243454025265297e-06,
"loss": 1.5453171730041504,
"step": 658
},
{
"epoch": 0.44,
"grad_norm": 6.21875,
"learning_rate": 9.23827659750622e-06,
"loss": 1.2661125659942627,
"step": 660
},
{
"epoch": 0.44133333333333336,
"grad_norm": 13.375,
"learning_rate": 9.233083295853367e-06,
"loss": 1.44877290725708,
"step": 662
},
{
"epoch": 0.44266666666666665,
"grad_norm": 1.5234375,
"learning_rate": 9.227874144517984e-06,
"loss": 1.1241137981414795,
"step": 664
},
{
"epoch": 0.444,
"grad_norm": 5.40625,
"learning_rate": 9.222649167785209e-06,
"loss": 1.8743245601654053,
"step": 666
},
{
"epoch": 0.44533333333333336,
"grad_norm": 6.40625,
"learning_rate": 9.21740839001396e-06,
"loss": 1.4891200065612793,
"step": 668
},
{
"epoch": 0.44666666666666666,
"grad_norm": 2.4375,
"learning_rate": 9.21215183563681e-06,
"loss": 1.1671557426452637,
"step": 670
},
{
"epoch": 0.448,
"grad_norm": 3.65625,
"learning_rate": 9.2068795291599e-06,
"loss": 1.3477826118469238,
"step": 672
},
{
"epoch": 0.4493333333333333,
"grad_norm": 4.84375,
"learning_rate": 9.201591495162792e-06,
"loss": 1.5511021614074707,
"step": 674
},
{
"epoch": 0.45066666666666666,
"grad_norm": 10.8125,
"learning_rate": 9.196287758298372e-06,
"loss": 1.676473617553711,
"step": 676
},
{
"epoch": 0.452,
"grad_norm": 2.515625,
"learning_rate": 9.190968343292743e-06,
"loss": 1.0571801662445068,
"step": 678
},
{
"epoch": 0.4533333333333333,
"grad_norm": 6.375,
"learning_rate": 9.18563327494509e-06,
"loss": 1.7745697498321533,
"step": 680
},
{
"epoch": 0.45466666666666666,
"grad_norm": 9.625,
"learning_rate": 9.180282578127578e-06,
"loss": 1.5120433568954468,
"step": 682
},
{
"epoch": 0.456,
"grad_norm": 4.84375,
"learning_rate": 9.17491627778523e-06,
"loss": 1.5437407493591309,
"step": 684
},
{
"epoch": 0.4573333333333333,
"grad_norm": 4.8125,
"learning_rate": 9.169534398935817e-06,
"loss": 1.3872923851013184,
"step": 686
},
{
"epoch": 0.45866666666666667,
"grad_norm": 4.375,
"learning_rate": 9.164136966669735e-06,
"loss": 1.4649873971939087,
"step": 688
},
{
"epoch": 0.46,
"grad_norm": 6.40625,
"learning_rate": 9.158724006149884e-06,
"loss": 1.4206476211547852,
"step": 690
},
{
"epoch": 0.4613333333333333,
"grad_norm": 19.125,
"learning_rate": 9.153295542611568e-06,
"loss": 1.798445463180542,
"step": 692
},
{
"epoch": 0.46266666666666667,
"grad_norm": 4.09375,
"learning_rate": 9.147851601362361e-06,
"loss": 1.6945797204971313,
"step": 694
},
{
"epoch": 0.464,
"grad_norm": 3.6875,
"learning_rate": 9.142392207781989e-06,
"loss": 1.3889479637145996,
"step": 696
},
{
"epoch": 0.4653333333333333,
"grad_norm": 11.0625,
"learning_rate": 9.136917387322231e-06,
"loss": 0.5246891975402832,
"step": 698
},
{
"epoch": 0.4666666666666667,
"grad_norm": 8.25,
"learning_rate": 9.131427165506768e-06,
"loss": 1.4431519508361816,
"step": 700
},
{
"epoch": 0.468,
"grad_norm": 5.125,
"learning_rate": 9.1259215679311e-06,
"loss": 1.6847102642059326,
"step": 702
},
{
"epoch": 0.4693333333333333,
"grad_norm": 3.328125,
"learning_rate": 9.120400620262395e-06,
"loss": 1.1731724739074707,
"step": 704
},
{
"epoch": 0.4706666666666667,
"grad_norm": 5.03125,
"learning_rate": 9.114864348239393e-06,
"loss": 1.4725532531738281,
"step": 706
},
{
"epoch": 0.472,
"grad_norm": 12.75,
"learning_rate": 9.109312777672273e-06,
"loss": 1.4579191207885742,
"step": 708
},
{
"epoch": 0.47333333333333333,
"grad_norm": 5.9375,
"learning_rate": 9.103745934442531e-06,
"loss": 1.4855751991271973,
"step": 710
},
{
"epoch": 0.4746666666666667,
"grad_norm": 7.0625,
"learning_rate": 9.098163844502876e-06,
"loss": 2.031588077545166,
"step": 712
},
{
"epoch": 0.476,
"grad_norm": 6.3125,
"learning_rate": 9.092566533877083e-06,
"loss": 1.0525641441345215,
"step": 714
},
{
"epoch": 0.47733333333333333,
"grad_norm": 5.21875,
"learning_rate": 9.0869540286599e-06,
"loss": 1.4468775987625122,
"step": 716
},
{
"epoch": 0.4786666666666667,
"grad_norm": 5.6875,
"learning_rate": 9.081326355016904e-06,
"loss": 1.4774446487426758,
"step": 718
},
{
"epoch": 0.48,
"grad_norm": 4.375,
"learning_rate": 9.075683539184386e-06,
"loss": 1.4556554555892944,
"step": 720
},
{
"epoch": 0.48133333333333334,
"grad_norm": 5.875,
"learning_rate": 9.070025607469237e-06,
"loss": 1.673704743385315,
"step": 722
},
{
"epoch": 0.4826666666666667,
"grad_norm": 2.046875,
"learning_rate": 9.064352586248812e-06,
"loss": 1.1458492279052734,
"step": 724
},
{
"epoch": 0.484,
"grad_norm": 10.5,
"learning_rate": 9.05866450197082e-06,
"loss": 1.717451810836792,
"step": 726
},
{
"epoch": 0.48533333333333334,
"grad_norm": 3.90625,
"learning_rate": 9.05296138115319e-06,
"loss": 1.434446096420288,
"step": 728
},
{
"epoch": 0.4866666666666667,
"grad_norm": 7.28125,
"learning_rate": 9.047243250383949e-06,
"loss": 1.9059016704559326,
"step": 730
},
{
"epoch": 0.488,
"grad_norm": 4.875,
"learning_rate": 9.041510136321105e-06,
"loss": 1.4807331562042236,
"step": 732
},
{
"epoch": 0.48933333333333334,
"grad_norm": 5.34375,
"learning_rate": 9.03576206569252e-06,
"loss": 1.560255765914917,
"step": 734
},
{
"epoch": 0.49066666666666664,
"grad_norm": 7.90625,
"learning_rate": 9.029999065295777e-06,
"loss": 1.9080533981323242,
"step": 736
},
{
"epoch": 0.492,
"grad_norm": 2.8125,
"learning_rate": 9.024221161998066e-06,
"loss": 1.1071043014526367,
"step": 738
},
{
"epoch": 0.49333333333333335,
"grad_norm": 2.984375,
"learning_rate": 9.018428382736055e-06,
"loss": 0.9837844371795654,
"step": 740
},
{
"epoch": 0.49466666666666664,
"grad_norm": 5.6875,
"learning_rate": 9.012620754515764e-06,
"loss": 1.493727207183838,
"step": 742
},
{
"epoch": 0.496,
"grad_norm": 7.71875,
"learning_rate": 9.006798304412436e-06,
"loss": 1.7983622550964355,
"step": 744
},
{
"epoch": 0.49733333333333335,
"grad_norm": 2.015625,
"learning_rate": 9.000961059570418e-06,
"loss": 1.0712119340896606,
"step": 746
},
{
"epoch": 0.49866666666666665,
"grad_norm": 1.3984375,
"learning_rate": 8.995109047203028e-06,
"loss": 1.1010278463363647,
"step": 748
},
{
"epoch": 0.5,
"grad_norm": 3.78125,
"learning_rate": 8.989242294592432e-06,
"loss": 1.5035382509231567,
"step": 750
},
{
"epoch": 0.5013333333333333,
"grad_norm": 5.46875,
"learning_rate": 8.983360829089506e-06,
"loss": 1.836085557937622,
"step": 752
},
{
"epoch": 0.5026666666666667,
"grad_norm": 3.71875,
"learning_rate": 8.977464678113734e-06,
"loss": 1.0614256858825684,
"step": 754
},
{
"epoch": 0.504,
"grad_norm": 19.75,
"learning_rate": 8.971553869153054e-06,
"loss": 1.9808733463287354,
"step": 756
},
{
"epoch": 0.5053333333333333,
"grad_norm": 8.875,
"learning_rate": 8.965628429763739e-06,
"loss": 1.838444471359253,
"step": 758
},
{
"epoch": 0.5066666666666667,
"grad_norm": 5.5625,
"learning_rate": 8.959688387570273e-06,
"loss": 1.0896308422088623,
"step": 760
},
{
"epoch": 0.508,
"grad_norm": 14.25,
"learning_rate": 8.953733770265217e-06,
"loss": 1.8753701448440552,
"step": 762
},
{
"epoch": 0.5093333333333333,
"grad_norm": 1.828125,
"learning_rate": 8.94776460560908e-06,
"loss": 1.1300835609436035,
"step": 764
},
{
"epoch": 0.5106666666666667,
"grad_norm": 6.53125,
"learning_rate": 8.941780921430192e-06,
"loss": 1.5389584302902222,
"step": 766
},
{
"epoch": 0.512,
"grad_norm": 6.53125,
"learning_rate": 8.935782745624575e-06,
"loss": 1.5212798118591309,
"step": 768
},
{
"epoch": 0.5133333333333333,
"grad_norm": 5.15625,
"learning_rate": 8.92977010615581e-06,
"loss": 1.4728401899337769,
"step": 770
},
{
"epoch": 0.5146666666666667,
"grad_norm": 1.0859375,
"learning_rate": 8.923743031054906e-06,
"loss": 0.9624325037002563,
"step": 772
},
{
"epoch": 0.516,
"grad_norm": 1.2578125,
"learning_rate": 8.917701548420173e-06,
"loss": 1.0515624284744263,
"step": 774
},
{
"epoch": 0.5173333333333333,
"grad_norm": 11.6875,
"learning_rate": 8.911645686417087e-06,
"loss": 2.039482593536377,
"step": 776
},
{
"epoch": 0.5186666666666667,
"grad_norm": 7.40625,
"learning_rate": 8.905575473278167e-06,
"loss": 1.6416807174682617,
"step": 778
},
{
"epoch": 0.52,
"grad_norm": 7.71875,
"learning_rate": 8.899490937302828e-06,
"loss": 2.006240129470825,
"step": 780
},
{
"epoch": 0.5213333333333333,
"grad_norm": 2.734375,
"learning_rate": 8.893392106857269e-06,
"loss": 1.2567050457000732,
"step": 782
},
{
"epoch": 0.5226666666666666,
"grad_norm": 29.5,
"learning_rate": 8.887279010374317e-06,
"loss": 1.0010839700698853,
"step": 784
},
{
"epoch": 0.524,
"grad_norm": 7.65625,
"learning_rate": 8.881151676353316e-06,
"loss": 1.7621567249298096,
"step": 786
},
{
"epoch": 0.5253333333333333,
"grad_norm": 9.0,
"learning_rate": 8.875010133359989e-06,
"loss": 1.4890618324279785,
"step": 788
},
{
"epoch": 0.5266666666666666,
"grad_norm": 1.140625,
"learning_rate": 8.868854410026291e-06,
"loss": 0.954632043838501,
"step": 790
},
{
"epoch": 0.528,
"grad_norm": 4.5,
"learning_rate": 8.862684535050296e-06,
"loss": 1.0927908420562744,
"step": 792
},
{
"epoch": 0.5293333333333333,
"grad_norm": 5.375,
"learning_rate": 8.856500537196044e-06,
"loss": 1.6923635005950928,
"step": 794
},
{
"epoch": 0.5306666666666666,
"grad_norm": 7.03125,
"learning_rate": 8.850302445293424e-06,
"loss": 1.4436423778533936,
"step": 796
},
{
"epoch": 0.532,
"grad_norm": 2.1875,
"learning_rate": 8.844090288238026e-06,
"loss": 1.0953271389007568,
"step": 798
},
{
"epoch": 0.5333333333333333,
"grad_norm": 3.078125,
"learning_rate": 8.837864094991015e-06,
"loss": 1.1574478149414062,
"step": 800
},
{
"epoch": 0.5346666666666666,
"grad_norm": 7.0,
"learning_rate": 8.831623894578995e-06,
"loss": 1.6270692348480225,
"step": 802
},
{
"epoch": 0.536,
"grad_norm": 2.6875,
"learning_rate": 8.825369716093865e-06,
"loss": 1.1011627912521362,
"step": 804
},
{
"epoch": 0.5373333333333333,
"grad_norm": 10.4375,
"learning_rate": 8.819101588692695e-06,
"loss": 1.896059513092041,
"step": 806
},
{
"epoch": 0.5386666666666666,
"grad_norm": 1.0078125,
"learning_rate": 8.812819541597586e-06,
"loss": 1.1611248254776,
"step": 808
},
{
"epoch": 0.54,
"grad_norm": 4.84375,
"learning_rate": 8.806523604095527e-06,
"loss": 1.676903247833252,
"step": 810
},
{
"epoch": 0.5413333333333333,
"grad_norm": 9.125,
"learning_rate": 8.800213805538272e-06,
"loss": 1.8192381858825684,
"step": 812
},
{
"epoch": 0.5426666666666666,
"grad_norm": 5.125,
"learning_rate": 8.793890175342186e-06,
"loss": 1.8401235342025757,
"step": 814
},
{
"epoch": 0.544,
"grad_norm": 5.84375,
"learning_rate": 8.787552742988125e-06,
"loss": 1.5326521396636963,
"step": 816
},
{
"epoch": 0.5453333333333333,
"grad_norm": 7.40625,
"learning_rate": 8.781201538021294e-06,
"loss": 1.659316062927246,
"step": 818
},
{
"epoch": 0.5466666666666666,
"grad_norm": 20.75,
"learning_rate": 8.77483659005109e-06,
"loss": 0.5096349716186523,
"step": 820
},
{
"epoch": 0.548,
"grad_norm": 13.25,
"learning_rate": 8.768457928751e-06,
"loss": 1.4871480464935303,
"step": 822
},
{
"epoch": 0.5493333333333333,
"grad_norm": 18.375,
"learning_rate": 8.76206558385843e-06,
"loss": 1.8885602951049805,
"step": 824
},
{
"epoch": 0.5506666666666666,
"grad_norm": 5.65625,
"learning_rate": 8.755659585174581e-06,
"loss": 1.979843258857727,
"step": 826
},
{
"epoch": 0.552,
"grad_norm": 6.375,
"learning_rate": 8.749239962564309e-06,
"loss": 1.6709187030792236,
"step": 828
},
{
"epoch": 0.5533333333333333,
"grad_norm": 5.3125,
"learning_rate": 8.742806745955992e-06,
"loss": 1.5816951990127563,
"step": 830
},
{
"epoch": 0.5546666666666666,
"grad_norm": 6.15625,
"learning_rate": 8.73635996534137e-06,
"loss": 1.7703216075897217,
"step": 832
},
{
"epoch": 0.556,
"grad_norm": 6.84375,
"learning_rate": 8.729899650775428e-06,
"loss": 1.8280192613601685,
"step": 834
},
{
"epoch": 0.5573333333333333,
"grad_norm": 4.28125,
"learning_rate": 8.723425832376247e-06,
"loss": 1.4863190650939941,
"step": 836
},
{
"epoch": 0.5586666666666666,
"grad_norm": 3.625,
"learning_rate": 8.716938540324853e-06,
"loss": 1.2123053073883057,
"step": 838
},
{
"epoch": 0.56,
"grad_norm": 16.25,
"learning_rate": 8.710437804865101e-06,
"loss": 0.41149356961250305,
"step": 840
},
{
"epoch": 0.5613333333333334,
"grad_norm": 8.9375,
"learning_rate": 8.70392365630351e-06,
"loss": 0.36364132165908813,
"step": 842
},
{
"epoch": 0.5626666666666666,
"grad_norm": 8.125,
"learning_rate": 8.697396125009132e-06,
"loss": 0.7439370155334473,
"step": 844
},
{
"epoch": 0.564,
"grad_norm": 4.625,
"learning_rate": 8.69085524141341e-06,
"loss": 1.428462266921997,
"step": 846
},
{
"epoch": 0.5653333333333334,
"grad_norm": 7.875,
"learning_rate": 8.684301036010034e-06,
"loss": 1.4296550750732422,
"step": 848
},
{
"epoch": 0.5666666666666667,
"grad_norm": 4.78125,
"learning_rate": 8.677733539354807e-06,
"loss": 1.4440577030181885,
"step": 850
},
{
"epoch": 0.568,
"grad_norm": 7.53125,
"learning_rate": 8.671152782065488e-06,
"loss": 1.9406943321228027,
"step": 852
},
{
"epoch": 0.5693333333333334,
"grad_norm": 4.15625,
"learning_rate": 8.664558794821665e-06,
"loss": 1.0483615398406982,
"step": 854
},
{
"epoch": 0.5706666666666667,
"grad_norm": 4.5,
"learning_rate": 8.657951608364596e-06,
"loss": 1.4695384502410889,
"step": 856
},
{
"epoch": 0.572,
"grad_norm": 4.5,
"learning_rate": 8.651331253497079e-06,
"loss": 1.4279370307922363,
"step": 858
},
{
"epoch": 0.5733333333333334,
"grad_norm": 7.6875,
"learning_rate": 8.644697761083303e-06,
"loss": 1.5009353160858154,
"step": 860
},
{
"epoch": 0.5746666666666667,
"grad_norm": 8.6875,
"learning_rate": 8.638051162048704e-06,
"loss": 1.4930593967437744,
"step": 862
},
{
"epoch": 0.576,
"grad_norm": 5.5,
"learning_rate": 8.631391487379819e-06,
"loss": 1.530214786529541,
"step": 864
},
{
"epoch": 0.5773333333333334,
"grad_norm": 7.25,
"learning_rate": 8.624718768124147e-06,
"loss": 1.4129531383514404,
"step": 866
},
{
"epoch": 0.5786666666666667,
"grad_norm": 6.90625,
"learning_rate": 8.61803303539e-06,
"loss": 1.3828375339508057,
"step": 868
},
{
"epoch": 0.58,
"grad_norm": 6.875,
"learning_rate": 8.611334320346358e-06,
"loss": 1.763295292854309,
"step": 870
},
{
"epoch": 0.5813333333333334,
"grad_norm": 5.53125,
"learning_rate": 8.604622654222728e-06,
"loss": 1.4801650047302246,
"step": 872
},
{
"epoch": 0.5826666666666667,
"grad_norm": 9.25,
"learning_rate": 8.59789806830899e-06,
"loss": 1.6105256080627441,
"step": 874
},
{
"epoch": 0.584,
"grad_norm": 2.171875,
"learning_rate": 8.591160593955256e-06,
"loss": 0.9670834541320801,
"step": 876
},
{
"epoch": 0.5853333333333334,
"grad_norm": 4.5,
"learning_rate": 8.584410262571734e-06,
"loss": 1.429821491241455,
"step": 878
},
{
"epoch": 0.5866666666666667,
"grad_norm": 7.21875,
"learning_rate": 8.577647105628562e-06,
"loss": 1.786545753479004,
"step": 880
},
{
"epoch": 0.588,
"grad_norm": 7.40625,
"learning_rate": 8.570871154655672e-06,
"loss": 1.392760992050171,
"step": 882
},
{
"epoch": 0.5893333333333334,
"grad_norm": 12.4375,
"learning_rate": 8.564082441242643e-06,
"loss": 1.8015222549438477,
"step": 884
},
{
"epoch": 0.5906666666666667,
"grad_norm": 9.0625,
"learning_rate": 8.557280997038552e-06,
"loss": 1.9965815544128418,
"step": 886
},
{
"epoch": 0.592,
"grad_norm": 8.9375,
"learning_rate": 8.550466853751834e-06,
"loss": 1.038320541381836,
"step": 888
},
{
"epoch": 0.5933333333333334,
"grad_norm": 5.09375,
"learning_rate": 8.543640043150117e-06,
"loss": 1.5173522233963013,
"step": 890
},
{
"epoch": 0.5946666666666667,
"grad_norm": 5.90625,
"learning_rate": 8.536800597060092e-06,
"loss": 1.5306694507598877,
"step": 892
},
{
"epoch": 0.596,
"grad_norm": 6.375,
"learning_rate": 8.529948547367348e-06,
"loss": 1.4445128440856934,
"step": 894
},
{
"epoch": 0.5973333333333334,
"grad_norm": 5.75,
"learning_rate": 8.523083926016245e-06,
"loss": 1.7182955741882324,
"step": 896
},
{
"epoch": 0.5986666666666667,
"grad_norm": 5.0625,
"learning_rate": 8.51620676500974e-06,
"loss": 1.1675145626068115,
"step": 898
},
{
"epoch": 0.6,
"grad_norm": 5.09375,
"learning_rate": 8.509317096409258e-06,
"loss": 1.4480347633361816,
"step": 900
},
{
"epoch": 0.6013333333333334,
"grad_norm": 11.5625,
"learning_rate": 8.50241495233453e-06,
"loss": 2.055203914642334,
"step": 902
},
{
"epoch": 0.6026666666666667,
"grad_norm": 4.375,
"learning_rate": 8.49550036496345e-06,
"loss": 1.021264910697937,
"step": 904
},
{
"epoch": 0.604,
"grad_norm": 5.6875,
"learning_rate": 8.48857336653192e-06,
"loss": 1.2289679050445557,
"step": 906
},
{
"epoch": 0.6053333333333333,
"grad_norm": 3.703125,
"learning_rate": 8.481633989333709e-06,
"loss": 1.4245610237121582,
"step": 908
},
{
"epoch": 0.6066666666666667,
"grad_norm": 6.71875,
"learning_rate": 8.474682265720291e-06,
"loss": 1.4456334114074707,
"step": 910
},
{
"epoch": 0.608,
"grad_norm": 4.96875,
"learning_rate": 8.4677182281007e-06,
"loss": 1.515615463256836,
"step": 912
},
{
"epoch": 0.6093333333333333,
"grad_norm": 1.765625,
"learning_rate": 8.460741908941376e-06,
"loss": 1.0593926906585693,
"step": 914
},
{
"epoch": 0.6106666666666667,
"grad_norm": 3.671875,
"learning_rate": 8.453753340766018e-06,
"loss": 1.4384649991989136,
"step": 916
},
{
"epoch": 0.612,
"grad_norm": 6.125,
"learning_rate": 8.446752556155434e-06,
"loss": 1.5307202339172363,
"step": 918
},
{
"epoch": 0.6133333333333333,
"grad_norm": 10.0,
"learning_rate": 8.439739587747375e-06,
"loss": 1.749891757965088,
"step": 920
},
{
"epoch": 0.6146666666666667,
"grad_norm": 7.21875,
"learning_rate": 8.432714468236404e-06,
"loss": 1.684350609779358,
"step": 922
},
{
"epoch": 0.616,
"grad_norm": 8.125,
"learning_rate": 8.425677230373727e-06,
"loss": 1.4872686862945557,
"step": 924
},
{
"epoch": 0.6173333333333333,
"grad_norm": 4.0625,
"learning_rate": 8.418627906967045e-06,
"loss": 1.7606031894683838,
"step": 926
},
{
"epoch": 0.6186666666666667,
"grad_norm": 7.5,
"learning_rate": 8.411566530880405e-06,
"loss": 1.8105180263519287,
"step": 928
},
{
"epoch": 0.62,
"grad_norm": 7.15625,
"learning_rate": 8.404493135034041e-06,
"loss": 1.4707257747650146,
"step": 930
},
{
"epoch": 0.6213333333333333,
"grad_norm": 6.03125,
"learning_rate": 8.397407752404228e-06,
"loss": 1.917523741722107,
"step": 932
},
{
"epoch": 0.6226666666666667,
"grad_norm": 2.0625,
"learning_rate": 8.390310416023116e-06,
"loss": 1.1204737424850464,
"step": 934
},
{
"epoch": 0.624,
"grad_norm": 41.5,
"learning_rate": 8.38320115897859e-06,
"loss": 0.6065104603767395,
"step": 936
},
{
"epoch": 0.6253333333333333,
"grad_norm": 4.9375,
"learning_rate": 8.376080014414105e-06,
"loss": 1.421940803527832,
"step": 938
},
{
"epoch": 0.6266666666666667,
"grad_norm": 9.0625,
"learning_rate": 8.368947015528544e-06,
"loss": 1.8984816074371338,
"step": 940
},
{
"epoch": 0.628,
"grad_norm": 5.28125,
"learning_rate": 8.36180219557604e-06,
"loss": 1.528894066810608,
"step": 942
},
{
"epoch": 0.6293333333333333,
"grad_norm": 5.5625,
"learning_rate": 8.354645587865852e-06,
"loss": 1.6361967325210571,
"step": 944
},
{
"epoch": 0.6306666666666667,
"grad_norm": 5.5625,
"learning_rate": 8.347477225762186e-06,
"loss": 1.4143483638763428,
"step": 946
},
{
"epoch": 0.632,
"grad_norm": 4.6875,
"learning_rate": 8.340297142684044e-06,
"loss": 1.4818150997161865,
"step": 948
},
{
"epoch": 0.6333333333333333,
"grad_norm": 6.5,
"learning_rate": 8.333105372105079e-06,
"loss": 1.1189380884170532,
"step": 950
},
{
"epoch": 0.6346666666666667,
"grad_norm": 1.7265625,
"learning_rate": 8.325901947553426e-06,
"loss": 1.1370716094970703,
"step": 952
},
{
"epoch": 0.636,
"grad_norm": 11.375,
"learning_rate": 8.31868690261155e-06,
"loss": 1.6399116516113281,
"step": 954
},
{
"epoch": 0.6373333333333333,
"grad_norm": 3.78125,
"learning_rate": 8.311460270916094e-06,
"loss": 1.1279245615005493,
"step": 956
},
{
"epoch": 0.6386666666666667,
"grad_norm": 7.71875,
"learning_rate": 8.30422208615772e-06,
"loss": 1.127082109451294,
"step": 958
},
{
"epoch": 0.64,
"grad_norm": 3.3125,
"learning_rate": 8.296972382080947e-06,
"loss": 1.1065402030944824,
"step": 960
},
{
"epoch": 0.6413333333333333,
"grad_norm": 7.78125,
"learning_rate": 8.289711192483998e-06,
"loss": 1.9919843673706055,
"step": 962
},
{
"epoch": 0.6426666666666667,
"grad_norm": 8.3125,
"learning_rate": 8.282438551218638e-06,
"loss": 1.7666702270507812,
"step": 964
},
{
"epoch": 0.644,
"grad_norm": 7.59375,
"learning_rate": 8.27515449219003e-06,
"loss": 1.8833098411560059,
"step": 966
},
{
"epoch": 0.6453333333333333,
"grad_norm": 7.40625,
"learning_rate": 8.267859049356558e-06,
"loss": 1.4413492679595947,
"step": 968
},
{
"epoch": 0.6466666666666666,
"grad_norm": 5.25,
"learning_rate": 8.260552256729675e-06,
"loss": 1.3773534297943115,
"step": 970
},
{
"epoch": 0.648,
"grad_norm": 20.75,
"learning_rate": 8.25323414837376e-06,
"loss": 0.8820421695709229,
"step": 972
},
{
"epoch": 0.6493333333333333,
"grad_norm": 7.03125,
"learning_rate": 8.245904758405934e-06,
"loss": 1.8331353664398193,
"step": 974
},
{
"epoch": 0.6506666666666666,
"grad_norm": 7.21875,
"learning_rate": 8.238564120995915e-06,
"loss": 1.7633671760559082,
"step": 976
},
{
"epoch": 0.652,
"grad_norm": 7.78125,
"learning_rate": 8.231212270365862e-06,
"loss": 1.8337441682815552,
"step": 978
},
{
"epoch": 0.6533333333333333,
"grad_norm": 8.3125,
"learning_rate": 8.223849240790204e-06,
"loss": 1.0776680707931519,
"step": 980
},
{
"epoch": 0.6546666666666666,
"grad_norm": 12.9375,
"learning_rate": 8.216475066595492e-06,
"loss": 1.4760407209396362,
"step": 982
},
{
"epoch": 0.656,
"grad_norm": 2.484375,
"learning_rate": 8.209089782160233e-06,
"loss": 1.1044740676879883,
"step": 984
},
{
"epoch": 0.6573333333333333,
"grad_norm": 14.0625,
"learning_rate": 8.20169342191472e-06,
"loss": 1.8829679489135742,
"step": 986
},
{
"epoch": 0.6586666666666666,
"grad_norm": 2.09375,
"learning_rate": 8.194286020340895e-06,
"loss": 0.9792040586471558,
"step": 988
},
{
"epoch": 0.66,
"grad_norm": 6.5625,
"learning_rate": 8.18686761197217e-06,
"loss": 1.521083116531372,
"step": 990
},
{
"epoch": 0.6613333333333333,
"grad_norm": 6.0625,
"learning_rate": 8.179438231393266e-06,
"loss": 1.530885934829712,
"step": 992
},
{
"epoch": 0.6626666666666666,
"grad_norm": 12.25,
"learning_rate": 8.171997913240062e-06,
"loss": 1.8062398433685303,
"step": 994
},
{
"epoch": 0.664,
"grad_norm": 1.9453125,
"learning_rate": 8.164546692199426e-06,
"loss": 1.1137508153915405,
"step": 996
},
{
"epoch": 0.6653333333333333,
"grad_norm": 6.96875,
"learning_rate": 8.15708460300906e-06,
"loss": 1.7198907136917114,
"step": 998
},
{
"epoch": 0.6666666666666666,
"grad_norm": 6.125,
"learning_rate": 8.149611680457326e-06,
"loss": 1.5810315608978271,
"step": 1000
},
{
"epoch": 0.668,
"grad_norm": 12.25,
"learning_rate": 8.142127959383094e-06,
"loss": 1.9013679027557373,
"step": 1002
},
{
"epoch": 0.6693333333333333,
"grad_norm": 3.59375,
"learning_rate": 8.134633474675583e-06,
"loss": 1.0885121822357178,
"step": 1004
},
{
"epoch": 0.6706666666666666,
"grad_norm": 8.6875,
"learning_rate": 8.127128261274182e-06,
"loss": 1.455412745475769,
"step": 1006
},
{
"epoch": 0.672,
"grad_norm": 17.5,
"learning_rate": 8.119612354168303e-06,
"loss": 1.4445679187774658,
"step": 1008
},
{
"epoch": 0.6733333333333333,
"grad_norm": 18.0,
"learning_rate": 8.112085788397212e-06,
"loss": 1.8903926610946655,
"step": 1010
},
{
"epoch": 0.6746666666666666,
"grad_norm": 5.09375,
"learning_rate": 8.104548599049869e-06,
"loss": 1.3634119033813477,
"step": 1012
},
{
"epoch": 0.676,
"grad_norm": 7.96875,
"learning_rate": 8.09700082126475e-06,
"loss": 1.8946447372436523,
"step": 1014
},
{
"epoch": 0.6773333333333333,
"grad_norm": 14.6875,
"learning_rate": 8.08944249022971e-06,
"loss": 1.7080318927764893,
"step": 1016
},
{
"epoch": 0.6786666666666666,
"grad_norm": 10.9375,
"learning_rate": 8.081873641181789e-06,
"loss": 1.9619665145874023,
"step": 1018
},
{
"epoch": 0.68,
"grad_norm": 1.859375,
"learning_rate": 8.074294309407072e-06,
"loss": 1.1800537109375,
"step": 1020
},
{
"epoch": 0.6813333333333333,
"grad_norm": 6.1875,
"learning_rate": 8.066704530240512e-06,
"loss": 1.4908158779144287,
"step": 1022
},
{
"epoch": 0.6826666666666666,
"grad_norm": 5.25,
"learning_rate": 8.059104339065764e-06,
"loss": 1.5013716220855713,
"step": 1024
},
{
"epoch": 0.684,
"grad_norm": 2.21875,
"learning_rate": 8.051493771315029e-06,
"loss": 1.1278164386749268,
"step": 1026
},
{
"epoch": 0.6853333333333333,
"grad_norm": 2.34375,
"learning_rate": 8.043872862468882e-06,
"loss": 1.2503137588500977,
"step": 1028
},
{
"epoch": 0.6866666666666666,
"grad_norm": 7.0,
"learning_rate": 8.036241648056104e-06,
"loss": 1.0977543592453003,
"step": 1030
},
{
"epoch": 0.688,
"grad_norm": 3.703125,
"learning_rate": 8.028600163653533e-06,
"loss": 1.4442572593688965,
"step": 1032
},
{
"epoch": 0.6893333333333334,
"grad_norm": 6.125,
"learning_rate": 8.020948444885872e-06,
"loss": 1.5718536376953125,
"step": 1034
},
{
"epoch": 0.6906666666666667,
"grad_norm": 5.34375,
"learning_rate": 8.01328652742554e-06,
"loss": 1.912582278251648,
"step": 1036
},
{
"epoch": 0.692,
"grad_norm": 4.90625,
"learning_rate": 8.005614446992514e-06,
"loss": 1.5022928714752197,
"step": 1038
},
{
"epoch": 0.6933333333333334,
"grad_norm": 8.875,
"learning_rate": 7.99793223935413e-06,
"loss": 1.676508903503418,
"step": 1040
},
{
"epoch": 0.6946666666666667,
"grad_norm": 10.6875,
"learning_rate": 7.99023994032496e-06,
"loss": 1.5803358554840088,
"step": 1042
},
{
"epoch": 0.696,
"grad_norm": 5.3125,
"learning_rate": 7.982537585766603e-06,
"loss": 1.4909937381744385,
"step": 1044
},
{
"epoch": 0.6973333333333334,
"grad_norm": 11.5,
"learning_rate": 7.97482521158755e-06,
"loss": 0.35839077830314636,
"step": 1046
},
{
"epoch": 0.6986666666666667,
"grad_norm": 17.875,
"learning_rate": 7.967102853742996e-06,
"loss": 1.632436752319336,
"step": 1048
},
{
"epoch": 0.7,
"grad_norm": 4.03125,
"learning_rate": 7.959370548234682e-06,
"loss": 1.4115333557128906,
"step": 1050
},
{
"epoch": 0.7013333333333334,
"grad_norm": 7.3125,
"learning_rate": 7.951628331110727e-06,
"loss": 1.40264892578125,
"step": 1052
},
{
"epoch": 0.7026666666666667,
"grad_norm": 3.296875,
"learning_rate": 7.943876238465461e-06,
"loss": 1.0617637634277344,
"step": 1054
},
{
"epoch": 0.704,
"grad_norm": 6.125,
"learning_rate": 7.936114306439246e-06,
"loss": 1.4370262622833252,
"step": 1056
},
{
"epoch": 0.7053333333333334,
"grad_norm": 6.5,
"learning_rate": 7.92834257121832e-06,
"loss": 1.9666515588760376,
"step": 1058
},
{
"epoch": 0.7066666666666667,
"grad_norm": 4.3125,
"learning_rate": 7.92056106903462e-06,
"loss": 1.4887534379959106,
"step": 1060
},
{
"epoch": 0.708,
"grad_norm": 3.1875,
"learning_rate": 7.912769836165623e-06,
"loss": 1.0378882884979248,
"step": 1062
},
{
"epoch": 0.7093333333333334,
"grad_norm": 2.59375,
"learning_rate": 7.904968908934165e-06,
"loss": 1.0224369764328003,
"step": 1064
},
{
"epoch": 0.7106666666666667,
"grad_norm": 1.546875,
"learning_rate": 7.897158323708282e-06,
"loss": 1.011722445487976,
"step": 1066
},
{
"epoch": 0.712,
"grad_norm": 37.5,
"learning_rate": 7.889338116901031e-06,
"loss": 1.8897815942764282,
"step": 1068
},
{
"epoch": 0.7133333333333334,
"grad_norm": 5.5,
"learning_rate": 7.881508324970329e-06,
"loss": 1.4885183572769165,
"step": 1070
},
{
"epoch": 0.7146666666666667,
"grad_norm": 13.875,
"learning_rate": 7.873668984418772e-06,
"loss": 1.6457788944244385,
"step": 1072
},
{
"epoch": 0.716,
"grad_norm": 6.34375,
"learning_rate": 7.865820131793483e-06,
"loss": 1.7942242622375488,
"step": 1074
},
{
"epoch": 0.7173333333333334,
"grad_norm": 7.875,
"learning_rate": 7.85796180368592e-06,
"loss": 1.6265013217926025,
"step": 1076
},
{
"epoch": 0.7186666666666667,
"grad_norm": 4.53125,
"learning_rate": 7.85009403673172e-06,
"loss": 1.425769567489624,
"step": 1078
},
{
"epoch": 0.72,
"grad_norm": 5.78125,
"learning_rate": 7.842216867610528e-06,
"loss": 1.4441373348236084,
"step": 1080
},
{
"epoch": 0.7213333333333334,
"grad_norm": 5.125,
"learning_rate": 7.834330333045817e-06,
"loss": 1.4369800090789795,
"step": 1082
},
{
"epoch": 0.7226666666666667,
"grad_norm": 7.375,
"learning_rate": 7.82643446980472e-06,
"loss": 2.045433521270752,
"step": 1084
},
{
"epoch": 0.724,
"grad_norm": 6.09375,
"learning_rate": 7.818529314697865e-06,
"loss": 1.462162971496582,
"step": 1086
},
{
"epoch": 0.7253333333333334,
"grad_norm": 11.875,
"learning_rate": 7.810614904579196e-06,
"loss": 1.4759876728057861,
"step": 1088
},
{
"epoch": 0.7266666666666667,
"grad_norm": 5.25,
"learning_rate": 7.802691276345811e-06,
"loss": 1.4259663820266724,
"step": 1090
},
{
"epoch": 0.728,
"grad_norm": 9.5,
"learning_rate": 7.794758466937768e-06,
"loss": 0.3171471953392029,
"step": 1092
},
{
"epoch": 0.7293333333333333,
"grad_norm": 3.375,
"learning_rate": 7.786816513337945e-06,
"loss": 1.1333750486373901,
"step": 1094
},
{
"epoch": 0.7306666666666667,
"grad_norm": 5.875,
"learning_rate": 7.778865452571835e-06,
"loss": 1.4517849683761597,
"step": 1096
},
{
"epoch": 0.732,
"grad_norm": 4.625,
"learning_rate": 7.770905321707402e-06,
"loss": 1.5269715785980225,
"step": 1098
},
{
"epoch": 0.7333333333333333,
"grad_norm": 2.25,
"learning_rate": 7.76293615785489e-06,
"loss": 1.064500331878662,
"step": 1100
},
{
"epoch": 0.7346666666666667,
"grad_norm": 4.375,
"learning_rate": 7.754957998166646e-06,
"loss": 1.386234998703003,
"step": 1102
},
{
"epoch": 0.736,
"grad_norm": 12.375,
"learning_rate": 7.74697087983697e-06,
"loss": 1.8305230140686035,
"step": 1104
},
{
"epoch": 0.7373333333333333,
"grad_norm": 1.8125,
"learning_rate": 7.738974840101921e-06,
"loss": 1.1282780170440674,
"step": 1106
},
{
"epoch": 0.7386666666666667,
"grad_norm": 5.3125,
"learning_rate": 7.730969916239145e-06,
"loss": 1.5412876605987549,
"step": 1108
},
{
"epoch": 0.74,
"grad_norm": 5.84375,
"learning_rate": 7.722956145567715e-06,
"loss": 1.4641010761260986,
"step": 1110
},
{
"epoch": 0.7413333333333333,
"grad_norm": 1.3125,
"learning_rate": 7.714933565447942e-06,
"loss": 1.0171947479248047,
"step": 1112
},
{
"epoch": 0.7426666666666667,
"grad_norm": 4.8125,
"learning_rate": 7.706902213281208e-06,
"loss": 1.4489610195159912,
"step": 1114
},
{
"epoch": 0.744,
"grad_norm": 5.5,
"learning_rate": 7.69886212650979e-06,
"loss": 1.5235693454742432,
"step": 1116
},
{
"epoch": 0.7453333333333333,
"grad_norm": 6.6875,
"learning_rate": 7.690813342616687e-06,
"loss": 1.5696840286254883,
"step": 1118
},
{
"epoch": 0.7466666666666667,
"grad_norm": 3.125,
"learning_rate": 7.682755899125447e-06,
"loss": 1.0552146434783936,
"step": 1120
},
{
"epoch": 0.748,
"grad_norm": 3.875,
"learning_rate": 7.67468983359998e-06,
"loss": 1.1165143251419067,
"step": 1122
},
{
"epoch": 0.7493333333333333,
"grad_norm": 3.65625,
"learning_rate": 7.666615183644402e-06,
"loss": 1.4511375427246094,
"step": 1124
},
{
"epoch": 0.7506666666666667,
"grad_norm": 5.25,
"learning_rate": 7.658531986902843e-06,
"loss": 1.159609317779541,
"step": 1126
},
{
"epoch": 0.752,
"grad_norm": 4.6875,
"learning_rate": 7.650440281059284e-06,
"loss": 1.4254381656646729,
"step": 1128
},
{
"epoch": 0.7533333333333333,
"grad_norm": 2.546875,
"learning_rate": 7.642340103837368e-06,
"loss": 1.1249420642852783,
"step": 1130
},
{
"epoch": 0.7546666666666667,
"grad_norm": 8.8125,
"learning_rate": 7.63423149300024e-06,
"loss": 1.8620219230651855,
"step": 1132
},
{
"epoch": 0.756,
"grad_norm": 1.8828125,
"learning_rate": 7.626114486350358e-06,
"loss": 1.103478193283081,
"step": 1134
},
{
"epoch": 0.7573333333333333,
"grad_norm": 5.28125,
"learning_rate": 7.617989121729319e-06,
"loss": 1.6233323812484741,
"step": 1136
},
{
"epoch": 0.7586666666666667,
"grad_norm": 5.1875,
"learning_rate": 7.609855437017693e-06,
"loss": 1.4830645322799683,
"step": 1138
},
{
"epoch": 0.76,
"grad_norm": 4.9375,
"learning_rate": 7.6017134701348285e-06,
"loss": 1.5413252115249634,
"step": 1140
},
{
"epoch": 0.7613333333333333,
"grad_norm": 4.65625,
"learning_rate": 7.593563259038692e-06,
"loss": 1.5256080627441406,
"step": 1142
},
{
"epoch": 0.7626666666666667,
"grad_norm": 3.984375,
"learning_rate": 7.585404841725686e-06,
"loss": 1.0813350677490234,
"step": 1144
},
{
"epoch": 0.764,
"grad_norm": 11.6875,
"learning_rate": 7.577238256230466e-06,
"loss": 2.204179286956787,
"step": 1146
},
{
"epoch": 0.7653333333333333,
"grad_norm": 8.0,
"learning_rate": 7.569063540625767e-06,
"loss": 1.8322408199310303,
"step": 1148
},
{
"epoch": 0.7666666666666667,
"grad_norm": 1.9453125,
"learning_rate": 7.560880733022233e-06,
"loss": 1.1383694410324097,
"step": 1150
},
{
"epoch": 0.768,
"grad_norm": 36.0,
"learning_rate": 7.5526898715682286e-06,
"loss": 1.9306056499481201,
"step": 1152
},
{
"epoch": 0.7693333333333333,
"grad_norm": 4.6875,
"learning_rate": 7.544490994449662e-06,
"loss": 1.4435687065124512,
"step": 1154
},
{
"epoch": 0.7706666666666667,
"grad_norm": 13.8125,
"learning_rate": 7.536284139889818e-06,
"loss": 1.794223427772522,
"step": 1156
},
{
"epoch": 0.772,
"grad_norm": 8.0,
"learning_rate": 7.52806934614917e-06,
"loss": 1.4377973079681396,
"step": 1158
},
{
"epoch": 0.7733333333333333,
"grad_norm": 7.90625,
"learning_rate": 7.519846651525198e-06,
"loss": 1.5403916835784912,
"step": 1160
},
{
"epoch": 0.7746666666666666,
"grad_norm": 6.65625,
"learning_rate": 7.5116160943522255e-06,
"loss": 1.64451003074646,
"step": 1162
},
{
"epoch": 0.776,
"grad_norm": 7.375,
"learning_rate": 7.503377713001223e-06,
"loss": 1.6721255779266357,
"step": 1164
},
{
"epoch": 0.7773333333333333,
"grad_norm": 15.0,
"learning_rate": 7.495131545879646e-06,
"loss": 1.9117183685302734,
"step": 1166
},
{
"epoch": 0.7786666666666666,
"grad_norm": 8.0625,
"learning_rate": 7.48687763143124e-06,
"loss": 1.6716641187667847,
"step": 1168
},
{
"epoch": 0.78,
"grad_norm": 1.4375,
"learning_rate": 7.47861600813587e-06,
"loss": 1.098170280456543,
"step": 1170
},
{
"epoch": 0.7813333333333333,
"grad_norm": 3.640625,
"learning_rate": 7.470346714509342e-06,
"loss": 1.4096426963806152,
"step": 1172
},
{
"epoch": 0.7826666666666666,
"grad_norm": 1.859375,
"learning_rate": 7.462069789103221e-06,
"loss": 1.2622625827789307,
"step": 1174
},
{
"epoch": 0.784,
"grad_norm": 4.34375,
"learning_rate": 7.45378527050465e-06,
"loss": 1.4845378398895264,
"step": 1176
},
{
"epoch": 0.7853333333333333,
"grad_norm": 5.5625,
"learning_rate": 7.445493197336169e-06,
"loss": 1.416355848312378,
"step": 1178
},
{
"epoch": 0.7866666666666666,
"grad_norm": 5.21875,
"learning_rate": 7.437193608255546e-06,
"loss": 1.012062668800354,
"step": 1180
},
{
"epoch": 0.788,
"grad_norm": 4.6875,
"learning_rate": 7.428886541955582e-06,
"loss": 1.4908556938171387,
"step": 1182
},
{
"epoch": 0.7893333333333333,
"grad_norm": 5.15625,
"learning_rate": 7.4205720371639354e-06,
"loss": 1.5503168106079102,
"step": 1184
},
{
"epoch": 0.7906666666666666,
"grad_norm": 6.09375,
"learning_rate": 7.412250132642946e-06,
"loss": 1.9686577320098877,
"step": 1186
},
{
"epoch": 0.792,
"grad_norm": 15.0,
"learning_rate": 7.403920867189449e-06,
"loss": 1.7605036497116089,
"step": 1188
},
{
"epoch": 0.7933333333333333,
"grad_norm": 4.28125,
"learning_rate": 7.395584279634604e-06,
"loss": 1.2100725173950195,
"step": 1190
},
{
"epoch": 0.7946666666666666,
"grad_norm": 10.3125,
"learning_rate": 7.387240408843694e-06,
"loss": 1.617134690284729,
"step": 1192
},
{
"epoch": 0.796,
"grad_norm": 9.1875,
"learning_rate": 7.378889293715967e-06,
"loss": 1.771061897277832,
"step": 1194
},
{
"epoch": 0.7973333333333333,
"grad_norm": 10.875,
"learning_rate": 7.370530973184438e-06,
"loss": 1.6546101570129395,
"step": 1196
},
{
"epoch": 0.7986666666666666,
"grad_norm": 5.6875,
"learning_rate": 7.362165486215718e-06,
"loss": 1.8130102157592773,
"step": 1198
},
{
"epoch": 0.8,
"grad_norm": 1.40625,
"learning_rate": 7.3537928718098235e-06,
"loss": 1.0263370275497437,
"step": 1200
},
{
"epoch": 0.8013333333333333,
"grad_norm": 3.03125,
"learning_rate": 7.3454131690000015e-06,
"loss": 1.0432413816452026,
"step": 1202
},
{
"epoch": 0.8026666666666666,
"grad_norm": 6.5,
"learning_rate": 7.337026416852547e-06,
"loss": 1.5051829814910889,
"step": 1204
},
{
"epoch": 0.804,
"grad_norm": 9.6875,
"learning_rate": 7.3286326544666166e-06,
"loss": 1.7957940101623535,
"step": 1206
},
{
"epoch": 0.8053333333333333,
"grad_norm": 5.84375,
"learning_rate": 7.320231920974048e-06,
"loss": 1.3876800537109375,
"step": 1208
},
{
"epoch": 0.8066666666666666,
"grad_norm": 5.34375,
"learning_rate": 7.3118242555391835e-06,
"loss": 1.4170258045196533,
"step": 1210
},
{
"epoch": 0.808,
"grad_norm": 10.125,
"learning_rate": 7.303409697358676e-06,
"loss": 1.6540006399154663,
"step": 1212
},
{
"epoch": 0.8093333333333333,
"grad_norm": 3.953125,
"learning_rate": 7.294988285661315e-06,
"loss": 1.411388635635376,
"step": 1214
},
{
"epoch": 0.8106666666666666,
"grad_norm": 6.0,
"learning_rate": 7.286560059707843e-06,
"loss": 1.4670600891113281,
"step": 1216
},
{
"epoch": 0.812,
"grad_norm": 4.5,
"learning_rate": 7.278125058790768e-06,
"loss": 1.5195939540863037,
"step": 1218
},
{
"epoch": 0.8133333333333334,
"grad_norm": 3.984375,
"learning_rate": 7.269683322234182e-06,
"loss": 1.498016357421875,
"step": 1220
},
{
"epoch": 0.8146666666666667,
"grad_norm": 9.5,
"learning_rate": 7.261234889393582e-06,
"loss": 1.7424201965332031,
"step": 1222
},
{
"epoch": 0.816,
"grad_norm": 4.59375,
"learning_rate": 7.252779799655685e-06,
"loss": 1.5053367614746094,
"step": 1224
},
{
"epoch": 0.8173333333333334,
"grad_norm": 5.15625,
"learning_rate": 7.244318092438231e-06,
"loss": 1.4631271362304688,
"step": 1226
},
{
"epoch": 0.8186666666666667,
"grad_norm": 4.34375,
"learning_rate": 7.235849807189828e-06,
"loss": 1.5035299062728882,
"step": 1228
},
{
"epoch": 0.82,
"grad_norm": 4.28125,
"learning_rate": 7.227374983389737e-06,
"loss": 1.3052916526794434,
"step": 1230
},
{
"epoch": 0.8213333333333334,
"grad_norm": 1.6484375,
"learning_rate": 7.2188936605477075e-06,
"loss": 1.1444281339645386,
"step": 1232
},
{
"epoch": 0.8226666666666667,
"grad_norm": 26.375,
"learning_rate": 7.210405878203786e-06,
"loss": 1.1232807636260986,
"step": 1234
},
{
"epoch": 0.824,
"grad_norm": 2.25,
"learning_rate": 7.201911675928137e-06,
"loss": 1.2082382440567017,
"step": 1236
},
{
"epoch": 0.8253333333333334,
"grad_norm": 45.75,
"learning_rate": 7.19341109332085e-06,
"loss": 1.8112459182739258,
"step": 1238
},
{
"epoch": 0.8266666666666667,
"grad_norm": 6.75,
"learning_rate": 7.1849041700117595e-06,
"loss": 1.9334352016448975,
"step": 1240
},
{
"epoch": 0.828,
"grad_norm": 1.7890625,
"learning_rate": 7.176390945660267e-06,
"loss": 1.0827105045318604,
"step": 1242
},
{
"epoch": 0.8293333333333334,
"grad_norm": 5.84375,
"learning_rate": 7.167871459955143e-06,
"loss": 1.5978076457977295,
"step": 1244
},
{
"epoch": 0.8306666666666667,
"grad_norm": 6.78125,
"learning_rate": 7.159345752614351e-06,
"loss": 1.5036733150482178,
"step": 1246
},
{
"epoch": 0.832,
"grad_norm": 6.65625,
"learning_rate": 7.150813863384858e-06,
"loss": 1.544978141784668,
"step": 1248
},
{
"epoch": 0.8333333333333334,
"grad_norm": 9.875,
"learning_rate": 7.142275832042453e-06,
"loss": 1.5280275344848633,
"step": 1250
},
{
"epoch": 0.8346666666666667,
"grad_norm": 6.96875,
"learning_rate": 7.133731698391562e-06,
"loss": 1.8519248962402344,
"step": 1252
},
{
"epoch": 0.836,
"grad_norm": 21.25,
"learning_rate": 7.125181502265053e-06,
"loss": 1.7857600450515747,
"step": 1254
},
{
"epoch": 0.8373333333333334,
"grad_norm": 6.3125,
"learning_rate": 7.116625283524064e-06,
"loss": 1.5039316415786743,
"step": 1256
},
{
"epoch": 0.8386666666666667,
"grad_norm": 4.78125,
"learning_rate": 7.108063082057808e-06,
"loss": 1.5093042850494385,
"step": 1258
},
{
"epoch": 0.84,
"grad_norm": 6.375,
"learning_rate": 7.099494937783389e-06,
"loss": 1.9330856800079346,
"step": 1260
},
{
"epoch": 0.8413333333333334,
"grad_norm": 4.875,
"learning_rate": 7.090920890645618e-06,
"loss": 1.3826791048049927,
"step": 1262
},
{
"epoch": 0.8426666666666667,
"grad_norm": 5.0625,
"learning_rate": 7.0823409806168246e-06,
"loss": 1.384697437286377,
"step": 1264
},
{
"epoch": 0.844,
"grad_norm": 9.9375,
"learning_rate": 7.07375524769667e-06,
"loss": 1.4175405502319336,
"step": 1266
},
{
"epoch": 0.8453333333333334,
"grad_norm": 2.71875,
"learning_rate": 7.065163731911962e-06,
"loss": 1.0599411725997925,
"step": 1268
},
{
"epoch": 0.8466666666666667,
"grad_norm": 2.3125,
"learning_rate": 7.05656647331647e-06,
"loss": 1.0350122451782227,
"step": 1270
},
{
"epoch": 0.848,
"grad_norm": 2.046875,
"learning_rate": 7.047963511990737e-06,
"loss": 1.0036098957061768,
"step": 1272
},
{
"epoch": 0.8493333333333334,
"grad_norm": 4.34375,
"learning_rate": 7.03935488804189e-06,
"loss": 1.5463430881500244,
"step": 1274
},
{
"epoch": 0.8506666666666667,
"grad_norm": 5.65625,
"learning_rate": 7.030740641603451e-06,
"loss": 1.474896788597107,
"step": 1276
},
{
"epoch": 0.852,
"grad_norm": 16.625,
"learning_rate": 7.022120812835165e-06,
"loss": 1.454477310180664,
"step": 1278
},
{
"epoch": 0.8533333333333334,
"grad_norm": 6.21875,
"learning_rate": 7.0134954419227955e-06,
"loss": 1.5140109062194824,
"step": 1280
},
{
"epoch": 0.8546666666666667,
"grad_norm": 7.25,
"learning_rate": 7.004864569077941e-06,
"loss": 0.6668561697006226,
"step": 1282
},
{
"epoch": 0.856,
"grad_norm": 4.90625,
"learning_rate": 6.996228234537856e-06,
"loss": 1.6097631454467773,
"step": 1284
},
{
"epoch": 0.8573333333333333,
"grad_norm": 2.140625,
"learning_rate": 6.9875864785652514e-06,
"loss": 1.0738332271575928,
"step": 1286
},
{
"epoch": 0.8586666666666667,
"grad_norm": 4.9375,
"learning_rate": 6.978939341448119e-06,
"loss": 1.541915774345398,
"step": 1288
},
{
"epoch": 0.86,
"grad_norm": 1.8828125,
"learning_rate": 6.970286863499534e-06,
"loss": 1.084245204925537,
"step": 1290
},
{
"epoch": 0.8613333333333333,
"grad_norm": 6.59375,
"learning_rate": 6.961629085057471e-06,
"loss": 1.7440471649169922,
"step": 1292
},
{
"epoch": 0.8626666666666667,
"grad_norm": 8.1875,
"learning_rate": 6.952966046484615e-06,
"loss": 1.2029621601104736,
"step": 1294
},
{
"epoch": 0.864,
"grad_norm": 20.375,
"learning_rate": 6.944297788168173e-06,
"loss": 1.1356322765350342,
"step": 1296
},
{
"epoch": 0.8653333333333333,
"grad_norm": 1.03125,
"learning_rate": 6.935624350519694e-06,
"loss": 1.2489497661590576,
"step": 1298
},
{
"epoch": 0.8666666666666667,
"grad_norm": 1.9140625,
"learning_rate": 6.9269457739748625e-06,
"loss": 1.0705386400222778,
"step": 1300
},
{
"epoch": 0.868,
"grad_norm": 1.4140625,
"learning_rate": 6.918262098993327e-06,
"loss": 1.146819829940796,
"step": 1302
},
{
"epoch": 0.8693333333333333,
"grad_norm": 5.6875,
"learning_rate": 6.909573366058502e-06,
"loss": 1.975623369216919,
"step": 1304
},
{
"epoch": 0.8706666666666667,
"grad_norm": 4.8125,
"learning_rate": 6.900879615677385e-06,
"loss": 1.4106535911560059,
"step": 1306
},
{
"epoch": 0.872,
"grad_norm": 5.0,
"learning_rate": 6.892180888380364e-06,
"loss": 1.452235460281372,
"step": 1308
},
{
"epoch": 0.8733333333333333,
"grad_norm": 11.5,
"learning_rate": 6.883477224721027e-06,
"loss": 1.9186886548995972,
"step": 1310
},
{
"epoch": 0.8746666666666667,
"grad_norm": 2.09375,
"learning_rate": 6.874768665275982e-06,
"loss": 1.108964204788208,
"step": 1312
},
{
"epoch": 0.876,
"grad_norm": 5.03125,
"learning_rate": 6.86605525064465e-06,
"loss": 1.5007225275039673,
"step": 1314
},
{
"epoch": 0.8773333333333333,
"grad_norm": 7.0625,
"learning_rate": 6.857337021449098e-06,
"loss": 1.7579610347747803,
"step": 1316
},
{
"epoch": 0.8786666666666667,
"grad_norm": 7.90625,
"learning_rate": 6.848614018333832e-06,
"loss": 1.4250476360321045,
"step": 1318
},
{
"epoch": 0.88,
"grad_norm": 2.75,
"learning_rate": 6.839886281965618e-06,
"loss": 1.032175898551941,
"step": 1320
},
{
"epoch": 0.8813333333333333,
"grad_norm": 4.28125,
"learning_rate": 6.831153853033285e-06,
"loss": 1.1080658435821533,
"step": 1322
},
{
"epoch": 0.8826666666666667,
"grad_norm": 4.375,
"learning_rate": 6.822416772247542e-06,
"loss": 1.5906773805618286,
"step": 1324
},
{
"epoch": 0.884,
"grad_norm": 2.15625,
"learning_rate": 6.8136750803407824e-06,
"loss": 1.1360021829605103,
"step": 1326
},
{
"epoch": 0.8853333333333333,
"grad_norm": 7.1875,
"learning_rate": 6.804928818066898e-06,
"loss": 1.87527334690094,
"step": 1328
},
{
"epoch": 0.8866666666666667,
"grad_norm": 3.484375,
"learning_rate": 6.79617802620109e-06,
"loss": 1.4536571502685547,
"step": 1330
},
{
"epoch": 0.888,
"grad_norm": 15.125,
"learning_rate": 6.787422745539669e-06,
"loss": 1.52134370803833,
"step": 1332
},
{
"epoch": 0.8893333333333333,
"grad_norm": 7.125,
"learning_rate": 6.778663016899882e-06,
"loss": 0.9342854619026184,
"step": 1334
},
{
"epoch": 0.8906666666666667,
"grad_norm": 13.75,
"learning_rate": 6.769898881119708e-06,
"loss": 1.2193070650100708,
"step": 1336
},
{
"epoch": 0.892,
"grad_norm": 4.875,
"learning_rate": 6.761130379057667e-06,
"loss": 1.4399094581604004,
"step": 1338
},
{
"epoch": 0.8933333333333333,
"grad_norm": 5.1875,
"learning_rate": 6.7523575515926476e-06,
"loss": 1.6470527648925781,
"step": 1340
},
{
"epoch": 0.8946666666666667,
"grad_norm": 14.75,
"learning_rate": 6.743580439623689e-06,
"loss": 1.4364392757415771,
"step": 1342
},
{
"epoch": 0.896,
"grad_norm": 3.515625,
"learning_rate": 6.734799084069817e-06,
"loss": 1.100862979888916,
"step": 1344
},
{
"epoch": 0.8973333333333333,
"grad_norm": 6.78125,
"learning_rate": 6.726013525869832e-06,
"loss": 1.6640863418579102,
"step": 1346
},
{
"epoch": 0.8986666666666666,
"grad_norm": 2.609375,
"learning_rate": 6.7172238059821335e-06,
"loss": 1.0758508443832397,
"step": 1348
},
{
"epoch": 0.9,
"grad_norm": 6.3125,
"learning_rate": 6.70842996538452e-06,
"loss": 1.763936161994934,
"step": 1350
},
{
"epoch": 0.9013333333333333,
"grad_norm": 2.6875,
"learning_rate": 6.699632045073996e-06,
"loss": 1.2208075523376465,
"step": 1352
},
{
"epoch": 0.9026666666666666,
"grad_norm": 5.0625,
"learning_rate": 6.690830086066598e-06,
"loss": 1.3647022247314453,
"step": 1354
},
{
"epoch": 0.904,
"grad_norm": 5.90625,
"learning_rate": 6.68202412939718e-06,
"loss": 1.4302599430084229,
"step": 1356
},
{
"epoch": 0.9053333333333333,
"grad_norm": 4.9375,
"learning_rate": 6.673214216119239e-06,
"loss": 1.7554941177368164,
"step": 1358
},
{
"epoch": 0.9066666666666666,
"grad_norm": 2.671875,
"learning_rate": 6.664400387304712e-06,
"loss": 1.050219178199768,
"step": 1360
},
{
"epoch": 0.908,
"grad_norm": 3.9375,
"learning_rate": 6.655582684043797e-06,
"loss": 1.487766981124878,
"step": 1362
},
{
"epoch": 0.9093333333333333,
"grad_norm": 1.7109375,
"learning_rate": 6.646761147444749e-06,
"loss": 1.0724763870239258,
"step": 1364
},
{
"epoch": 0.9106666666666666,
"grad_norm": 4.09375,
"learning_rate": 6.637935818633701e-06,
"loss": 1.0730855464935303,
"step": 1366
},
{
"epoch": 0.912,
"grad_norm": 2.03125,
"learning_rate": 6.629106738754456e-06,
"loss": 1.134033441543579,
"step": 1368
},
{
"epoch": 0.9133333333333333,
"grad_norm": 9.25,
"learning_rate": 6.620273948968312e-06,
"loss": 1.4531991481781006,
"step": 1370
},
{
"epoch": 0.9146666666666666,
"grad_norm": 7.25,
"learning_rate": 6.61143749045386e-06,
"loss": 1.7324318885803223,
"step": 1372
},
{
"epoch": 0.916,
"grad_norm": 8.875,
"learning_rate": 6.6025974044067965e-06,
"loss": 1.804641842842102,
"step": 1374
},
{
"epoch": 0.9173333333333333,
"grad_norm": 3.9375,
"learning_rate": 6.593753732039725e-06,
"loss": 1.4009830951690674,
"step": 1376
},
{
"epoch": 0.9186666666666666,
"grad_norm": 4.0,
"learning_rate": 6.584906514581973e-06,
"loss": 1.5420567989349365,
"step": 1378
},
{
"epoch": 0.92,
"grad_norm": 7.375,
"learning_rate": 6.576055793279394e-06,
"loss": 1.7248209714889526,
"step": 1380
},
{
"epoch": 0.9213333333333333,
"grad_norm": 5.71875,
"learning_rate": 6.567201609394176e-06,
"loss": 1.5272363424301147,
"step": 1382
},
{
"epoch": 0.9226666666666666,
"grad_norm": 6.59375,
"learning_rate": 6.5583440042046494e-06,
"loss": 1.7931103706359863,
"step": 1384
},
{
"epoch": 0.924,
"grad_norm": 2.1875,
"learning_rate": 6.549483019005096e-06,
"loss": 1.0144383907318115,
"step": 1386
},
{
"epoch": 0.9253333333333333,
"grad_norm": 13.3125,
"learning_rate": 6.540618695105554e-06,
"loss": 1.9607112407684326,
"step": 1388
},
{
"epoch": 0.9266666666666666,
"grad_norm": 10.375,
"learning_rate": 6.531751073831625e-06,
"loss": 1.7285571098327637,
"step": 1390
},
{
"epoch": 0.928,
"grad_norm": 7.15625,
"learning_rate": 6.522880196524289e-06,
"loss": 1.5882502794265747,
"step": 1392
},
{
"epoch": 0.9293333333333333,
"grad_norm": 17.75,
"learning_rate": 6.5140061045397e-06,
"loss": 1.8799965381622314,
"step": 1394
},
{
"epoch": 0.9306666666666666,
"grad_norm": 2.640625,
"learning_rate": 6.505128839249e-06,
"loss": 1.1083283424377441,
"step": 1396
},
{
"epoch": 0.932,
"grad_norm": 11.3125,
"learning_rate": 6.496248442038124e-06,
"loss": 1.8841416835784912,
"step": 1398
},
{
"epoch": 0.9333333333333333,
"grad_norm": 10.6875,
"learning_rate": 6.487364954307616e-06,
"loss": 1.6003661155700684,
"step": 1400
},
{
"epoch": 0.9346666666666666,
"grad_norm": 3.90625,
"learning_rate": 6.4784784174724155e-06,
"loss": 0.9441222548484802,
"step": 1402
},
{
"epoch": 0.936,
"grad_norm": 4.53125,
"learning_rate": 6.469588872961687e-06,
"loss": 1.528754711151123,
"step": 1404
},
{
"epoch": 0.9373333333333334,
"grad_norm": 8.8125,
"learning_rate": 6.460696362218611e-06,
"loss": 1.457127571105957,
"step": 1406
},
{
"epoch": 0.9386666666666666,
"grad_norm": 3.09375,
"learning_rate": 6.451800926700197e-06,
"loss": 1.2754069566726685,
"step": 1408
},
{
"epoch": 0.94,
"grad_norm": 26.25,
"learning_rate": 6.442902607877095e-06,
"loss": 2.1131834983825684,
"step": 1410
},
{
"epoch": 0.9413333333333334,
"grad_norm": 14.1875,
"learning_rate": 6.434001447233392e-06,
"loss": 1.3996620178222656,
"step": 1412
},
{
"epoch": 0.9426666666666667,
"grad_norm": 2.5625,
"learning_rate": 6.425097486266426e-06,
"loss": 1.2032909393310547,
"step": 1414
},
{
"epoch": 0.944,
"grad_norm": 6.875,
"learning_rate": 6.416190766486588e-06,
"loss": 1.7661256790161133,
"step": 1416
},
{
"epoch": 0.9453333333333334,
"grad_norm": 5.15625,
"learning_rate": 6.407281329417133e-06,
"loss": 1.0344789028167725,
"step": 1418
},
{
"epoch": 0.9466666666666667,
"grad_norm": 1.5703125,
"learning_rate": 6.398369216593981e-06,
"loss": 1.160454511642456,
"step": 1420
},
{
"epoch": 0.948,
"grad_norm": 5.0,
"learning_rate": 6.38945446956553e-06,
"loss": 1.5346543788909912,
"step": 1422
},
{
"epoch": 0.9493333333333334,
"grad_norm": 2.75,
"learning_rate": 6.380537129892458e-06,
"loss": 1.118833303451538,
"step": 1424
},
{
"epoch": 0.9506666666666667,
"grad_norm": 7.3125,
"learning_rate": 6.371617239147527e-06,
"loss": 1.8901457786560059,
"step": 1426
},
{
"epoch": 0.952,
"grad_norm": 4.34375,
"learning_rate": 6.3626948389153955e-06,
"loss": 1.372290849685669,
"step": 1428
},
{
"epoch": 0.9533333333333334,
"grad_norm": 8.375,
"learning_rate": 6.35376997079242e-06,
"loss": 1.510221004486084,
"step": 1430
},
{
"epoch": 0.9546666666666667,
"grad_norm": 6.6875,
"learning_rate": 6.344842676386459e-06,
"loss": 1.7555416822433472,
"step": 1432
},
{
"epoch": 0.956,
"grad_norm": 4.5625,
"learning_rate": 6.335912997316689e-06,
"loss": 1.3952423334121704,
"step": 1434
},
{
"epoch": 0.9573333333333334,
"grad_norm": 3.21875,
"learning_rate": 6.3269809752134005e-06,
"loss": 1.2118666172027588,
"step": 1436
},
{
"epoch": 0.9586666666666667,
"grad_norm": 15.5625,
"learning_rate": 6.3180466517178065e-06,
"loss": 1.5054240226745605,
"step": 1438
},
{
"epoch": 0.96,
"grad_norm": 6.53125,
"learning_rate": 6.30911006848185e-06,
"loss": 1.5465056896209717,
"step": 1440
},
{
"epoch": 0.9613333333333334,
"grad_norm": 1.65625,
"learning_rate": 6.300171267168006e-06,
"loss": 1.240868330001831,
"step": 1442
},
{
"epoch": 0.9626666666666667,
"grad_norm": 6.6875,
"learning_rate": 6.291230289449095e-06,
"loss": 0.4037482738494873,
"step": 1444
},
{
"epoch": 0.964,
"grad_norm": 4.53125,
"learning_rate": 6.282287177008084e-06,
"loss": 1.2513530254364014,
"step": 1446
},
{
"epoch": 0.9653333333333334,
"grad_norm": 12.1875,
"learning_rate": 6.273341971537888e-06,
"loss": 1.4814857244491577,
"step": 1448
},
{
"epoch": 0.9666666666666667,
"grad_norm": 1.390625,
"learning_rate": 6.264394714741182e-06,
"loss": 1.1147644519805908,
"step": 1450
},
{
"epoch": 0.968,
"grad_norm": 3.328125,
"learning_rate": 6.255445448330204e-06,
"loss": 1.2680392265319824,
"step": 1452
},
{
"epoch": 0.9693333333333334,
"grad_norm": 1.4140625,
"learning_rate": 6.246494214026562e-06,
"loss": 1.0437490940093994,
"step": 1454
},
{
"epoch": 0.9706666666666667,
"grad_norm": 1.8359375,
"learning_rate": 6.237541053561034e-06,
"loss": 1.238845705986023,
"step": 1456
},
{
"epoch": 0.972,
"grad_norm": 4.78125,
"learning_rate": 6.228586008673385e-06,
"loss": 1.4940769672393799,
"step": 1458
},
{
"epoch": 0.9733333333333334,
"grad_norm": 16.25,
"learning_rate": 6.219629121112159e-06,
"loss": 1.5105171203613281,
"step": 1460
},
{
"epoch": 0.9746666666666667,
"grad_norm": 6.4375,
"learning_rate": 6.210670432634491e-06,
"loss": 1.7444933652877808,
"step": 1462
},
{
"epoch": 0.976,
"grad_norm": 8.0625,
"learning_rate": 6.201709985005918e-06,
"loss": 1.7194395065307617,
"step": 1464
},
{
"epoch": 0.9773333333333334,
"grad_norm": 4.375,
"learning_rate": 6.192747820000171e-06,
"loss": 1.3826802968978882,
"step": 1466
},
{
"epoch": 0.9786666666666667,
"grad_norm": 12.125,
"learning_rate": 6.183783979398991e-06,
"loss": 1.9960919618606567,
"step": 1468
},
{
"epoch": 0.98,
"grad_norm": 4.3125,
"learning_rate": 6.174818504991931e-06,
"loss": 1.4267585277557373,
"step": 1470
},
{
"epoch": 0.9813333333333333,
"grad_norm": 5.28125,
"learning_rate": 6.165851438576158e-06,
"loss": 1.76206374168396,
"step": 1472
},
{
"epoch": 0.9826666666666667,
"grad_norm": 1.09375,
"learning_rate": 6.156882821956265e-06,
"loss": 0.9488676190376282,
"step": 1474
},
{
"epoch": 0.984,
"grad_norm": 6.03125,
"learning_rate": 6.147912696944067e-06,
"loss": 1.924933910369873,
"step": 1476
},
{
"epoch": 0.9853333333333333,
"grad_norm": 4.5,
"learning_rate": 6.1389411053584145e-06,
"loss": 1.7618391513824463,
"step": 1478
},
{
"epoch": 0.9866666666666667,
"grad_norm": 12.375,
"learning_rate": 6.129968089024998e-06,
"loss": 1.6995925903320312,
"step": 1480
},
{
"epoch": 0.988,
"grad_norm": 6.125,
"learning_rate": 6.1209936897761446e-06,
"loss": 1.4753309488296509,
"step": 1482
},
{
"epoch": 0.9893333333333333,
"grad_norm": 6.375,
"learning_rate": 6.112017949450629e-06,
"loss": 1.1274147033691406,
"step": 1484
},
{
"epoch": 0.9906666666666667,
"grad_norm": 7.46875,
"learning_rate": 6.1030409098934824e-06,
"loss": 1.7124284505844116,
"step": 1486
},
{
"epoch": 0.992,
"grad_norm": 15.1875,
"learning_rate": 6.094062612955791e-06,
"loss": 1.7338926792144775,
"step": 1488
},
{
"epoch": 0.9933333333333333,
"grad_norm": 4.5,
"learning_rate": 6.085083100494499e-06,
"loss": 1.5683114528656006,
"step": 1490
},
{
"epoch": 0.9946666666666667,
"grad_norm": 5.625,
"learning_rate": 6.076102414372225e-06,
"loss": 1.499389410018921,
"step": 1492
},
{
"epoch": 0.996,
"grad_norm": 2.828125,
"learning_rate": 6.067120596457053e-06,
"loss": 1.1616817712783813,
"step": 1494
},
{
"epoch": 0.9973333333333333,
"grad_norm": 7.4375,
"learning_rate": 6.058137688622343e-06,
"loss": 1.6491494178771973,
"step": 1496
},
{
"epoch": 0.9986666666666667,
"grad_norm": 5.71875,
"learning_rate": 6.049153732746543e-06,
"loss": 1.3628113269805908,
"step": 1498
},
{
"epoch": 1.0,
"grad_norm": 1.375,
"learning_rate": 6.040168770712982e-06,
"loss": 1.0581028461456299,
"step": 1500
},
{
"epoch": 1.0013333333333334,
"grad_norm": 1.1875,
"learning_rate": 6.031182844409678e-06,
"loss": 1.3563737869262695,
"step": 1502
},
{
"epoch": 1.0026666666666666,
"grad_norm": 1.7734375,
"learning_rate": 6.0221959957291485e-06,
"loss": 0.9635358452796936,
"step": 1504
},
{
"epoch": 1.004,
"grad_norm": 5.84375,
"learning_rate": 6.013208266568209e-06,
"loss": 1.936806082725525,
"step": 1506
},
{
"epoch": 1.0053333333333334,
"grad_norm": 7.1875,
"learning_rate": 6.00421969882778e-06,
"loss": 1.5574287176132202,
"step": 1508
},
{
"epoch": 1.0066666666666666,
"grad_norm": 8.625,
"learning_rate": 5.995230334412691e-06,
"loss": 1.64463472366333,
"step": 1510
},
{
"epoch": 1.008,
"grad_norm": 11.5,
"learning_rate": 5.986240215231489e-06,
"loss": 1.4681963920593262,
"step": 1512
},
{
"epoch": 1.0093333333333334,
"grad_norm": 6.0,
"learning_rate": 5.977249383196235e-06,
"loss": 1.4651533365249634,
"step": 1514
},
{
"epoch": 1.0106666666666666,
"grad_norm": 22.0,
"learning_rate": 5.968257880222317e-06,
"loss": 1.7012189626693726,
"step": 1516
},
{
"epoch": 1.012,
"grad_norm": 6.1875,
"learning_rate": 5.959265748228247e-06,
"loss": 1.9330545663833618,
"step": 1518
},
{
"epoch": 1.0133333333333334,
"grad_norm": 4.75,
"learning_rate": 5.950273029135475e-06,
"loss": 1.493942379951477,
"step": 1520
},
{
"epoch": 1.0146666666666666,
"grad_norm": 3.859375,
"learning_rate": 5.941279764868182e-06,
"loss": 1.4157612323760986,
"step": 1522
},
{
"epoch": 1.016,
"grad_norm": 9.125,
"learning_rate": 5.932285997353093e-06,
"loss": 1.4143327474594116,
"step": 1524
},
{
"epoch": 1.0173333333333334,
"grad_norm": 1.21875,
"learning_rate": 5.923291768519284e-06,
"loss": 1.0516184568405151,
"step": 1526
},
{
"epoch": 1.0186666666666666,
"grad_norm": 5.40625,
"learning_rate": 5.9142971202979735e-06,
"loss": 1.429210901260376,
"step": 1528
},
{
"epoch": 1.02,
"grad_norm": 3.65625,
"learning_rate": 5.905302094622339e-06,
"loss": 1.4731173515319824,
"step": 1530
},
{
"epoch": 1.0213333333333334,
"grad_norm": 6.3125,
"learning_rate": 5.896306733427322e-06,
"loss": 1.517582893371582,
"step": 1532
},
{
"epoch": 1.0226666666666666,
"grad_norm": 6.1875,
"learning_rate": 5.887311078649418e-06,
"loss": 1.052391529083252,
"step": 1534
},
{
"epoch": 1.024,
"grad_norm": 6.0,
"learning_rate": 5.8783151722265005e-06,
"loss": 1.5596401691436768,
"step": 1536
},
{
"epoch": 1.0253333333333334,
"grad_norm": 2.796875,
"learning_rate": 5.869319056097613e-06,
"loss": 1.2670550346374512,
"step": 1538
},
{
"epoch": 1.0266666666666666,
"grad_norm": 4.90625,
"learning_rate": 5.860322772202776e-06,
"loss": 1.4631175994873047,
"step": 1540
},
{
"epoch": 1.028,
"grad_norm": 22.5,
"learning_rate": 5.851326362482792e-06,
"loss": 1.8308687210083008,
"step": 1542
},
{
"epoch": 1.0293333333333334,
"grad_norm": 6.1875,
"learning_rate": 5.842329868879051e-06,
"loss": 1.648712396621704,
"step": 1544
},
{
"epoch": 1.0306666666666666,
"grad_norm": 5.09375,
"learning_rate": 5.833333333333333e-06,
"loss": 1.523130178451538,
"step": 1546
},
{
"epoch": 1.032,
"grad_norm": 6.6875,
"learning_rate": 5.824336797787617e-06,
"loss": 1.545793056488037,
"step": 1548
},
{
"epoch": 1.0333333333333334,
"grad_norm": 2.140625,
"learning_rate": 5.815340304183876e-06,
"loss": 1.0260173082351685,
"step": 1550
},
{
"epoch": 1.0346666666666666,
"grad_norm": 13.4375,
"learning_rate": 5.806343894463893e-06,
"loss": 2.0390031337738037,
"step": 1552
},
{
"epoch": 1.036,
"grad_norm": 6.65625,
"learning_rate": 5.7973476105690554e-06,
"loss": 1.7032217979431152,
"step": 1554
},
{
"epoch": 1.0373333333333334,
"grad_norm": 12.4375,
"learning_rate": 5.788351494440167e-06,
"loss": 1.8185737133026123,
"step": 1556
},
{
"epoch": 1.0386666666666666,
"grad_norm": 9.8125,
"learning_rate": 5.779355588017249e-06,
"loss": 1.8823127746582031,
"step": 1558
},
{
"epoch": 1.04,
"grad_norm": 1.203125,
"learning_rate": 5.770359933239347e-06,
"loss": 1.0645382404327393,
"step": 1560
},
{
"epoch": 1.0413333333333332,
"grad_norm": 11.5,
"learning_rate": 5.761364572044328e-06,
"loss": 1.8362276554107666,
"step": 1562
},
{
"epoch": 1.0426666666666666,
"grad_norm": 6.03125,
"learning_rate": 5.752369546368694e-06,
"loss": 1.656673550605774,
"step": 1564
},
{
"epoch": 1.044,
"grad_norm": 5.8125,
"learning_rate": 5.743374898147385e-06,
"loss": 0.9415713548660278,
"step": 1566
},
{
"epoch": 1.0453333333333332,
"grad_norm": 1.3515625,
"learning_rate": 5.734380669313575e-06,
"loss": 0.947942316532135,
"step": 1568
},
{
"epoch": 1.0466666666666666,
"grad_norm": 10.5625,
"learning_rate": 5.725386901798486e-06,
"loss": 1.4679059982299805,
"step": 1570
},
{
"epoch": 1.048,
"grad_norm": 12.0,
"learning_rate": 5.716393637531194e-06,
"loss": 0.5725986957550049,
"step": 1572
},
{
"epoch": 1.0493333333333332,
"grad_norm": 2.015625,
"learning_rate": 5.707400918438422e-06,
"loss": 1.0623714923858643,
"step": 1574
},
{
"epoch": 1.0506666666666666,
"grad_norm": 8.8125,
"learning_rate": 5.698408786444352e-06,
"loss": 1.8116446733474731,
"step": 1576
},
{
"epoch": 1.052,
"grad_norm": 5.71875,
"learning_rate": 5.689417283470433e-06,
"loss": 1.4730396270751953,
"step": 1578
},
{
"epoch": 1.0533333333333332,
"grad_norm": 3.765625,
"learning_rate": 5.6804264514351795e-06,
"loss": 1.1235568523406982,
"step": 1580
},
{
"epoch": 1.0546666666666666,
"grad_norm": 13.125,
"learning_rate": 5.671436332253977e-06,
"loss": 1.8619860410690308,
"step": 1582
},
{
"epoch": 1.056,
"grad_norm": 28.0,
"learning_rate": 5.662446967838888e-06,
"loss": 1.3870640993118286,
"step": 1584
},
{
"epoch": 1.0573333333333332,
"grad_norm": 4.78125,
"learning_rate": 5.653458400098461e-06,
"loss": 1.4273823499679565,
"step": 1586
},
{
"epoch": 1.0586666666666666,
"grad_norm": 3.484375,
"learning_rate": 5.644470670937521e-06,
"loss": 1.3886492252349854,
"step": 1588
},
{
"epoch": 1.06,
"grad_norm": 1.296875,
"learning_rate": 5.635483822256991e-06,
"loss": 1.109363317489624,
"step": 1590
},
{
"epoch": 1.0613333333333332,
"grad_norm": 2.859375,
"learning_rate": 5.626497895953685e-06,
"loss": 0.9141336679458618,
"step": 1592
},
{
"epoch": 1.0626666666666666,
"grad_norm": 6.125,
"learning_rate": 5.617512933920124e-06,
"loss": 1.3852533102035522,
"step": 1594
},
{
"epoch": 1.064,
"grad_norm": 7.65625,
"learning_rate": 5.608528978044323e-06,
"loss": 1.6646533012390137,
"step": 1596
},
{
"epoch": 1.0653333333333332,
"grad_norm": 5.125,
"learning_rate": 5.599546070209616e-06,
"loss": 1.457612156867981,
"step": 1598
},
{
"epoch": 1.0666666666666667,
"grad_norm": 4.53125,
"learning_rate": 5.590564252294443e-06,
"loss": 1.4722715616226196,
"step": 1600
},
{
"epoch": 1.068,
"grad_norm": 16.25,
"learning_rate": 5.581583566172169e-06,
"loss": 1.3487780094146729,
"step": 1602
},
{
"epoch": 1.0693333333333332,
"grad_norm": 4.90625,
"learning_rate": 5.5726040537108775e-06,
"loss": 1.5795001983642578,
"step": 1604
},
{
"epoch": 1.0706666666666667,
"grad_norm": 4.6875,
"learning_rate": 5.5636257567731855e-06,
"loss": 1.5326015949249268,
"step": 1606
},
{
"epoch": 1.072,
"grad_norm": 6.0625,
"learning_rate": 5.554648717216038e-06,
"loss": 1.40179443359375,
"step": 1608
},
{
"epoch": 1.0733333333333333,
"grad_norm": 5.9375,
"learning_rate": 5.545672976890523e-06,
"loss": 1.750922441482544,
"step": 1610
},
{
"epoch": 1.0746666666666667,
"grad_norm": 17.125,
"learning_rate": 5.536698577641669e-06,
"loss": 1.8629913330078125,
"step": 1612
},
{
"epoch": 1.076,
"grad_norm": 1.9453125,
"learning_rate": 5.5277255613082526e-06,
"loss": 1.1251063346862793,
"step": 1614
},
{
"epoch": 1.0773333333333333,
"grad_norm": 4.3125,
"learning_rate": 5.518753969722601e-06,
"loss": 1.4921822547912598,
"step": 1616
},
{
"epoch": 1.0786666666666667,
"grad_norm": 1.8671875,
"learning_rate": 5.509783844710404e-06,
"loss": 1.209433674812317,
"step": 1618
},
{
"epoch": 1.08,
"grad_norm": 3.75,
"learning_rate": 5.50081522809051e-06,
"loss": 1.4612817764282227,
"step": 1620
},
{
"epoch": 1.0813333333333333,
"grad_norm": 8.0,
"learning_rate": 5.491848161674737e-06,
"loss": 1.541589379310608,
"step": 1622
},
{
"epoch": 1.0826666666666667,
"grad_norm": 1.859375,
"learning_rate": 5.482882687267677e-06,
"loss": 1.2038989067077637,
"step": 1624
},
{
"epoch": 1.084,
"grad_norm": 3.0,
"learning_rate": 5.473918846666497e-06,
"loss": 1.2030503749847412,
"step": 1626
},
{
"epoch": 1.0853333333333333,
"grad_norm": 3.984375,
"learning_rate": 5.464956681660749e-06,
"loss": 1.0769493579864502,
"step": 1628
},
{
"epoch": 1.0866666666666667,
"grad_norm": 2.8125,
"learning_rate": 5.455996234032177e-06,
"loss": 1.2764222621917725,
"step": 1630
},
{
"epoch": 1.088,
"grad_norm": 8.1875,
"learning_rate": 5.44703754555451e-06,
"loss": 1.7506179809570312,
"step": 1632
},
{
"epoch": 1.0893333333333333,
"grad_norm": 17.75,
"learning_rate": 5.4380806579932835e-06,
"loss": 1.7872695922851562,
"step": 1634
},
{
"epoch": 1.0906666666666667,
"grad_norm": 4.25,
"learning_rate": 5.429125613105633e-06,
"loss": 1.408817172050476,
"step": 1636
},
{
"epoch": 1.092,
"grad_norm": 7.5,
"learning_rate": 5.420172452640107e-06,
"loss": 1.7498708963394165,
"step": 1638
},
{
"epoch": 1.0933333333333333,
"grad_norm": 4.875,
"learning_rate": 5.411221218336463e-06,
"loss": 1.3137381076812744,
"step": 1640
},
{
"epoch": 1.0946666666666667,
"grad_norm": 5.53125,
"learning_rate": 5.4022719519254855e-06,
"loss": 1.5489161014556885,
"step": 1642
},
{
"epoch": 1.096,
"grad_norm": 2.09375,
"learning_rate": 5.393324695128779e-06,
"loss": 1.0227785110473633,
"step": 1644
},
{
"epoch": 1.0973333333333333,
"grad_norm": 8.875,
"learning_rate": 5.3843794896585835e-06,
"loss": 0.24966874718666077,
"step": 1646
},
{
"epoch": 1.0986666666666667,
"grad_norm": 4.375,
"learning_rate": 5.375436377217571e-06,
"loss": 1.442673921585083,
"step": 1648
},
{
"epoch": 1.1,
"grad_norm": 4.21875,
"learning_rate": 5.366495399498661e-06,
"loss": 1.3785851001739502,
"step": 1650
},
{
"epoch": 1.1013333333333333,
"grad_norm": 7.5,
"learning_rate": 5.357556598184819e-06,
"loss": 1.7751030921936035,
"step": 1652
},
{
"epoch": 1.1026666666666667,
"grad_norm": 6.5625,
"learning_rate": 5.348620014948862e-06,
"loss": 1.5587515830993652,
"step": 1654
},
{
"epoch": 1.104,
"grad_norm": 4.4375,
"learning_rate": 5.3396856914532666e-06,
"loss": 1.446319580078125,
"step": 1656
},
{
"epoch": 1.1053333333333333,
"grad_norm": 1.5703125,
"learning_rate": 5.330753669349978e-06,
"loss": 1.0275702476501465,
"step": 1658
},
{
"epoch": 1.1066666666666667,
"grad_norm": 7.9375,
"learning_rate": 5.321823990280208e-06,
"loss": 1.3751928806304932,
"step": 1660
},
{
"epoch": 1.108,
"grad_norm": 4.8125,
"learning_rate": 5.31289669587425e-06,
"loss": 1.4437367916107178,
"step": 1662
},
{
"epoch": 1.1093333333333333,
"grad_norm": 4.53125,
"learning_rate": 5.303971827751273e-06,
"loss": 1.497580647468567,
"step": 1664
},
{
"epoch": 1.1106666666666667,
"grad_norm": 1.5390625,
"learning_rate": 5.295049427519141e-06,
"loss": 1.0452079772949219,
"step": 1666
},
{
"epoch": 1.112,
"grad_norm": 4.46875,
"learning_rate": 5.286129536774211e-06,
"loss": 1.5819206237792969,
"step": 1668
},
{
"epoch": 1.1133333333333333,
"grad_norm": 3.3125,
"learning_rate": 5.2772121971011384e-06,
"loss": 1.5034122467041016,
"step": 1670
},
{
"epoch": 1.1146666666666667,
"grad_norm": 6.375,
"learning_rate": 5.268297450072687e-06,
"loss": 1.442948341369629,
"step": 1672
},
{
"epoch": 1.116,
"grad_norm": 1.765625,
"learning_rate": 5.259385337249536e-06,
"loss": 1.045128345489502,
"step": 1674
},
{
"epoch": 1.1173333333333333,
"grad_norm": 3.265625,
"learning_rate": 5.250475900180081e-06,
"loss": 1.1670646667480469,
"step": 1676
},
{
"epoch": 1.1186666666666667,
"grad_norm": 8.1875,
"learning_rate": 5.241569180400243e-06,
"loss": 1.6837050914764404,
"step": 1678
},
{
"epoch": 1.12,
"grad_norm": 17.25,
"learning_rate": 5.232665219433276e-06,
"loss": 1.7098231315612793,
"step": 1680
},
{
"epoch": 1.1213333333333333,
"grad_norm": 3.984375,
"learning_rate": 5.223764058789573e-06,
"loss": 1.4151331186294556,
"step": 1682
},
{
"epoch": 1.1226666666666667,
"grad_norm": 4.875,
"learning_rate": 5.214865739966471e-06,
"loss": 1.4133689403533936,
"step": 1684
},
{
"epoch": 1.124,
"grad_norm": 4.25,
"learning_rate": 5.205970304448058e-06,
"loss": 1.3391132354736328,
"step": 1686
},
{
"epoch": 1.1253333333333333,
"grad_norm": 6.3125,
"learning_rate": 5.197077793704981e-06,
"loss": 1.3253040313720703,
"step": 1688
},
{
"epoch": 1.1266666666666667,
"grad_norm": 5.4375,
"learning_rate": 5.188188249194251e-06,
"loss": 1.507164478302002,
"step": 1690
},
{
"epoch": 1.1280000000000001,
"grad_norm": 9.25,
"learning_rate": 5.1793017123590505e-06,
"loss": 1.377781629562378,
"step": 1692
},
{
"epoch": 1.1293333333333333,
"grad_norm": 2.171875,
"learning_rate": 5.170418224628541e-06,
"loss": 1.006546974182129,
"step": 1694
},
{
"epoch": 1.1306666666666667,
"grad_norm": 5.78125,
"learning_rate": 5.1615378274176674e-06,
"loss": 1.8399200439453125,
"step": 1696
},
{
"epoch": 1.1320000000000001,
"grad_norm": 4.875,
"learning_rate": 5.152660562126967e-06,
"loss": 1.4275052547454834,
"step": 1698
},
{
"epoch": 1.1333333333333333,
"grad_norm": 1.1015625,
"learning_rate": 5.143786470142378e-06,
"loss": 1.1076140403747559,
"step": 1700
},
{
"epoch": 1.1346666666666667,
"grad_norm": 5.6875,
"learning_rate": 5.134915592835041e-06,
"loss": 1.487177848815918,
"step": 1702
},
{
"epoch": 1.1360000000000001,
"grad_norm": 10.25,
"learning_rate": 5.126047971561115e-06,
"loss": 1.8975412845611572,
"step": 1704
},
{
"epoch": 1.1373333333333333,
"grad_norm": 3.25,
"learning_rate": 5.117183647661572e-06,
"loss": 1.4046539068222046,
"step": 1706
},
{
"epoch": 1.1386666666666667,
"grad_norm": 6.09375,
"learning_rate": 5.108322662462018e-06,
"loss": 1.5340514183044434,
"step": 1708
},
{
"epoch": 1.1400000000000001,
"grad_norm": 6.40625,
"learning_rate": 5.099465057272491e-06,
"loss": 0.9755153059959412,
"step": 1710
},
{
"epoch": 1.1413333333333333,
"grad_norm": 4.25,
"learning_rate": 5.090610873387274e-06,
"loss": 1.375262975692749,
"step": 1712
},
{
"epoch": 1.1426666666666667,
"grad_norm": 5.46875,
"learning_rate": 5.081760152084694e-06,
"loss": 1.8634710311889648,
"step": 1714
},
{
"epoch": 1.144,
"grad_norm": 3.90625,
"learning_rate": 5.072912934626943e-06,
"loss": 1.1578799486160278,
"step": 1716
},
{
"epoch": 1.1453333333333333,
"grad_norm": 15.75,
"learning_rate": 5.064069262259872e-06,
"loss": 1.7285916805267334,
"step": 1718
},
{
"epoch": 1.1466666666666667,
"grad_norm": 5.8125,
"learning_rate": 5.055229176212808e-06,
"loss": 1.4551498889923096,
"step": 1720
},
{
"epoch": 1.148,
"grad_norm": 7.4375,
"learning_rate": 5.046392717698355e-06,
"loss": 1.5213419198989868,
"step": 1722
},
{
"epoch": 1.1493333333333333,
"grad_norm": 6.0,
"learning_rate": 5.037559927912212e-06,
"loss": 1.4255318641662598,
"step": 1724
},
{
"epoch": 1.1506666666666667,
"grad_norm": 8.5625,
"learning_rate": 5.028730848032968e-06,
"loss": 1.910698413848877,
"step": 1726
},
{
"epoch": 1.152,
"grad_norm": 76.0,
"learning_rate": 5.019905519221917e-06,
"loss": 0.788556694984436,
"step": 1728
},
{
"epoch": 1.1533333333333333,
"grad_norm": 4.1875,
"learning_rate": 5.011083982622871e-06,
"loss": 1.4046937227249146,
"step": 1730
},
{
"epoch": 1.1546666666666667,
"grad_norm": 6.25,
"learning_rate": 5.0022662793619555e-06,
"loss": 1.6050171852111816,
"step": 1732
},
{
"epoch": 1.156,
"grad_norm": 13.75,
"learning_rate": 4.993452450547429e-06,
"loss": 1.185960292816162,
"step": 1734
},
{
"epoch": 1.1573333333333333,
"grad_norm": 4.59375,
"learning_rate": 4.984642537269487e-06,
"loss": 1.559330701828003,
"step": 1736
},
{
"epoch": 1.1586666666666667,
"grad_norm": 5.78125,
"learning_rate": 4.975836580600069e-06,
"loss": 1.9091460704803467,
"step": 1738
},
{
"epoch": 1.16,
"grad_norm": 21.375,
"learning_rate": 4.96703462159267e-06,
"loss": 1.2126508951187134,
"step": 1740
},
{
"epoch": 1.1613333333333333,
"grad_norm": 3.78125,
"learning_rate": 4.958236701282149e-06,
"loss": 1.3792331218719482,
"step": 1742
},
{
"epoch": 1.1626666666666667,
"grad_norm": 6.03125,
"learning_rate": 4.9494428606845335e-06,
"loss": 1.8158106803894043,
"step": 1744
},
{
"epoch": 1.164,
"grad_norm": 5.53125,
"learning_rate": 4.940653140796835e-06,
"loss": 1.2978074550628662,
"step": 1746
},
{
"epoch": 1.1653333333333333,
"grad_norm": 4.4375,
"learning_rate": 4.931867582596851e-06,
"loss": 1.339666724205017,
"step": 1748
},
{
"epoch": 1.1666666666666667,
"grad_norm": 7.40625,
"learning_rate": 4.923086227042978e-06,
"loss": 1.487107276916504,
"step": 1750
},
{
"epoch": 1.168,
"grad_norm": 5.21875,
"learning_rate": 4.914309115074021e-06,
"loss": 1.468918800354004,
"step": 1752
},
{
"epoch": 1.1693333333333333,
"grad_norm": 1.859375,
"learning_rate": 4.9055362876090005e-06,
"loss": 1.0235750675201416,
"step": 1754
},
{
"epoch": 1.1706666666666667,
"grad_norm": 4.375,
"learning_rate": 4.896767785546963e-06,
"loss": 1.5452258586883545,
"step": 1756
},
{
"epoch": 1.172,
"grad_norm": 4.375,
"learning_rate": 4.888003649766786e-06,
"loss": 1.1912848949432373,
"step": 1758
},
{
"epoch": 1.1733333333333333,
"grad_norm": 6.46875,
"learning_rate": 4.879243921127e-06,
"loss": 1.8611294031143188,
"step": 1760
},
{
"epoch": 1.1746666666666667,
"grad_norm": 17.25,
"learning_rate": 4.870488640465579e-06,
"loss": 1.4652965068817139,
"step": 1762
},
{
"epoch": 1.176,
"grad_norm": 2.703125,
"learning_rate": 4.861737848599769e-06,
"loss": 1.2129669189453125,
"step": 1764
},
{
"epoch": 1.1773333333333333,
"grad_norm": 7.4375,
"learning_rate": 4.8529915863258855e-06,
"loss": 1.679603099822998,
"step": 1766
},
{
"epoch": 1.1786666666666668,
"grad_norm": 5.28125,
"learning_rate": 4.844249894419126e-06,
"loss": 1.4588364362716675,
"step": 1768
},
{
"epoch": 1.18,
"grad_norm": 1.8984375,
"learning_rate": 4.835512813633384e-06,
"loss": 0.9822990298271179,
"step": 1770
},
{
"epoch": 1.1813333333333333,
"grad_norm": 2.59375,
"learning_rate": 4.826780384701051e-06,
"loss": 1.3673211336135864,
"step": 1772
},
{
"epoch": 1.1826666666666668,
"grad_norm": 9.875,
"learning_rate": 4.818052648332835e-06,
"loss": 1.3989946842193604,
"step": 1774
},
{
"epoch": 1.184,
"grad_norm": 6.03125,
"learning_rate": 4.8093296452175694e-06,
"loss": 1.4319931268692017,
"step": 1776
},
{
"epoch": 1.1853333333333333,
"grad_norm": 15.125,
"learning_rate": 4.800611416022017e-06,
"loss": 1.6122653484344482,
"step": 1778
},
{
"epoch": 1.1866666666666668,
"grad_norm": 2.046875,
"learning_rate": 4.791898001390686e-06,
"loss": 1.1115684509277344,
"step": 1780
},
{
"epoch": 1.188,
"grad_norm": 2.09375,
"learning_rate": 4.783189441945639e-06,
"loss": 1.0223889350891113,
"step": 1782
},
{
"epoch": 1.1893333333333334,
"grad_norm": 13.0,
"learning_rate": 4.7744857782863036e-06,
"loss": 1.4864284992218018,
"step": 1784
},
{
"epoch": 1.1906666666666668,
"grad_norm": 4.125,
"learning_rate": 4.765787050989282e-06,
"loss": 1.0978294610977173,
"step": 1786
},
{
"epoch": 1.192,
"grad_norm": 7.5,
"learning_rate": 4.757093300608166e-06,
"loss": 0.9597824811935425,
"step": 1788
},
{
"epoch": 1.1933333333333334,
"grad_norm": 2.78125,
"learning_rate": 4.7484045676733415e-06,
"loss": 1.156911849975586,
"step": 1790
},
{
"epoch": 1.1946666666666665,
"grad_norm": 3.890625,
"learning_rate": 4.7397208926918045e-06,
"loss": 1.52815842628479,
"step": 1792
},
{
"epoch": 1.196,
"grad_norm": 4.0625,
"learning_rate": 4.731042316146973e-06,
"loss": 1.4148904085159302,
"step": 1794
},
{
"epoch": 1.1973333333333334,
"grad_norm": 7.25,
"learning_rate": 4.722368878498493e-06,
"loss": 1.563035249710083,
"step": 1796
},
{
"epoch": 1.1986666666666665,
"grad_norm": 6.78125,
"learning_rate": 4.713700620182053e-06,
"loss": 1.3035117387771606,
"step": 1798
},
{
"epoch": 1.2,
"grad_norm": 5.78125,
"learning_rate": 4.705037581609198e-06,
"loss": 1.445461392402649,
"step": 1800
},
{
"epoch": 1.2013333333333334,
"grad_norm": 8.4375,
"learning_rate": 4.696379803167134e-06,
"loss": 1.735097885131836,
"step": 1802
},
{
"epoch": 1.2026666666666666,
"grad_norm": 4.71875,
"learning_rate": 4.687727325218548e-06,
"loss": 1.4002565145492554,
"step": 1804
},
{
"epoch": 1.204,
"grad_norm": 3.078125,
"learning_rate": 4.679080188101416e-06,
"loss": 1.1411118507385254,
"step": 1806
},
{
"epoch": 1.2053333333333334,
"grad_norm": 5.4375,
"learning_rate": 4.670438432128812e-06,
"loss": 1.8767681121826172,
"step": 1808
},
{
"epoch": 1.2066666666666666,
"grad_norm": 5.21875,
"learning_rate": 4.661802097588727e-06,
"loss": 1.4633359909057617,
"step": 1810
},
{
"epoch": 1.208,
"grad_norm": 1.2734375,
"learning_rate": 4.653171224743872e-06,
"loss": 1.1138715744018555,
"step": 1812
},
{
"epoch": 1.2093333333333334,
"grad_norm": 2.640625,
"learning_rate": 4.644545853831501e-06,
"loss": 1.0692567825317383,
"step": 1814
},
{
"epoch": 1.2106666666666666,
"grad_norm": 7.59375,
"learning_rate": 4.635926025063216e-06,
"loss": 1.3959109783172607,
"step": 1816
},
{
"epoch": 1.212,
"grad_norm": 5.03125,
"learning_rate": 4.62731177862478e-06,
"loss": 1.3984177112579346,
"step": 1818
},
{
"epoch": 1.2133333333333334,
"grad_norm": 6.625,
"learning_rate": 4.618703154675931e-06,
"loss": 0.8294498920440674,
"step": 1820
},
{
"epoch": 1.2146666666666666,
"grad_norm": 12.1875,
"learning_rate": 4.610100193350197e-06,
"loss": 1.740832805633545,
"step": 1822
},
{
"epoch": 1.216,
"grad_norm": 2.734375,
"learning_rate": 4.601502934754706e-06,
"loss": 1.155540108680725,
"step": 1824
},
{
"epoch": 1.2173333333333334,
"grad_norm": 3.5625,
"learning_rate": 4.592911418969999e-06,
"loss": 1.4470839500427246,
"step": 1826
},
{
"epoch": 1.2186666666666666,
"grad_norm": 7.6875,
"learning_rate": 4.584325686049843e-06,
"loss": 1.1068997383117676,
"step": 1828
},
{
"epoch": 1.22,
"grad_norm": 13.5625,
"learning_rate": 4.57574577602105e-06,
"loss": 1.221320629119873,
"step": 1830
},
{
"epoch": 1.2213333333333334,
"grad_norm": 2.296875,
"learning_rate": 4.567171728883279e-06,
"loss": 1.142722725868225,
"step": 1832
},
{
"epoch": 1.2226666666666666,
"grad_norm": 4.15625,
"learning_rate": 4.558603584608859e-06,
"loss": 1.4071441888809204,
"step": 1834
},
{
"epoch": 1.224,
"grad_norm": 1.46875,
"learning_rate": 4.5500413831426034e-06,
"loss": 0.9861024022102356,
"step": 1836
},
{
"epoch": 1.2253333333333334,
"grad_norm": 1.390625,
"learning_rate": 4.541485164401616e-06,
"loss": 1.1196272373199463,
"step": 1838
},
{
"epoch": 1.2266666666666666,
"grad_norm": 6.46875,
"learning_rate": 4.532934968275108e-06,
"loss": 1.842470645904541,
"step": 1840
},
{
"epoch": 1.228,
"grad_norm": 5.15625,
"learning_rate": 4.524390834624216e-06,
"loss": 1.4868441820144653,
"step": 1842
},
{
"epoch": 1.2293333333333334,
"grad_norm": 2.734375,
"learning_rate": 4.5158528032818115e-06,
"loss": 1.111555814743042,
"step": 1844
},
{
"epoch": 1.2306666666666666,
"grad_norm": 11.0625,
"learning_rate": 4.507320914052319e-06,
"loss": 1.41820228099823,
"step": 1846
},
{
"epoch": 1.232,
"grad_norm": 6.53125,
"learning_rate": 4.498795206711525e-06,
"loss": 1.8366367816925049,
"step": 1848
},
{
"epoch": 1.2333333333333334,
"grad_norm": 2.828125,
"learning_rate": 4.4902757210064005e-06,
"loss": 1.1064856052398682,
"step": 1850
},
{
"epoch": 1.2346666666666666,
"grad_norm": 5.0625,
"learning_rate": 4.481762496654908e-06,
"loss": 1.5134849548339844,
"step": 1852
},
{
"epoch": 1.236,
"grad_norm": 2.171875,
"learning_rate": 4.473255573345819e-06,
"loss": 1.0301719903945923,
"step": 1854
},
{
"epoch": 1.2373333333333334,
"grad_norm": 4.71875,
"learning_rate": 4.464754990738531e-06,
"loss": 1.4889826774597168,
"step": 1856
},
{
"epoch": 1.2386666666666666,
"grad_norm": 10.8125,
"learning_rate": 4.45626078846288e-06,
"loss": 1.9825019836425781,
"step": 1858
},
{
"epoch": 1.24,
"grad_norm": 7.21875,
"learning_rate": 4.447773006118961e-06,
"loss": 1.425232172012329,
"step": 1860
},
{
"epoch": 1.2413333333333334,
"grad_norm": 3.609375,
"learning_rate": 4.439291683276931e-06,
"loss": 1.4104689359664917,
"step": 1862
},
{
"epoch": 1.2426666666666666,
"grad_norm": 5.3125,
"learning_rate": 4.43081685947684e-06,
"loss": 1.4762451648712158,
"step": 1864
},
{
"epoch": 1.244,
"grad_norm": 8.6875,
"learning_rate": 4.422348574228434e-06,
"loss": 1.7859766483306885,
"step": 1866
},
{
"epoch": 1.2453333333333334,
"grad_norm": 2.78125,
"learning_rate": 4.413886867010984e-06,
"loss": 1.1129896640777588,
"step": 1868
},
{
"epoch": 1.2466666666666666,
"grad_norm": 6.96875,
"learning_rate": 4.405431777273084e-06,
"loss": 1.415675401687622,
"step": 1870
},
{
"epoch": 1.248,
"grad_norm": 2.078125,
"learning_rate": 4.396983344432485e-06,
"loss": 0.9921229481697083,
"step": 1872
},
{
"epoch": 1.2493333333333334,
"grad_norm": 4.34375,
"learning_rate": 4.3885416078759e-06,
"loss": 1.444735050201416,
"step": 1874
},
{
"epoch": 1.2506666666666666,
"grad_norm": 11.625,
"learning_rate": 4.380106606958824e-06,
"loss": 1.397036075592041,
"step": 1876
},
{
"epoch": 1.252,
"grad_norm": 5.125,
"learning_rate": 4.371678381005352e-06,
"loss": 1.4307284355163574,
"step": 1878
},
{
"epoch": 1.2533333333333334,
"grad_norm": 1.4765625,
"learning_rate": 4.363256969307992e-06,
"loss": 1.1688439846038818,
"step": 1880
},
{
"epoch": 1.2546666666666666,
"grad_norm": 1.28125,
"learning_rate": 4.3548424111274835e-06,
"loss": 1.0812777280807495,
"step": 1882
},
{
"epoch": 1.256,
"grad_norm": 1.4453125,
"learning_rate": 4.3464347456926186e-06,
"loss": 1.224534034729004,
"step": 1884
},
{
"epoch": 1.2573333333333334,
"grad_norm": 2.5625,
"learning_rate": 4.338034012200051e-06,
"loss": 1.0692505836486816,
"step": 1886
},
{
"epoch": 1.2586666666666666,
"grad_norm": 7.53125,
"learning_rate": 4.329640249814121e-06,
"loss": 1.8193671703338623,
"step": 1888
},
{
"epoch": 1.26,
"grad_norm": 6.28125,
"learning_rate": 4.3212534976666655e-06,
"loss": 1.3666338920593262,
"step": 1890
},
{
"epoch": 1.2613333333333334,
"grad_norm": 8.75,
"learning_rate": 4.312873794856845e-06,
"loss": 1.7071934938430786,
"step": 1892
},
{
"epoch": 1.2626666666666666,
"grad_norm": 10.875,
"learning_rate": 4.30450118045095e-06,
"loss": 1.441591501235962,
"step": 1894
},
{
"epoch": 1.264,
"grad_norm": 7.6875,
"learning_rate": 4.2961356934822294e-06,
"loss": 1.3926138877868652,
"step": 1896
},
{
"epoch": 1.2653333333333334,
"grad_norm": 16.75,
"learning_rate": 4.287777372950701e-06,
"loss": 1.9801844358444214,
"step": 1898
},
{
"epoch": 1.2666666666666666,
"grad_norm": 2.75,
"learning_rate": 4.279426257822973e-06,
"loss": 0.9289498329162598,
"step": 1900
},
{
"epoch": 1.268,
"grad_norm": 5.3125,
"learning_rate": 4.271082387032064e-06,
"loss": 1.5062365531921387,
"step": 1902
},
{
"epoch": 1.2693333333333334,
"grad_norm": 1.6328125,
"learning_rate": 4.262745799477217e-06,
"loss": 1.3158210515975952,
"step": 1904
},
{
"epoch": 1.2706666666666666,
"grad_norm": 7.5625,
"learning_rate": 4.254416534023722e-06,
"loss": 1.9733731746673584,
"step": 1906
},
{
"epoch": 1.272,
"grad_norm": 4.875,
"learning_rate": 4.246094629502733e-06,
"loss": 1.4407968521118164,
"step": 1908
},
{
"epoch": 1.2733333333333334,
"grad_norm": 4.40625,
"learning_rate": 4.2377801247110865e-06,
"loss": 0.6475011706352234,
"step": 1910
},
{
"epoch": 1.2746666666666666,
"grad_norm": 2.125,
"learning_rate": 4.229473058411121e-06,
"loss": 1.043494462966919,
"step": 1912
},
{
"epoch": 1.276,
"grad_norm": 3.984375,
"learning_rate": 4.2211734693304976e-06,
"loss": 1.1116821765899658,
"step": 1914
},
{
"epoch": 1.2773333333333334,
"grad_norm": 4.84375,
"learning_rate": 4.212881396162019e-06,
"loss": 1.4613234996795654,
"step": 1916
},
{
"epoch": 1.2786666666666666,
"grad_norm": 4.75,
"learning_rate": 4.204596877563448e-06,
"loss": 1.0637935400009155,
"step": 1918
},
{
"epoch": 1.28,
"grad_norm": 1.453125,
"learning_rate": 4.1963199521573265e-06,
"loss": 1.301331639289856,
"step": 1920
},
{
"epoch": 1.2813333333333334,
"grad_norm": 3.703125,
"learning_rate": 4.188050658530799e-06,
"loss": 1.419353723526001,
"step": 1922
},
{
"epoch": 1.2826666666666666,
"grad_norm": 0.94921875,
"learning_rate": 4.179789035235429e-06,
"loss": 1.1043145656585693,
"step": 1924
},
{
"epoch": 1.284,
"grad_norm": 9.5,
"learning_rate": 4.171535120787022e-06,
"loss": 1.3741405010223389,
"step": 1926
},
{
"epoch": 1.2853333333333334,
"grad_norm": 3.140625,
"learning_rate": 4.163288953665444e-06,
"loss": 1.1466556787490845,
"step": 1928
},
{
"epoch": 1.2866666666666666,
"grad_norm": 7.5,
"learning_rate": 4.155050572314444e-06,
"loss": 1.950070858001709,
"step": 1930
},
{
"epoch": 1.288,
"grad_norm": 12.125,
"learning_rate": 4.146820015141471e-06,
"loss": 1.7856245040893555,
"step": 1932
},
{
"epoch": 1.2893333333333334,
"grad_norm": 10.25,
"learning_rate": 4.1385973205175e-06,
"loss": 1.5132737159729004,
"step": 1934
},
{
"epoch": 1.2906666666666666,
"grad_norm": 4.21875,
"learning_rate": 4.13038252677685e-06,
"loss": 1.7371140718460083,
"step": 1936
},
{
"epoch": 1.292,
"grad_norm": 5.25,
"learning_rate": 4.122175672217006e-06,
"loss": 1.3733547925949097,
"step": 1938
},
{
"epoch": 1.2933333333333334,
"grad_norm": 14.125,
"learning_rate": 4.113976795098441e-06,
"loss": 1.6105353832244873,
"step": 1940
},
{
"epoch": 1.2946666666666666,
"grad_norm": 4.09375,
"learning_rate": 4.105785933644435e-06,
"loss": 1.4054853916168213,
"step": 1942
},
{
"epoch": 1.296,
"grad_norm": 7.1875,
"learning_rate": 4.097603126040899e-06,
"loss": 1.4901647567749023,
"step": 1944
},
{
"epoch": 1.2973333333333334,
"grad_norm": 4.90625,
"learning_rate": 4.089428410436202e-06,
"loss": 1.127669334411621,
"step": 1946
},
{
"epoch": 1.2986666666666666,
"grad_norm": 29.125,
"learning_rate": 4.081261824940981e-06,
"loss": 1.8731911182403564,
"step": 1948
},
{
"epoch": 1.3,
"grad_norm": 4.15625,
"learning_rate": 4.073103407627975e-06,
"loss": 1.436967134475708,
"step": 1950
},
{
"epoch": 1.3013333333333335,
"grad_norm": 5.3125,
"learning_rate": 4.06495319653184e-06,
"loss": 1.4082098007202148,
"step": 1952
},
{
"epoch": 1.3026666666666666,
"grad_norm": 7.28125,
"learning_rate": 4.056811229648977e-06,
"loss": 1.4131418466567993,
"step": 1954
},
{
"epoch": 1.304,
"grad_norm": 6.25,
"learning_rate": 4.0486775449373476e-06,
"loss": 1.5199666023254395,
"step": 1956
},
{
"epoch": 1.3053333333333335,
"grad_norm": 5.90625,
"learning_rate": 4.04055218031631e-06,
"loss": 1.4956390857696533,
"step": 1958
},
{
"epoch": 1.3066666666666666,
"grad_norm": 57.25,
"learning_rate": 4.032435173666427e-06,
"loss": 1.8000434637069702,
"step": 1960
},
{
"epoch": 1.308,
"grad_norm": 27.25,
"learning_rate": 4.0243265628293e-06,
"loss": 1.5463436841964722,
"step": 1962
},
{
"epoch": 1.3093333333333335,
"grad_norm": 7.15625,
"learning_rate": 4.0162263856073845e-06,
"loss": 1.0135364532470703,
"step": 1964
},
{
"epoch": 1.3106666666666666,
"grad_norm": 16.375,
"learning_rate": 4.008134679763825e-06,
"loss": 1.7062512636184692,
"step": 1966
},
{
"epoch": 1.312,
"grad_norm": 1.640625,
"learning_rate": 4.000051483022266e-06,
"loss": 1.0296456813812256,
"step": 1968
},
{
"epoch": 1.3133333333333335,
"grad_norm": 8.1875,
"learning_rate": 3.991976833066687e-06,
"loss": 1.2677695751190186,
"step": 1970
},
{
"epoch": 1.3146666666666667,
"grad_norm": 12.375,
"learning_rate": 3.983910767541221e-06,
"loss": 1.590986728668213,
"step": 1972
},
{
"epoch": 1.316,
"grad_norm": 7.6875,
"learning_rate": 3.975853324049979e-06,
"loss": 1.8669140338897705,
"step": 1974
},
{
"epoch": 1.3173333333333335,
"grad_norm": 5.375,
"learning_rate": 3.967804540156878e-06,
"loss": 1.4626425504684448,
"step": 1976
},
{
"epoch": 1.3186666666666667,
"grad_norm": 5.21875,
"learning_rate": 3.9597644533854604e-06,
"loss": 1.3915584087371826,
"step": 1978
},
{
"epoch": 1.32,
"grad_norm": 5.375,
"learning_rate": 3.951733101218726e-06,
"loss": 1.3798573017120361,
"step": 1980
},
{
"epoch": 1.3213333333333335,
"grad_norm": 5.0625,
"learning_rate": 3.943710521098953e-06,
"loss": 1.3979811668395996,
"step": 1982
},
{
"epoch": 1.3226666666666667,
"grad_norm": 7.6875,
"learning_rate": 3.935696750427523e-06,
"loss": 1.8864164352416992,
"step": 1984
},
{
"epoch": 1.324,
"grad_norm": 3.109375,
"learning_rate": 3.927691826564748e-06,
"loss": 1.28287672996521,
"step": 1986
},
{
"epoch": 1.3253333333333333,
"grad_norm": 6.15625,
"learning_rate": 3.9196957868296956e-06,
"loss": 1.5379631519317627,
"step": 1988
},
{
"epoch": 1.3266666666666667,
"grad_norm": 4.3125,
"learning_rate": 3.91170866850002e-06,
"loss": 1.4094090461730957,
"step": 1990
},
{
"epoch": 1.328,
"grad_norm": 4.84375,
"learning_rate": 3.903730508811778e-06,
"loss": 1.4487733840942383,
"step": 1992
},
{
"epoch": 1.3293333333333333,
"grad_norm": 11.625,
"learning_rate": 3.8957613449592635e-06,
"loss": 1.5799566507339478,
"step": 1994
},
{
"epoch": 1.3306666666666667,
"grad_norm": 7.125,
"learning_rate": 3.887801214094831e-06,
"loss": 1.9759260416030884,
"step": 1996
},
{
"epoch": 1.332,
"grad_norm": 6.125,
"learning_rate": 3.879850153328723e-06,
"loss": 1.0006651878356934,
"step": 1998
},
{
"epoch": 1.3333333333333333,
"grad_norm": 7.71875,
"learning_rate": 3.871908199728899e-06,
"loss": 1.775663137435913,
"step": 2000
},
{
"epoch": 1.3346666666666667,
"grad_norm": 7.28125,
"learning_rate": 3.863975390320857e-06,
"loss": 1.5372567176818848,
"step": 2002
},
{
"epoch": 1.336,
"grad_norm": 2.0,
"learning_rate": 3.85605176208747e-06,
"loss": 1.0319498777389526,
"step": 2004
},
{
"epoch": 1.3373333333333333,
"grad_norm": 5.6875,
"learning_rate": 3.8481373519688025e-06,
"loss": 1.3900774717330933,
"step": 2006
},
{
"epoch": 1.3386666666666667,
"grad_norm": 4.46875,
"learning_rate": 3.840232196861948e-06,
"loss": 1.4347116947174072,
"step": 2008
},
{
"epoch": 1.34,
"grad_norm": 6.53125,
"learning_rate": 3.832336333620851e-06,
"loss": 1.4486432075500488,
"step": 2010
},
{
"epoch": 1.3413333333333333,
"grad_norm": 2.234375,
"learning_rate": 3.824449799056139e-06,
"loss": 1.1662362813949585,
"step": 2012
},
{
"epoch": 1.3426666666666667,
"grad_norm": 5.40625,
"learning_rate": 3.816572629934947e-06,
"loss": 1.4935212135314941,
"step": 2014
},
{
"epoch": 1.3439999999999999,
"grad_norm": 4.375,
"learning_rate": 3.8087048629807487e-06,
"loss": 1.5006301403045654,
"step": 2016
},
{
"epoch": 1.3453333333333333,
"grad_norm": 11.3125,
"learning_rate": 3.8008465348731865e-06,
"loss": 1.8255863189697266,
"step": 2018
},
{
"epoch": 1.3466666666666667,
"grad_norm": 1.8515625,
"learning_rate": 3.7929976822478963e-06,
"loss": 1.1015727519989014,
"step": 2020
},
{
"epoch": 1.3479999999999999,
"grad_norm": 4.40625,
"learning_rate": 3.785158341696342e-06,
"loss": 1.4135279655456543,
"step": 2022
},
{
"epoch": 1.3493333333333333,
"grad_norm": 4.625,
"learning_rate": 3.777328549765638e-06,
"loss": 1.3733489513397217,
"step": 2024
},
{
"epoch": 1.3506666666666667,
"grad_norm": 5.6875,
"learning_rate": 3.769508342958387e-06,
"loss": 1.4328157901763916,
"step": 2026
},
{
"epoch": 1.3519999999999999,
"grad_norm": 5.5625,
"learning_rate": 3.7616977577325032e-06,
"loss": 1.6042231321334839,
"step": 2028
},
{
"epoch": 1.3533333333333333,
"grad_norm": 1.2109375,
"learning_rate": 3.753896830501045e-06,
"loss": 1.1938247680664062,
"step": 2030
},
{
"epoch": 1.3546666666666667,
"grad_norm": 16.125,
"learning_rate": 3.7461055976320482e-06,
"loss": 1.4999253749847412,
"step": 2032
},
{
"epoch": 1.3559999999999999,
"grad_norm": 8.0625,
"learning_rate": 3.738324095448349e-06,
"loss": 1.0432729721069336,
"step": 2034
},
{
"epoch": 1.3573333333333333,
"grad_norm": 6.28125,
"learning_rate": 3.730552360227422e-06,
"loss": 1.3648273944854736,
"step": 2036
},
{
"epoch": 1.3586666666666667,
"grad_norm": 6.375,
"learning_rate": 3.722790428201206e-06,
"loss": 1.8152570724487305,
"step": 2038
},
{
"epoch": 1.3599999999999999,
"grad_norm": 12.5,
"learning_rate": 3.715038335555939e-06,
"loss": 1.746189832687378,
"step": 2040
},
{
"epoch": 1.3613333333333333,
"grad_norm": 8.1875,
"learning_rate": 3.7072961184319857e-06,
"loss": 1.4744912385940552,
"step": 2042
},
{
"epoch": 1.3626666666666667,
"grad_norm": 2.3125,
"learning_rate": 3.6995638129236735e-06,
"loss": 1.0192598104476929,
"step": 2044
},
{
"epoch": 1.3639999999999999,
"grad_norm": 5.125,
"learning_rate": 3.6918414550791193e-06,
"loss": 1.4223957061767578,
"step": 2046
},
{
"epoch": 1.3653333333333333,
"grad_norm": 4.46875,
"learning_rate": 3.6841290809000636e-06,
"loss": 1.407201886177063,
"step": 2048
},
{
"epoch": 1.3666666666666667,
"grad_norm": 15.0625,
"learning_rate": 3.6764267263417073e-06,
"loss": 1.7757458686828613,
"step": 2050
},
{
"epoch": 1.3679999999999999,
"grad_norm": 5.34375,
"learning_rate": 3.6687344273125346e-06,
"loss": 1.4260222911834717,
"step": 2052
},
{
"epoch": 1.3693333333333333,
"grad_norm": 4.71875,
"learning_rate": 3.661052219674154e-06,
"loss": 1.3600423336029053,
"step": 2054
},
{
"epoch": 1.3706666666666667,
"grad_norm": 2.5,
"learning_rate": 3.653380139241125e-06,
"loss": 1.1860934495925903,
"step": 2056
},
{
"epoch": 1.3719999999999999,
"grad_norm": 4.75,
"learning_rate": 3.645718221780795e-06,
"loss": 1.4395768642425537,
"step": 2058
},
{
"epoch": 1.3733333333333333,
"grad_norm": 8.875,
"learning_rate": 3.638066503013134e-06,
"loss": 1.9235694408416748,
"step": 2060
},
{
"epoch": 1.3746666666666667,
"grad_norm": 3.5625,
"learning_rate": 3.6304250186105616e-06,
"loss": 1.2579543590545654,
"step": 2062
},
{
"epoch": 1.376,
"grad_norm": 11.0,
"learning_rate": 3.6227938041977863e-06,
"loss": 1.2985129356384277,
"step": 2064
},
{
"epoch": 1.3773333333333333,
"grad_norm": 5.78125,
"learning_rate": 3.615172895351639e-06,
"loss": 1.4874852895736694,
"step": 2066
},
{
"epoch": 1.3786666666666667,
"grad_norm": 8.5,
"learning_rate": 3.607562327600904e-06,
"loss": 1.846003770828247,
"step": 2068
},
{
"epoch": 1.38,
"grad_norm": 12.4375,
"learning_rate": 3.5999621364261572e-06,
"loss": 1.7919820547103882,
"step": 2070
},
{
"epoch": 1.3813333333333333,
"grad_norm": 5.09375,
"learning_rate": 3.592372357259596e-06,
"loss": 0.9578616619110107,
"step": 2072
},
{
"epoch": 1.3826666666666667,
"grad_norm": 15.6875,
"learning_rate": 3.5847930254848793e-06,
"loss": 1.4702143669128418,
"step": 2074
},
{
"epoch": 1.384,
"grad_norm": 4.34375,
"learning_rate": 3.5772241764369596e-06,
"loss": 1.4963748455047607,
"step": 2076
},
{
"epoch": 1.3853333333333333,
"grad_norm": 18.5,
"learning_rate": 3.569665845401918e-06,
"loss": 1.9716095924377441,
"step": 2078
},
{
"epoch": 1.3866666666666667,
"grad_norm": 4.8125,
"learning_rate": 3.562118067616799e-06,
"loss": 1.4789984226226807,
"step": 2080
},
{
"epoch": 1.388,
"grad_norm": 4.4375,
"learning_rate": 3.5545808782694536e-06,
"loss": 1.2054288387298584,
"step": 2082
},
{
"epoch": 1.3893333333333333,
"grad_norm": 5.84375,
"learning_rate": 3.5470543124983634e-06,
"loss": 1.1057885885238647,
"step": 2084
},
{
"epoch": 1.3906666666666667,
"grad_norm": 4.65625,
"learning_rate": 3.5395384053924855e-06,
"loss": 1.513080358505249,
"step": 2086
},
{
"epoch": 1.392,
"grad_norm": 47.0,
"learning_rate": 3.5320331919910845e-06,
"loss": 1.6390080451965332,
"step": 2088
},
{
"epoch": 1.3933333333333333,
"grad_norm": 5.5625,
"learning_rate": 3.524538707283571e-06,
"loss": 1.4461960792541504,
"step": 2090
},
{
"epoch": 1.3946666666666667,
"grad_norm": 4.78125,
"learning_rate": 3.517054986209341e-06,
"loss": 1.4935176372528076,
"step": 2092
},
{
"epoch": 1.396,
"grad_norm": 4.375,
"learning_rate": 3.5095820636576072e-06,
"loss": 1.443993330001831,
"step": 2094
},
{
"epoch": 1.3973333333333333,
"grad_norm": 4.8125,
"learning_rate": 3.50211997446724e-06,
"loss": 1.4108878374099731,
"step": 2096
},
{
"epoch": 1.3986666666666667,
"grad_norm": 4.75,
"learning_rate": 3.4946687534266054e-06,
"loss": 0.2819749712944031,
"step": 2098
},
{
"epoch": 1.4,
"grad_norm": 4.5625,
"learning_rate": 3.487228435273402e-06,
"loss": 1.4009244441986084,
"step": 2100
},
{
"epoch": 1.4013333333333333,
"grad_norm": 5.40625,
"learning_rate": 3.4797990546944983e-06,
"loss": 1.5566036701202393,
"step": 2102
},
{
"epoch": 1.4026666666666667,
"grad_norm": 2.828125,
"learning_rate": 3.4723806463257713e-06,
"loss": 0.9677723050117493,
"step": 2104
},
{
"epoch": 1.404,
"grad_norm": 1.8125,
"learning_rate": 3.464973244751947e-06,
"loss": 1.0396676063537598,
"step": 2106
},
{
"epoch": 1.4053333333333333,
"grad_norm": 7.78125,
"learning_rate": 3.4575768845064356e-06,
"loss": 0.672480046749115,
"step": 2108
},
{
"epoch": 1.4066666666666667,
"grad_norm": 5.34375,
"learning_rate": 3.4501916000711745e-06,
"loss": 1.828851342201233,
"step": 2110
},
{
"epoch": 1.408,
"grad_norm": 1.6875,
"learning_rate": 3.442817425876463e-06,
"loss": 0.9009377956390381,
"step": 2112
},
{
"epoch": 1.4093333333333333,
"grad_norm": 4.9375,
"learning_rate": 3.435454396300807e-06,
"loss": 1.4665517807006836,
"step": 2114
},
{
"epoch": 1.4106666666666667,
"grad_norm": 9.625,
"learning_rate": 3.428102545670754e-06,
"loss": 1.377671718597412,
"step": 2116
},
{
"epoch": 1.412,
"grad_norm": 7.9375,
"learning_rate": 3.4207619082607365e-06,
"loss": 1.7818158864974976,
"step": 2118
},
{
"epoch": 1.4133333333333333,
"grad_norm": 4.90625,
"learning_rate": 3.4134325182929097e-06,
"loss": 1.503507137298584,
"step": 2120
},
{
"epoch": 1.4146666666666667,
"grad_norm": 8.4375,
"learning_rate": 3.406114409936992e-06,
"loss": 1.7001944780349731,
"step": 2122
},
{
"epoch": 1.416,
"grad_norm": 3.484375,
"learning_rate": 3.398807617310112e-06,
"loss": 1.341043472290039,
"step": 2124
},
{
"epoch": 1.4173333333333333,
"grad_norm": 12.75,
"learning_rate": 3.391512174476638e-06,
"loss": 1.7441976070404053,
"step": 2126
},
{
"epoch": 1.4186666666666667,
"grad_norm": 2.09375,
"learning_rate": 3.3842281154480294e-06,
"loss": 1.0459182262420654,
"step": 2128
},
{
"epoch": 1.42,
"grad_norm": 2.4375,
"learning_rate": 3.376955474182671e-06,
"loss": 1.1474944353103638,
"step": 2130
},
{
"epoch": 1.4213333333333333,
"grad_norm": 1.8359375,
"learning_rate": 3.3696942845857204e-06,
"loss": 0.9987665414810181,
"step": 2132
},
{
"epoch": 1.4226666666666667,
"grad_norm": 7.9375,
"learning_rate": 3.3624445805089475e-06,
"loss": 1.5011258125305176,
"step": 2134
},
{
"epoch": 1.424,
"grad_norm": 6.71875,
"learning_rate": 3.3552063957505733e-06,
"loss": 1.4670500755310059,
"step": 2136
},
{
"epoch": 1.4253333333333333,
"grad_norm": 3.8125,
"learning_rate": 3.347979764055117e-06,
"loss": 1.0144070386886597,
"step": 2138
},
{
"epoch": 1.4266666666666667,
"grad_norm": 6.625,
"learning_rate": 3.340764719113242e-06,
"loss": 1.4356119632720947,
"step": 2140
},
{
"epoch": 1.428,
"grad_norm": 5.96875,
"learning_rate": 3.3335612945615876e-06,
"loss": 1.3124582767486572,
"step": 2142
},
{
"epoch": 1.4293333333333333,
"grad_norm": 4.375,
"learning_rate": 3.3263695239826214e-06,
"loss": 1.4105291366577148,
"step": 2144
},
{
"epoch": 1.4306666666666668,
"grad_norm": 6.15625,
"learning_rate": 3.319189440904481e-06,
"loss": 1.1068024635314941,
"step": 2146
},
{
"epoch": 1.432,
"grad_norm": 7.53125,
"learning_rate": 3.3120210788008136e-06,
"loss": 1.413973093032837,
"step": 2148
},
{
"epoch": 1.4333333333333333,
"grad_norm": 7.78125,
"learning_rate": 3.3048644710906256e-06,
"loss": 1.8645330667495728,
"step": 2150
},
{
"epoch": 1.4346666666666668,
"grad_norm": 4.25,
"learning_rate": 3.297719651138125e-06,
"loss": 1.4282081127166748,
"step": 2152
},
{
"epoch": 1.436,
"grad_norm": 5.03125,
"learning_rate": 3.2905866522525613e-06,
"loss": 1.4378764629364014,
"step": 2154
},
{
"epoch": 1.4373333333333334,
"grad_norm": 7.5625,
"learning_rate": 3.2834655076880782e-06,
"loss": 1.5733673572540283,
"step": 2156
},
{
"epoch": 1.4386666666666668,
"grad_norm": 5.78125,
"learning_rate": 3.2763562506435528e-06,
"loss": 1.4891130924224854,
"step": 2158
},
{
"epoch": 1.44,
"grad_norm": 5.78125,
"learning_rate": 3.269258914262441e-06,
"loss": 1.2145038843154907,
"step": 2160
},
{
"epoch": 1.4413333333333334,
"grad_norm": 23.125,
"learning_rate": 3.2621735316326266e-06,
"loss": 1.4004946947097778,
"step": 2162
},
{
"epoch": 1.4426666666666668,
"grad_norm": 1.6171875,
"learning_rate": 3.2551001357862627e-06,
"loss": 1.1053515672683716,
"step": 2164
},
{
"epoch": 1.444,
"grad_norm": 4.78125,
"learning_rate": 3.2480387596996223e-06,
"loss": 1.8382079601287842,
"step": 2166
},
{
"epoch": 1.4453333333333334,
"grad_norm": 4.96875,
"learning_rate": 3.2409894362929406e-06,
"loss": 1.4433636665344238,
"step": 2168
},
{
"epoch": 1.4466666666666668,
"grad_norm": 0.9140625,
"learning_rate": 3.2339521984302626e-06,
"loss": 1.1521646976470947,
"step": 2170
},
{
"epoch": 1.448,
"grad_norm": 5.96875,
"learning_rate": 3.226927078919291e-06,
"loss": 1.301585078239441,
"step": 2172
},
{
"epoch": 1.4493333333333334,
"grad_norm": 4.96875,
"learning_rate": 3.219914110511233e-06,
"loss": 1.490642786026001,
"step": 2174
},
{
"epoch": 1.4506666666666668,
"grad_norm": 5.75,
"learning_rate": 3.2129133259006486e-06,
"loss": 1.6394309997558594,
"step": 2176
},
{
"epoch": 1.452,
"grad_norm": 3.421875,
"learning_rate": 3.205924757725292e-06,
"loss": 1.0423762798309326,
"step": 2178
},
{
"epoch": 1.4533333333333334,
"grad_norm": 5.6875,
"learning_rate": 3.1989484385659677e-06,
"loss": 1.7373323440551758,
"step": 2180
},
{
"epoch": 1.4546666666666668,
"grad_norm": 4.875,
"learning_rate": 3.1919844009463754e-06,
"loss": 1.458338737487793,
"step": 2182
},
{
"epoch": 1.456,
"grad_norm": 8.75,
"learning_rate": 3.1850326773329575e-06,
"loss": 1.4843109846115112,
"step": 2184
},
{
"epoch": 1.4573333333333334,
"grad_norm": 4.0625,
"learning_rate": 3.178093300134747e-06,
"loss": 1.337432861328125,
"step": 2186
},
{
"epoch": 1.4586666666666668,
"grad_norm": 4.71875,
"learning_rate": 3.171166301703219e-06,
"loss": 1.4174573421478271,
"step": 2188
},
{
"epoch": 1.46,
"grad_norm": 4.46875,
"learning_rate": 3.164251714332139e-06,
"loss": 1.3681509494781494,
"step": 2190
},
{
"epoch": 1.4613333333333334,
"grad_norm": 13.625,
"learning_rate": 3.157349570257411e-06,
"loss": 1.7669622898101807,
"step": 2192
},
{
"epoch": 1.4626666666666668,
"grad_norm": 4.1875,
"learning_rate": 3.150459901656928e-06,
"loss": 1.6402667760849,
"step": 2194
},
{
"epoch": 1.464,
"grad_norm": 20.375,
"learning_rate": 3.143582740650424e-06,
"loss": 1.362139105796814,
"step": 2196
},
{
"epoch": 1.4653333333333334,
"grad_norm": 6.4375,
"learning_rate": 3.1367181192993196e-06,
"loss": 0.37001797556877136,
"step": 2198
},
{
"epoch": 1.4666666666666668,
"grad_norm": 7.21875,
"learning_rate": 3.1298660696065776e-06,
"loss": 1.3908202648162842,
"step": 2200
},
{
"epoch": 1.468,
"grad_norm": 4.71875,
"learning_rate": 3.1230266235165517e-06,
"loss": 1.643039345741272,
"step": 2202
},
{
"epoch": 1.4693333333333334,
"grad_norm": 3.34375,
"learning_rate": 3.116199812914835e-06,
"loss": 1.1279222965240479,
"step": 2204
},
{
"epoch": 1.4706666666666668,
"grad_norm": 6.03125,
"learning_rate": 3.1093856696281154e-06,
"loss": 1.4094611406326294,
"step": 2206
},
{
"epoch": 1.472,
"grad_norm": 13.0,
"learning_rate": 3.102584225424028e-06,
"loss": 1.4117114543914795,
"step": 2208
},
{
"epoch": 1.4733333333333334,
"grad_norm": 9.3125,
"learning_rate": 3.095795512010998e-06,
"loss": 1.4297616481781006,
"step": 2210
},
{
"epoch": 1.4746666666666668,
"grad_norm": 10.0625,
"learning_rate": 3.089019561038108e-06,
"loss": 1.983637809753418,
"step": 2212
},
{
"epoch": 1.476,
"grad_norm": 2.1875,
"learning_rate": 3.082256404094933e-06,
"loss": 1.0336921215057373,
"step": 2214
},
{
"epoch": 1.4773333333333334,
"grad_norm": 5.375,
"learning_rate": 3.07550607271141e-06,
"loss": 1.388633370399475,
"step": 2216
},
{
"epoch": 1.4786666666666668,
"grad_norm": 4.6875,
"learning_rate": 3.0687685983576787e-06,
"loss": 1.4226921796798706,
"step": 2218
},
{
"epoch": 1.48,
"grad_norm": 4.1875,
"learning_rate": 3.0620440124439398e-06,
"loss": 1.406280517578125,
"step": 2220
},
{
"epoch": 1.4813333333333334,
"grad_norm": 5.40625,
"learning_rate": 3.0553323463203085e-06,
"loss": 1.629976511001587,
"step": 2222
},
{
"epoch": 1.4826666666666668,
"grad_norm": 6.21875,
"learning_rate": 3.0486336312766673e-06,
"loss": 1.1256341934204102,
"step": 2224
},
{
"epoch": 1.484,
"grad_norm": 15.0,
"learning_rate": 3.04194789854252e-06,
"loss": 1.6569780111312866,
"step": 2226
},
{
"epoch": 1.4853333333333334,
"grad_norm": 6.15625,
"learning_rate": 3.0352751792868484e-06,
"loss": 1.3926656246185303,
"step": 2228
},
{
"epoch": 1.4866666666666668,
"grad_norm": 7.9375,
"learning_rate": 3.0286155046179622e-06,
"loss": 1.872004508972168,
"step": 2230
},
{
"epoch": 1.488,
"grad_norm": 4.15625,
"learning_rate": 3.0219689055833624e-06,
"loss": 1.436002492904663,
"step": 2232
},
{
"epoch": 1.4893333333333334,
"grad_norm": 10.8125,
"learning_rate": 3.0153354131695868e-06,
"loss": 1.5085735321044922,
"step": 2234
},
{
"epoch": 1.4906666666666666,
"grad_norm": 12.0625,
"learning_rate": 3.00871505830207e-06,
"loss": 1.8725166320800781,
"step": 2236
},
{
"epoch": 1.492,
"grad_norm": 9.9375,
"learning_rate": 3.0021078718450012e-06,
"loss": 1.08853280544281,
"step": 2238
},
{
"epoch": 1.4933333333333334,
"grad_norm": 1.890625,
"learning_rate": 2.9955138846011765e-06,
"loss": 0.9658834338188171,
"step": 2240
},
{
"epoch": 1.4946666666666666,
"grad_norm": 4.59375,
"learning_rate": 2.988933127311859e-06,
"loss": 1.451707363128662,
"step": 2242
},
{
"epoch": 1.496,
"grad_norm": 36.0,
"learning_rate": 2.9823656306566327e-06,
"loss": 1.749687671661377,
"step": 2244
},
{
"epoch": 1.4973333333333334,
"grad_norm": 2.0,
"learning_rate": 2.975811425253259e-06,
"loss": 1.0534790754318237,
"step": 2246
},
{
"epoch": 1.4986666666666666,
"grad_norm": 2.109375,
"learning_rate": 2.9692705416575363e-06,
"loss": 1.0871453285217285,
"step": 2248
},
{
"epoch": 1.5,
"grad_norm": 3.90625,
"learning_rate": 2.9627430103631573e-06,
"loss": 1.4621355533599854,
"step": 2250
},
{
"epoch": 1.5013333333333332,
"grad_norm": 10.6875,
"learning_rate": 2.9562288618015656e-06,
"loss": 1.805877447128296,
"step": 2252
},
{
"epoch": 1.5026666666666668,
"grad_norm": 2.765625,
"learning_rate": 2.949728126341813e-06,
"loss": 1.0431222915649414,
"step": 2254
},
{
"epoch": 1.504,
"grad_norm": 13.4375,
"learning_rate": 2.9432408342904223e-06,
"loss": 1.9408483505249023,
"step": 2256
},
{
"epoch": 1.5053333333333332,
"grad_norm": 29.375,
"learning_rate": 2.93676701589124e-06,
"loss": 1.790807843208313,
"step": 2258
},
{
"epoch": 1.5066666666666668,
"grad_norm": 2.078125,
"learning_rate": 2.9303067013252985e-06,
"loss": 1.0748181343078613,
"step": 2260
},
{
"epoch": 1.508,
"grad_norm": 7.59375,
"learning_rate": 2.9238599207106775e-06,
"loss": 1.8455153703689575,
"step": 2262
},
{
"epoch": 1.5093333333333332,
"grad_norm": 3.375,
"learning_rate": 2.9174267041023564e-06,
"loss": 1.113965630531311,
"step": 2264
},
{
"epoch": 1.5106666666666668,
"grad_norm": 5.9375,
"learning_rate": 2.911007081492087e-06,
"loss": 1.4975740909576416,
"step": 2266
},
{
"epoch": 1.512,
"grad_norm": 4.90625,
"learning_rate": 2.9046010828082384e-06,
"loss": 1.4789996147155762,
"step": 2268
},
{
"epoch": 1.5133333333333332,
"grad_norm": 3.203125,
"learning_rate": 2.898208737915667e-06,
"loss": 1.4293715953826904,
"step": 2270
},
{
"epoch": 1.5146666666666668,
"grad_norm": 1.1484375,
"learning_rate": 2.891830076615576e-06,
"loss": 0.9513505697250366,
"step": 2272
},
{
"epoch": 1.516,
"grad_norm": 2.234375,
"learning_rate": 2.885465128645375e-06,
"loss": 1.0323138236999512,
"step": 2274
},
{
"epoch": 1.5173333333333332,
"grad_norm": 7.3125,
"learning_rate": 2.87911392367854e-06,
"loss": 2.013789176940918,
"step": 2276
},
{
"epoch": 1.5186666666666668,
"grad_norm": 24.0,
"learning_rate": 2.8727764913244816e-06,
"loss": 1.6063106060028076,
"step": 2278
},
{
"epoch": 1.52,
"grad_norm": 6.40625,
"learning_rate": 2.8664528611283966e-06,
"loss": 1.9662723541259766,
"step": 2280
},
{
"epoch": 1.5213333333333332,
"grad_norm": 3.125,
"learning_rate": 2.86014306257114e-06,
"loss": 1.2432258129119873,
"step": 2282
},
{
"epoch": 1.5226666666666666,
"grad_norm": 4.96875,
"learning_rate": 2.8538471250690813e-06,
"loss": 0.9860575795173645,
"step": 2284
},
{
"epoch": 1.524,
"grad_norm": 6.40625,
"learning_rate": 2.8475650779739717e-06,
"loss": 1.7175216674804688,
"step": 2286
},
{
"epoch": 1.5253333333333332,
"grad_norm": 6.90625,
"learning_rate": 2.841296950572802e-06,
"loss": 1.449406385421753,
"step": 2288
},
{
"epoch": 1.5266666666666666,
"grad_norm": 8.4375,
"learning_rate": 2.8350427720876727e-06,
"loss": 0.9427869319915771,
"step": 2290
},
{
"epoch": 1.528,
"grad_norm": 1.4609375,
"learning_rate": 2.828802571675652e-06,
"loss": 1.0794901847839355,
"step": 2292
},
{
"epoch": 1.5293333333333332,
"grad_norm": 6.3125,
"learning_rate": 2.822576378428642e-06,
"loss": 1.6682031154632568,
"step": 2294
},
{
"epoch": 1.5306666666666666,
"grad_norm": 3.96875,
"learning_rate": 2.816364221373245e-06,
"loss": 1.405712366104126,
"step": 2296
},
{
"epoch": 1.532,
"grad_norm": 1.65625,
"learning_rate": 2.8101661294706247e-06,
"loss": 1.0830612182617188,
"step": 2298
},
{
"epoch": 1.5333333333333332,
"grad_norm": 3.34375,
"learning_rate": 2.803982131616373e-06,
"loss": 1.1465742588043213,
"step": 2300
},
{
"epoch": 1.5346666666666666,
"grad_norm": 8.5625,
"learning_rate": 2.7978122566403765e-06,
"loss": 1.5894464254379272,
"step": 2302
},
{
"epoch": 1.536,
"grad_norm": 1.875,
"learning_rate": 2.7916565333066794e-06,
"loss": 1.0847280025482178,
"step": 2304
},
{
"epoch": 1.5373333333333332,
"grad_norm": 14.6875,
"learning_rate": 2.7855149903133495e-06,
"loss": 1.853139042854309,
"step": 2306
},
{
"epoch": 1.5386666666666666,
"grad_norm": 1.1484375,
"learning_rate": 2.7793876562923506e-06,
"loss": 1.1526024341583252,
"step": 2308
},
{
"epoch": 1.54,
"grad_norm": 3.921875,
"learning_rate": 2.773274559809399e-06,
"loss": 1.640642523765564,
"step": 2310
},
{
"epoch": 1.5413333333333332,
"grad_norm": 13.4375,
"learning_rate": 2.7671757293638374e-06,
"loss": 1.776177167892456,
"step": 2312
},
{
"epoch": 1.5426666666666666,
"grad_norm": 4.90625,
"learning_rate": 2.7610911933885e-06,
"loss": 1.8069844245910645,
"step": 2314
},
{
"epoch": 1.544,
"grad_norm": 4.75,
"learning_rate": 2.7550209802495793e-06,
"loss": 1.4899930953979492,
"step": 2316
},
{
"epoch": 1.5453333333333332,
"grad_norm": 9.625,
"learning_rate": 2.748965118246495e-06,
"loss": 1.6268222332000732,
"step": 2318
},
{
"epoch": 1.5466666666666666,
"grad_norm": 7.8125,
"learning_rate": 2.742923635611761e-06,
"loss": 0.3517189025878906,
"step": 2320
},
{
"epoch": 1.548,
"grad_norm": 6.09375,
"learning_rate": 2.7368965605108572e-06,
"loss": 1.4472923278808594,
"step": 2322
},
{
"epoch": 1.5493333333333332,
"grad_norm": 10.625,
"learning_rate": 2.7308839210420916e-06,
"loss": 1.850784182548523,
"step": 2324
},
{
"epoch": 1.5506666666666666,
"grad_norm": 8.4375,
"learning_rate": 2.7248857452364753e-06,
"loss": 1.9480905532836914,
"step": 2326
},
{
"epoch": 1.552,
"grad_norm": 19.125,
"learning_rate": 2.7189020610575877e-06,
"loss": 1.6485257148742676,
"step": 2328
},
{
"epoch": 1.5533333333333332,
"grad_norm": 7.375,
"learning_rate": 2.7129328964014506e-06,
"loss": 1.5316224098205566,
"step": 2330
},
{
"epoch": 1.5546666666666666,
"grad_norm": 9.1875,
"learning_rate": 2.706978279096394e-06,
"loss": 1.7249939441680908,
"step": 2332
},
{
"epoch": 1.556,
"grad_norm": 10.0625,
"learning_rate": 2.7010382369029277e-06,
"loss": 1.7890774011611938,
"step": 2334
},
{
"epoch": 1.5573333333333332,
"grad_norm": 3.890625,
"learning_rate": 2.6951127975136132e-06,
"loss": 1.4425702095031738,
"step": 2336
},
{
"epoch": 1.5586666666666666,
"grad_norm": 3.265625,
"learning_rate": 2.6892019885529326e-06,
"loss": 1.1990939378738403,
"step": 2338
},
{
"epoch": 1.56,
"grad_norm": 13.125,
"learning_rate": 2.6833058375771616e-06,
"loss": 0.30556273460388184,
"step": 2340
},
{
"epoch": 1.5613333333333332,
"grad_norm": 6.625,
"learning_rate": 2.677424372074238e-06,
"loss": 0.2589426338672638,
"step": 2342
},
{
"epoch": 1.5626666666666666,
"grad_norm": 12.625,
"learning_rate": 2.6715576194636397e-06,
"loss": 0.6587238311767578,
"step": 2344
},
{
"epoch": 1.564,
"grad_norm": 5.875,
"learning_rate": 2.665705607096249e-06,
"loss": 1.3843997716903687,
"step": 2346
},
{
"epoch": 1.5653333333333332,
"grad_norm": 4.6875,
"learning_rate": 2.6598683622542314e-06,
"loss": 1.3836545944213867,
"step": 2348
},
{
"epoch": 1.5666666666666667,
"grad_norm": 4.3125,
"learning_rate": 2.6540459121509044e-06,
"loss": 1.3984098434448242,
"step": 2350
},
{
"epoch": 1.568,
"grad_norm": 6.5,
"learning_rate": 2.648238283930613e-06,
"loss": 1.9189105033874512,
"step": 2352
},
{
"epoch": 1.5693333333333332,
"grad_norm": 1.1484375,
"learning_rate": 2.6424455046686027e-06,
"loss": 1.0379087924957275,
"step": 2354
},
{
"epoch": 1.5706666666666667,
"grad_norm": 5.53125,
"learning_rate": 2.6366676013708914e-06,
"loss": 1.41304612159729,
"step": 2356
},
{
"epoch": 1.572,
"grad_norm": 6.1875,
"learning_rate": 2.630904600974148e-06,
"loss": 1.3908233642578125,
"step": 2358
},
{
"epoch": 1.5733333333333333,
"grad_norm": 3.953125,
"learning_rate": 2.625156530345562e-06,
"loss": 1.4623103141784668,
"step": 2360
},
{
"epoch": 1.5746666666666667,
"grad_norm": 4.46875,
"learning_rate": 2.619423416282718e-06,
"loss": 1.4510695934295654,
"step": 2362
},
{
"epoch": 1.576,
"grad_norm": 9.875,
"learning_rate": 2.6137052855134774e-06,
"loss": 1.482946515083313,
"step": 2364
},
{
"epoch": 1.5773333333333333,
"grad_norm": 5.96875,
"learning_rate": 2.6080021646958457e-06,
"loss": 1.3805418014526367,
"step": 2366
},
{
"epoch": 1.5786666666666667,
"grad_norm": 5.3125,
"learning_rate": 2.6023140804178544e-06,
"loss": 1.3469185829162598,
"step": 2368
},
{
"epoch": 1.58,
"grad_norm": 14.25,
"learning_rate": 2.5966410591974305e-06,
"loss": 1.736164927482605,
"step": 2370
},
{
"epoch": 1.5813333333333333,
"grad_norm": 3.453125,
"learning_rate": 2.5909831274822817e-06,
"loss": 1.4436497688293457,
"step": 2372
},
{
"epoch": 1.5826666666666667,
"grad_norm": 6.25,
"learning_rate": 2.5853403116497643e-06,
"loss": 1.5656664371490479,
"step": 2374
},
{
"epoch": 1.584,
"grad_norm": 2.328125,
"learning_rate": 2.5797126380067665e-06,
"loss": 0.9541326761245728,
"step": 2376
},
{
"epoch": 1.5853333333333333,
"grad_norm": 4.0,
"learning_rate": 2.574100132789583e-06,
"loss": 1.3982048034667969,
"step": 2378
},
{
"epoch": 1.5866666666666667,
"grad_norm": 16.625,
"learning_rate": 2.568502822163792e-06,
"loss": 1.7485718727111816,
"step": 2380
},
{
"epoch": 1.588,
"grad_norm": 5.875,
"learning_rate": 2.562920732224136e-06,
"loss": 1.3504984378814697,
"step": 2382
},
{
"epoch": 1.5893333333333333,
"grad_norm": 9.3125,
"learning_rate": 2.5573538889943954e-06,
"loss": 1.785373568534851,
"step": 2384
},
{
"epoch": 1.5906666666666667,
"grad_norm": 8.5625,
"learning_rate": 2.5518023184272743e-06,
"loss": 1.9697847366333008,
"step": 2386
},
{
"epoch": 1.592,
"grad_norm": 9.25,
"learning_rate": 2.5462660464042727e-06,
"loss": 1.0236709117889404,
"step": 2388
},
{
"epoch": 1.5933333333333333,
"grad_norm": 4.15625,
"learning_rate": 2.5407450987355685e-06,
"loss": 1.4823676347732544,
"step": 2390
},
{
"epoch": 1.5946666666666667,
"grad_norm": 6.28125,
"learning_rate": 2.5352395011598994e-06,
"loss": 1.4814116954803467,
"step": 2392
},
{
"epoch": 1.596,
"grad_norm": 6.21875,
"learning_rate": 2.529749279344439e-06,
"loss": 1.400189757347107,
"step": 2394
},
{
"epoch": 1.5973333333333333,
"grad_norm": 6.75,
"learning_rate": 2.524274458884678e-06,
"loss": 1.6907062530517578,
"step": 2396
},
{
"epoch": 1.5986666666666667,
"grad_norm": 4.25,
"learning_rate": 2.5188150653043074e-06,
"loss": 1.136069655418396,
"step": 2398
},
{
"epoch": 1.6,
"grad_norm": 5.28125,
"learning_rate": 2.513371124055099e-06,
"loss": 1.4196181297302246,
"step": 2400
},
{
"epoch": 1.6013333333333333,
"grad_norm": 12.1875,
"learning_rate": 2.507942660516783e-06,
"loss": 2.027644634246826,
"step": 2402
},
{
"epoch": 1.6026666666666667,
"grad_norm": 2.53125,
"learning_rate": 2.502529699996934e-06,
"loss": 1.0022658109664917,
"step": 2404
},
{
"epoch": 1.604,
"grad_norm": 3.59375,
"learning_rate": 2.4971322677308497e-06,
"loss": 1.209780216217041,
"step": 2406
},
{
"epoch": 1.6053333333333333,
"grad_norm": 7.25,
"learning_rate": 2.4917503888814365e-06,
"loss": 1.387068510055542,
"step": 2408
},
{
"epoch": 1.6066666666666667,
"grad_norm": 8.5,
"learning_rate": 2.486384088539089e-06,
"loss": 1.4092319011688232,
"step": 2410
},
{
"epoch": 1.608,
"grad_norm": 3.953125,
"learning_rate": 2.481033391721577e-06,
"loss": 1.4629402160644531,
"step": 2412
},
{
"epoch": 1.6093333333333333,
"grad_norm": 3.015625,
"learning_rate": 2.475698323373924e-06,
"loss": 1.043999195098877,
"step": 2414
},
{
"epoch": 1.6106666666666667,
"grad_norm": 4.09375,
"learning_rate": 2.4703789083682944e-06,
"loss": 1.3914482593536377,
"step": 2416
},
{
"epoch": 1.612,
"grad_norm": 5.5625,
"learning_rate": 2.4650751715038768e-06,
"loss": 1.493814468383789,
"step": 2418
},
{
"epoch": 1.6133333333333333,
"grad_norm": 10.75,
"learning_rate": 2.459787137506767e-06,
"loss": 1.7154039144515991,
"step": 2420
},
{
"epoch": 1.6146666666666667,
"grad_norm": 6.90625,
"learning_rate": 2.454514831029855e-06,
"loss": 1.6474536657333374,
"step": 2422
},
{
"epoch": 1.616,
"grad_norm": 6.84375,
"learning_rate": 2.4492582766527078e-06,
"loss": 1.450832724571228,
"step": 2424
},
{
"epoch": 1.6173333333333333,
"grad_norm": 5.59375,
"learning_rate": 2.4440174988814568e-06,
"loss": 1.742751121520996,
"step": 2426
},
{
"epoch": 1.6186666666666667,
"grad_norm": 7.6875,
"learning_rate": 2.4387925221486827e-06,
"loss": 1.7559263706207275,
"step": 2428
},
{
"epoch": 1.62,
"grad_norm": 6.96875,
"learning_rate": 2.4335833708133006e-06,
"loss": 1.4377044439315796,
"step": 2430
},
{
"epoch": 1.6213333333333333,
"grad_norm": 9.75,
"learning_rate": 2.4283900691604473e-06,
"loss": 1.8848496675491333,
"step": 2432
},
{
"epoch": 1.6226666666666667,
"grad_norm": 2.296875,
"learning_rate": 2.42321264140137e-06,
"loss": 1.1043641567230225,
"step": 2434
},
{
"epoch": 1.624,
"grad_norm": 6.90625,
"learning_rate": 2.418051111673309e-06,
"loss": 0.5369839668273926,
"step": 2436
},
{
"epoch": 1.6253333333333333,
"grad_norm": 4.28125,
"learning_rate": 2.41290550403939e-06,
"loss": 1.3874391317367554,
"step": 2438
},
{
"epoch": 1.6266666666666667,
"grad_norm": 8.875,
"learning_rate": 2.4077758424885088e-06,
"loss": 1.876328945159912,
"step": 2440
},
{
"epoch": 1.6280000000000001,
"grad_norm": 4.9375,
"learning_rate": 2.40266215093522e-06,
"loss": 1.4870532751083374,
"step": 2442
},
{
"epoch": 1.6293333333333333,
"grad_norm": 4.8125,
"learning_rate": 2.3975644532196257e-06,
"loss": 1.5786141157150269,
"step": 2444
},
{
"epoch": 1.6306666666666667,
"grad_norm": 4.59375,
"learning_rate": 2.3924827731072653e-06,
"loss": 1.3795560598373413,
"step": 2446
},
{
"epoch": 1.6320000000000001,
"grad_norm": 3.9375,
"learning_rate": 2.387417134289003e-06,
"loss": 1.4442157745361328,
"step": 2448
},
{
"epoch": 1.6333333333333333,
"grad_norm": 4.15625,
"learning_rate": 2.3823675603809204e-06,
"loss": 1.1016851663589478,
"step": 2450
},
{
"epoch": 1.6346666666666667,
"grad_norm": 1.3046875,
"learning_rate": 2.3773340749242013e-06,
"loss": 1.1123661994934082,
"step": 2452
},
{
"epoch": 1.6360000000000001,
"grad_norm": 22.5,
"learning_rate": 2.372316701385027e-06,
"loss": 1.596160650253296,
"step": 2454
},
{
"epoch": 1.6373333333333333,
"grad_norm": 1.4296875,
"learning_rate": 2.3673154631544633e-06,
"loss": 1.108832597732544,
"step": 2456
},
{
"epoch": 1.6386666666666667,
"grad_norm": 7.375,
"learning_rate": 2.362330383548354e-06,
"loss": 1.0658042430877686,
"step": 2458
},
{
"epoch": 1.6400000000000001,
"grad_norm": 1.59375,
"learning_rate": 2.3573614858072114e-06,
"loss": 1.0907118320465088,
"step": 2460
},
{
"epoch": 1.6413333333333333,
"grad_norm": 6.9375,
"learning_rate": 2.352408793096107e-06,
"loss": 1.954852819442749,
"step": 2462
},
{
"epoch": 1.6426666666666667,
"grad_norm": 5.9375,
"learning_rate": 2.3474723285045635e-06,
"loss": 1.7443487644195557,
"step": 2464
},
{
"epoch": 1.6440000000000001,
"grad_norm": 23.5,
"learning_rate": 2.3425521150464503e-06,
"loss": 1.8608548641204834,
"step": 2466
},
{
"epoch": 1.6453333333333333,
"grad_norm": 7.65625,
"learning_rate": 2.337648175659872e-06,
"loss": 1.4043128490447998,
"step": 2468
},
{
"epoch": 1.6466666666666665,
"grad_norm": 4.6875,
"learning_rate": 2.3327605332070617e-06,
"loss": 1.343397855758667,
"step": 2470
},
{
"epoch": 1.6480000000000001,
"grad_norm": 10.25,
"learning_rate": 2.3278892104742807e-06,
"loss": 0.842422366142273,
"step": 2472
},
{
"epoch": 1.6493333333333333,
"grad_norm": 7.75,
"learning_rate": 2.3230342301717024e-06,
"loss": 1.8031508922576904,
"step": 2474
},
{
"epoch": 1.6506666666666665,
"grad_norm": 18.375,
"learning_rate": 2.3181956149333156e-06,
"loss": 1.7317943572998047,
"step": 2476
},
{
"epoch": 1.6520000000000001,
"grad_norm": 7.09375,
"learning_rate": 2.3133733873168114e-06,
"loss": 1.8046625852584839,
"step": 2478
},
{
"epoch": 1.6533333333333333,
"grad_norm": 2.359375,
"learning_rate": 2.308567569803484e-06,
"loss": 1.0550050735473633,
"step": 2480
},
{
"epoch": 1.6546666666666665,
"grad_norm": 4.9375,
"learning_rate": 2.3037781847981235e-06,
"loss": 1.4496147632598877,
"step": 2482
},
{
"epoch": 1.6560000000000001,
"grad_norm": 3.0,
"learning_rate": 2.2990052546289094e-06,
"loss": 1.0837609767913818,
"step": 2484
},
{
"epoch": 1.6573333333333333,
"grad_norm": 5.6875,
"learning_rate": 2.2942488015473106e-06,
"loss": 1.8502864837646484,
"step": 2486
},
{
"epoch": 1.6586666666666665,
"grad_norm": 4.65625,
"learning_rate": 2.2895088477279794e-06,
"loss": 0.961652934551239,
"step": 2488
},
{
"epoch": 1.6600000000000001,
"grad_norm": 4.3125,
"learning_rate": 2.2847854152686457e-06,
"loss": 1.491590976715088,
"step": 2490
},
{
"epoch": 1.6613333333333333,
"grad_norm": 5.0,
"learning_rate": 2.2800785261900206e-06,
"loss": 1.4915618896484375,
"step": 2492
},
{
"epoch": 1.6626666666666665,
"grad_norm": 9.3125,
"learning_rate": 2.2753882024356875e-06,
"loss": 1.7863433361053467,
"step": 2494
},
{
"epoch": 1.6640000000000001,
"grad_norm": 2.109375,
"learning_rate": 2.2707144658720013e-06,
"loss": 1.0995452404022217,
"step": 2496
},
{
"epoch": 1.6653333333333333,
"grad_norm": 8.8125,
"learning_rate": 2.2660573382879893e-06,
"loss": 1.6946117877960205,
"step": 2498
},
{
"epoch": 1.6666666666666665,
"grad_norm": 5.3125,
"learning_rate": 2.261416841395245e-06,
"loss": 1.5551875829696655,
"step": 2500
},
{
"epoch": 1.6680000000000001,
"grad_norm": 9.75,
"learning_rate": 2.256792996827831e-06,
"loss": 1.8907060623168945,
"step": 2502
},
{
"epoch": 1.6693333333333333,
"grad_norm": 2.234375,
"learning_rate": 2.2521858261421773e-06,
"loss": 1.0732618570327759,
"step": 2504
},
{
"epoch": 1.6706666666666665,
"grad_norm": 4.4375,
"learning_rate": 2.2475953508169783e-06,
"loss": 1.4265661239624023,
"step": 2506
},
{
"epoch": 1.6720000000000002,
"grad_norm": 45.25,
"learning_rate": 2.2430215922530946e-06,
"loss": 1.4152803421020508,
"step": 2508
},
{
"epoch": 1.6733333333333333,
"grad_norm": 14.1875,
"learning_rate": 2.2384645717734543e-06,
"loss": 1.880337119102478,
"step": 2510
},
{
"epoch": 1.6746666666666665,
"grad_norm": 5.9375,
"learning_rate": 2.2339243106229514e-06,
"loss": 1.332701563835144,
"step": 2512
},
{
"epoch": 1.6760000000000002,
"grad_norm": 7.84375,
"learning_rate": 2.229400829968347e-06,
"loss": 1.8711514472961426,
"step": 2514
},
{
"epoch": 1.6773333333333333,
"grad_norm": 9.6875,
"learning_rate": 2.2248941508981724e-06,
"loss": 1.681450366973877,
"step": 2516
},
{
"epoch": 1.6786666666666665,
"grad_norm": 7.3125,
"learning_rate": 2.22040429442263e-06,
"loss": 1.944288969039917,
"step": 2518
},
{
"epoch": 1.6800000000000002,
"grad_norm": 1.90625,
"learning_rate": 2.215931281473493e-06,
"loss": 1.1536941528320312,
"step": 2520
},
{
"epoch": 1.6813333333333333,
"grad_norm": 9.25,
"learning_rate": 2.2114751329040123e-06,
"loss": 1.468356728553772,
"step": 2522
},
{
"epoch": 1.6826666666666665,
"grad_norm": 4.65625,
"learning_rate": 2.2070358694888157e-06,
"loss": 1.475768804550171,
"step": 2524
},
{
"epoch": 1.6840000000000002,
"grad_norm": 2.09375,
"learning_rate": 2.2026135119238117e-06,
"loss": 1.1176834106445312,
"step": 2526
},
{
"epoch": 1.6853333333333333,
"grad_norm": 4.09375,
"learning_rate": 2.1982080808260935e-06,
"loss": 1.2341618537902832,
"step": 2528
},
{
"epoch": 1.6866666666666665,
"grad_norm": 7.96875,
"learning_rate": 2.1938195967338448e-06,
"loss": 1.0540871620178223,
"step": 2530
},
{
"epoch": 1.688,
"grad_norm": 4.03125,
"learning_rate": 2.189448080106239e-06,
"loss": 1.4182288646697998,
"step": 2532
},
{
"epoch": 1.6893333333333334,
"grad_norm": 5.40625,
"learning_rate": 2.1850935513233502e-06,
"loss": 1.5475046634674072,
"step": 2534
},
{
"epoch": 1.6906666666666665,
"grad_norm": 6.0625,
"learning_rate": 2.180756030686052e-06,
"loss": 1.8920286893844604,
"step": 2536
},
{
"epoch": 1.692,
"grad_norm": 3.84375,
"learning_rate": 2.176435538415928e-06,
"loss": 1.4708077907562256,
"step": 2538
},
{
"epoch": 1.6933333333333334,
"grad_norm": 6.96875,
"learning_rate": 2.172132094655173e-06,
"loss": 1.6575706005096436,
"step": 2540
},
{
"epoch": 1.6946666666666665,
"grad_norm": 9.5625,
"learning_rate": 2.167845719466505e-06,
"loss": 1.5513395071029663,
"step": 2542
},
{
"epoch": 1.696,
"grad_norm": 4.40625,
"learning_rate": 2.1635764328330645e-06,
"loss": 1.4614930152893066,
"step": 2544
},
{
"epoch": 1.6973333333333334,
"grad_norm": 7.40625,
"learning_rate": 2.159324254658327e-06,
"loss": 0.3184851109981537,
"step": 2546
},
{
"epoch": 1.6986666666666665,
"grad_norm": 6.28125,
"learning_rate": 2.155089204766007e-06,
"loss": 1.6140989065170288,
"step": 2548
},
{
"epoch": 1.7,
"grad_norm": 3.46875,
"learning_rate": 2.150871302899967e-06,
"loss": 1.3971844911575317,
"step": 2550
},
{
"epoch": 1.7013333333333334,
"grad_norm": 4.65625,
"learning_rate": 2.146670568724126e-06,
"loss": 1.3750734329223633,
"step": 2552
},
{
"epoch": 1.7026666666666666,
"grad_norm": 3.09375,
"learning_rate": 2.1424870218223653e-06,
"loss": 1.0484888553619385,
"step": 2554
},
{
"epoch": 1.704,
"grad_norm": 4.40625,
"learning_rate": 2.138320681698441e-06,
"loss": 1.4106589555740356,
"step": 2556
},
{
"epoch": 1.7053333333333334,
"grad_norm": 6.625,
"learning_rate": 2.1341715677758882e-06,
"loss": 1.9462778568267822,
"step": 2558
},
{
"epoch": 1.7066666666666666,
"grad_norm": 4.09375,
"learning_rate": 2.1300396993979366e-06,
"loss": 1.4685382843017578,
"step": 2560
},
{
"epoch": 1.708,
"grad_norm": 3.84375,
"learning_rate": 2.1259250958274147e-06,
"loss": 1.026566743850708,
"step": 2562
},
{
"epoch": 1.7093333333333334,
"grad_norm": 1.765625,
"learning_rate": 2.121827776246662e-06,
"loss": 1.0092363357543945,
"step": 2564
},
{
"epoch": 1.7106666666666666,
"grad_norm": 1.578125,
"learning_rate": 2.1177477597574408e-06,
"loss": 1.0036532878875732,
"step": 2566
},
{
"epoch": 1.712,
"grad_norm": 9.1875,
"learning_rate": 2.1136850653808456e-06,
"loss": 1.8697004318237305,
"step": 2568
},
{
"epoch": 1.7133333333333334,
"grad_norm": 3.5,
"learning_rate": 2.1096397120572164e-06,
"loss": 1.4623255729675293,
"step": 2570
},
{
"epoch": 1.7146666666666666,
"grad_norm": 6.90625,
"learning_rate": 2.1056117186460466e-06,
"loss": 1.6307227611541748,
"step": 2572
},
{
"epoch": 1.716,
"grad_norm": 12.4375,
"learning_rate": 2.1016011039258983e-06,
"loss": 1.7765603065490723,
"step": 2574
},
{
"epoch": 1.7173333333333334,
"grad_norm": 8.4375,
"learning_rate": 2.0976078865943152e-06,
"loss": 1.6039392948150635,
"step": 2576
},
{
"epoch": 1.7186666666666666,
"grad_norm": 4.28125,
"learning_rate": 2.0936320852677323e-06,
"loss": 1.4012162685394287,
"step": 2578
},
{
"epoch": 1.72,
"grad_norm": 5.8125,
"learning_rate": 2.0896737184813924e-06,
"loss": 1.418196678161621,
"step": 2580
},
{
"epoch": 1.7213333333333334,
"grad_norm": 6.78125,
"learning_rate": 2.0857328046892567e-06,
"loss": 1.4134851694107056,
"step": 2582
},
{
"epoch": 1.7226666666666666,
"grad_norm": 7.0,
"learning_rate": 2.081809362263922e-06,
"loss": 2.0253653526306152,
"step": 2584
},
{
"epoch": 1.724,
"grad_norm": 5.5625,
"learning_rate": 2.077903409496533e-06,
"loss": 1.431370496749878,
"step": 2586
},
{
"epoch": 1.7253333333333334,
"grad_norm": 5.25,
"learning_rate": 2.0740149645966954e-06,
"loss": 1.4524600505828857,
"step": 2588
},
{
"epoch": 1.7266666666666666,
"grad_norm": 6.625,
"learning_rate": 2.0701440456923955e-06,
"loss": 1.4008400440216064,
"step": 2590
},
{
"epoch": 1.728,
"grad_norm": 19.25,
"learning_rate": 2.066290670829911e-06,
"loss": 0.27671539783477783,
"step": 2592
},
{
"epoch": 1.7293333333333334,
"grad_norm": 2.96875,
"learning_rate": 2.0624548579737323e-06,
"loss": 1.124161720275879,
"step": 2594
},
{
"epoch": 1.7306666666666666,
"grad_norm": 8.125,
"learning_rate": 2.0586366250064716e-06,
"loss": 1.4266724586486816,
"step": 2596
},
{
"epoch": 1.732,
"grad_norm": 8.3125,
"learning_rate": 2.0548359897287857e-06,
"loss": 1.5034812688827515,
"step": 2598
},
{
"epoch": 1.7333333333333334,
"grad_norm": 1.2109375,
"learning_rate": 2.05105296985929e-06,
"loss": 1.055992841720581,
"step": 2600
},
{
"epoch": 1.7346666666666666,
"grad_norm": 4.0625,
"learning_rate": 2.047287583034476e-06,
"loss": 1.359705924987793,
"step": 2602
},
{
"epoch": 1.736,
"grad_norm": 6.09375,
"learning_rate": 2.043539846808632e-06,
"loss": 1.8168176412582397,
"step": 2604
},
{
"epoch": 1.7373333333333334,
"grad_norm": 2.0,
"learning_rate": 2.039809778653757e-06,
"loss": 1.1143035888671875,
"step": 2606
},
{
"epoch": 1.7386666666666666,
"grad_norm": 4.46875,
"learning_rate": 2.0360973959594802e-06,
"loss": 1.5116562843322754,
"step": 2608
},
{
"epoch": 1.74,
"grad_norm": 9.75,
"learning_rate": 2.0324027160329842e-06,
"loss": 1.4354583024978638,
"step": 2610
},
{
"epoch": 1.7413333333333334,
"grad_norm": 3.390625,
"learning_rate": 2.0287257560989186e-06,
"loss": 1.0052144527435303,
"step": 2612
},
{
"epoch": 1.7426666666666666,
"grad_norm": 7.1875,
"learning_rate": 2.025066533299322e-06,
"loss": 1.4171818494796753,
"step": 2614
},
{
"epoch": 1.744,
"grad_norm": 6.0,
"learning_rate": 2.021425064693544e-06,
"loss": 1.5010087490081787,
"step": 2616
},
{
"epoch": 1.7453333333333334,
"grad_norm": 9.4375,
"learning_rate": 2.017801367258162e-06,
"loss": 1.555128574371338,
"step": 2618
},
{
"epoch": 1.7466666666666666,
"grad_norm": 1.5859375,
"learning_rate": 2.0141954578869054e-06,
"loss": 1.0460717678070068,
"step": 2620
},
{
"epoch": 1.748,
"grad_norm": 1.6484375,
"learning_rate": 2.010607353390575e-06,
"loss": 1.1090086698532104,
"step": 2622
},
{
"epoch": 1.7493333333333334,
"grad_norm": 5.90625,
"learning_rate": 2.0070370704969644e-06,
"loss": 1.4290834665298462,
"step": 2624
},
{
"epoch": 1.7506666666666666,
"grad_norm": 2.828125,
"learning_rate": 2.0034846258507836e-06,
"loss": 1.1410293579101562,
"step": 2626
},
{
"epoch": 1.752,
"grad_norm": 11.75,
"learning_rate": 1.9999500360135783e-06,
"loss": 1.4075884819030762,
"step": 2628
},
{
"epoch": 1.7533333333333334,
"grad_norm": 6.78125,
"learning_rate": 1.9964333174636587e-06,
"loss": 1.1147377490997314,
"step": 2630
},
{
"epoch": 1.7546666666666666,
"grad_norm": 4.90625,
"learning_rate": 1.9929344865960147e-06,
"loss": 1.8437426090240479,
"step": 2632
},
{
"epoch": 1.756,
"grad_norm": 1.8046875,
"learning_rate": 1.989453559722246e-06,
"loss": 1.0943751335144043,
"step": 2634
},
{
"epoch": 1.7573333333333334,
"grad_norm": 5.53125,
"learning_rate": 1.9859905530704838e-06,
"loss": 1.6125261783599854,
"step": 2636
},
{
"epoch": 1.7586666666666666,
"grad_norm": 4.90625,
"learning_rate": 1.9825454827853136e-06,
"loss": 1.4623953104019165,
"step": 2638
},
{
"epoch": 1.76,
"grad_norm": 8.3125,
"learning_rate": 1.979118364927702e-06,
"loss": 1.5197104215621948,
"step": 2640
},
{
"epoch": 1.7613333333333334,
"grad_norm": 7.09375,
"learning_rate": 1.975709215474921e-06,
"loss": 1.495721697807312,
"step": 2642
},
{
"epoch": 1.7626666666666666,
"grad_norm": 3.0625,
"learning_rate": 1.9723180503204734e-06,
"loss": 1.0730725526809692,
"step": 2644
},
{
"epoch": 1.764,
"grad_norm": 11.1875,
"learning_rate": 1.96894488527402e-06,
"loss": 2.120232582092285,
"step": 2646
},
{
"epoch": 1.7653333333333334,
"grad_norm": 13.0,
"learning_rate": 1.965589736061303e-06,
"loss": 1.813724160194397,
"step": 2648
},
{
"epoch": 1.7666666666666666,
"grad_norm": 2.4375,
"learning_rate": 1.962252618324077e-06,
"loss": 1.1308650970458984,
"step": 2650
},
{
"epoch": 1.768,
"grad_norm": 11.375,
"learning_rate": 1.958933547620031e-06,
"loss": 1.9237217903137207,
"step": 2652
},
{
"epoch": 1.7693333333333334,
"grad_norm": 6.8125,
"learning_rate": 1.9556325394227198e-06,
"loss": 1.418813705444336,
"step": 2654
},
{
"epoch": 1.7706666666666666,
"grad_norm": 6.875,
"learning_rate": 1.952349609121491e-06,
"loss": 1.772024154663086,
"step": 2656
},
{
"epoch": 1.772,
"grad_norm": 5.96875,
"learning_rate": 1.9490847720214116e-06,
"loss": 1.4179997444152832,
"step": 2658
},
{
"epoch": 1.7733333333333334,
"grad_norm": 4.875,
"learning_rate": 1.9458380433431997e-06,
"loss": 1.520759105682373,
"step": 2660
},
{
"epoch": 1.7746666666666666,
"grad_norm": 4.4375,
"learning_rate": 1.9426094382231487e-06,
"loss": 1.6265156269073486,
"step": 2662
},
{
"epoch": 1.776,
"grad_norm": 5.65625,
"learning_rate": 1.939398971713062e-06,
"loss": 1.6532254219055176,
"step": 2664
},
{
"epoch": 1.7773333333333334,
"grad_norm": 7.09375,
"learning_rate": 1.9362066587801804e-06,
"loss": 1.8956434726715088,
"step": 2666
},
{
"epoch": 1.7786666666666666,
"grad_norm": 15.1875,
"learning_rate": 1.933032514307112e-06,
"loss": 1.655465006828308,
"step": 2668
},
{
"epoch": 1.78,
"grad_norm": 1.9140625,
"learning_rate": 1.9298765530917636e-06,
"loss": 1.092116117477417,
"step": 2670
},
{
"epoch": 1.7813333333333334,
"grad_norm": 3.953125,
"learning_rate": 1.9267387898472707e-06,
"loss": 1.3901035785675049,
"step": 2672
},
{
"epoch": 1.7826666666666666,
"grad_norm": 3.0,
"learning_rate": 1.9236192392019294e-06,
"loss": 1.251054286956787,
"step": 2674
},
{
"epoch": 1.784,
"grad_norm": 14.75,
"learning_rate": 1.92051791569913e-06,
"loss": 1.4674335718154907,
"step": 2676
},
{
"epoch": 1.7853333333333334,
"grad_norm": 5.75,
"learning_rate": 1.917434833797287e-06,
"loss": 1.3956738710403442,
"step": 2678
},
{
"epoch": 1.7866666666666666,
"grad_norm": 1.9375,
"learning_rate": 1.9143700078697703e-06,
"loss": 1.003767967224121,
"step": 2680
},
{
"epoch": 1.788,
"grad_norm": 5.125,
"learning_rate": 1.9113234522048437e-06,
"loss": 1.471883773803711,
"step": 2682
},
{
"epoch": 1.7893333333333334,
"grad_norm": 5.03125,
"learning_rate": 1.908295181005591e-06,
"loss": 1.525916337966919,
"step": 2684
},
{
"epoch": 1.7906666666666666,
"grad_norm": 6.53125,
"learning_rate": 1.9052852083898576e-06,
"loss": 1.9548535346984863,
"step": 2686
},
{
"epoch": 1.792,
"grad_norm": 13.25,
"learning_rate": 1.9022935483901771e-06,
"loss": 1.755566120147705,
"step": 2688
},
{
"epoch": 1.7933333333333334,
"grad_norm": 1.4375,
"learning_rate": 1.8993202149537113e-06,
"loss": 1.2035529613494873,
"step": 2690
},
{
"epoch": 1.7946666666666666,
"grad_norm": 7.0,
"learning_rate": 1.8963652219421826e-06,
"loss": 1.5947092771530151,
"step": 2692
},
{
"epoch": 1.796,
"grad_norm": 5.75,
"learning_rate": 1.8934285831318106e-06,
"loss": 1.755237340927124,
"step": 2694
},
{
"epoch": 1.7973333333333334,
"grad_norm": 6.0,
"learning_rate": 1.890510312213247e-06,
"loss": 1.6429678201675415,
"step": 2696
},
{
"epoch": 1.7986666666666666,
"grad_norm": 15.125,
"learning_rate": 1.887610422791512e-06,
"loss": 1.8014006614685059,
"step": 2698
},
{
"epoch": 1.8,
"grad_norm": 1.4140625,
"learning_rate": 1.8847289283859313e-06,
"loss": 1.0201822519302368,
"step": 2700
},
{
"epoch": 1.8013333333333335,
"grad_norm": 2.21875,
"learning_rate": 1.8818658424300724e-06,
"loss": 1.0370283126831055,
"step": 2702
},
{
"epoch": 1.8026666666666666,
"grad_norm": 8.1875,
"learning_rate": 1.879021178271683e-06,
"loss": 1.467565655708313,
"step": 2704
},
{
"epoch": 1.804,
"grad_norm": 8.8125,
"learning_rate": 1.8761949491726278e-06,
"loss": 1.7864141464233398,
"step": 2706
},
{
"epoch": 1.8053333333333335,
"grad_norm": 6.15625,
"learning_rate": 1.8733871683088267e-06,
"loss": 1.3655095100402832,
"step": 2708
},
{
"epoch": 1.8066666666666666,
"grad_norm": 5.90625,
"learning_rate": 1.8705978487701939e-06,
"loss": 1.3965015411376953,
"step": 2710
},
{
"epoch": 1.808,
"grad_norm": 7.34375,
"learning_rate": 1.8678270035605767e-06,
"loss": 1.638869285583496,
"step": 2712
},
{
"epoch": 1.8093333333333335,
"grad_norm": 5.28125,
"learning_rate": 1.8650746455976948e-06,
"loss": 1.3903155326843262,
"step": 2714
},
{
"epoch": 1.8106666666666666,
"grad_norm": 13.125,
"learning_rate": 1.86234078771308e-06,
"loss": 1.4415559768676758,
"step": 2716
},
{
"epoch": 1.812,
"grad_norm": 5.375,
"learning_rate": 1.8596254426520167e-06,
"loss": 1.4963748455047607,
"step": 2718
},
{
"epoch": 1.8133333333333335,
"grad_norm": 7.21875,
"learning_rate": 1.8569286230734817e-06,
"loss": 1.4766721725463867,
"step": 2720
},
{
"epoch": 1.8146666666666667,
"grad_norm": 11.9375,
"learning_rate": 1.8542503415500864e-06,
"loss": 1.7220858335494995,
"step": 2722
},
{
"epoch": 1.8159999999999998,
"grad_norm": 5.5,
"learning_rate": 1.8515906105680173e-06,
"loss": 1.4829065799713135,
"step": 2724
},
{
"epoch": 1.8173333333333335,
"grad_norm": 4.40625,
"learning_rate": 1.848949442526977e-06,
"loss": 1.452761173248291,
"step": 2726
},
{
"epoch": 1.8186666666666667,
"grad_norm": 4.1875,
"learning_rate": 1.8463268497401299e-06,
"loss": 1.4810348749160767,
"step": 2728
},
{
"epoch": 1.8199999999999998,
"grad_norm": 3.796875,
"learning_rate": 1.8437228444340399e-06,
"loss": 1.2779314517974854,
"step": 2730
},
{
"epoch": 1.8213333333333335,
"grad_norm": 2.03125,
"learning_rate": 1.841137438748617e-06,
"loss": 1.136197805404663,
"step": 2732
},
{
"epoch": 1.8226666666666667,
"grad_norm": 4.1875,
"learning_rate": 1.8385706447370587e-06,
"loss": 1.1024785041809082,
"step": 2734
},
{
"epoch": 1.8239999999999998,
"grad_norm": 2.828125,
"learning_rate": 1.8360224743657957e-06,
"loss": 1.189272403717041,
"step": 2736
},
{
"epoch": 1.8253333333333335,
"grad_norm": 15.75,
"learning_rate": 1.8334929395144336e-06,
"loss": 1.8067930936813354,
"step": 2738
},
{
"epoch": 1.8266666666666667,
"grad_norm": 6.5,
"learning_rate": 1.8309820519757004e-06,
"loss": 1.9117852449417114,
"step": 2740
},
{
"epoch": 1.8279999999999998,
"grad_norm": 1.890625,
"learning_rate": 1.8284898234553886e-06,
"loss": 1.073231816291809,
"step": 2742
},
{
"epoch": 1.8293333333333335,
"grad_norm": 11.625,
"learning_rate": 1.826016265572304e-06,
"loss": 1.5809550285339355,
"step": 2744
},
{
"epoch": 1.8306666666666667,
"grad_norm": 8.625,
"learning_rate": 1.823561389858208e-06,
"loss": 1.4855477809906006,
"step": 2746
},
{
"epoch": 1.8319999999999999,
"grad_norm": 4.78125,
"learning_rate": 1.8211252077577657e-06,
"loss": 1.5261988639831543,
"step": 2748
},
{
"epoch": 1.8333333333333335,
"grad_norm": 4.75,
"learning_rate": 1.818707730628493e-06,
"loss": 1.508739948272705,
"step": 2750
},
{
"epoch": 1.8346666666666667,
"grad_norm": 11.5625,
"learning_rate": 1.8163089697407027e-06,
"loss": 1.8359191417694092,
"step": 2752
},
{
"epoch": 1.8359999999999999,
"grad_norm": 7.875,
"learning_rate": 1.8139289362774514e-06,
"loss": 1.777050256729126,
"step": 2754
},
{
"epoch": 1.8373333333333335,
"grad_norm": 6.1875,
"learning_rate": 1.8115676413344897e-06,
"loss": 1.4878871440887451,
"step": 2756
},
{
"epoch": 1.8386666666666667,
"grad_norm": 5.34375,
"learning_rate": 1.8092250959202067e-06,
"loss": 1.4921441078186035,
"step": 2758
},
{
"epoch": 1.8399999999999999,
"grad_norm": 12.9375,
"learning_rate": 1.8069013109555843e-06,
"loss": 1.9146616458892822,
"step": 2760
},
{
"epoch": 1.8413333333333335,
"grad_norm": 6.1875,
"learning_rate": 1.8045962972741393e-06,
"loss": 1.3620163202285767,
"step": 2762
},
{
"epoch": 1.8426666666666667,
"grad_norm": 12.875,
"learning_rate": 1.802310065621879e-06,
"loss": 1.3618303537368774,
"step": 2764
},
{
"epoch": 1.8439999999999999,
"grad_norm": 5.15625,
"learning_rate": 1.8000426266572471e-06,
"loss": 1.4024913311004639,
"step": 2766
},
{
"epoch": 1.8453333333333335,
"grad_norm": 1.421875,
"learning_rate": 1.7977939909510772e-06,
"loss": 1.050788164138794,
"step": 2768
},
{
"epoch": 1.8466666666666667,
"grad_norm": 1.5859375,
"learning_rate": 1.7955641689865402e-06,
"loss": 1.0265395641326904,
"step": 2770
},
{
"epoch": 1.8479999999999999,
"grad_norm": 6.875,
"learning_rate": 1.7933531711590981e-06,
"loss": 0.9936121702194214,
"step": 2772
},
{
"epoch": 1.8493333333333335,
"grad_norm": 6.9375,
"learning_rate": 1.7911610077764537e-06,
"loss": 1.5282442569732666,
"step": 2774
},
{
"epoch": 1.8506666666666667,
"grad_norm": 6.71875,
"learning_rate": 1.7889876890585036e-06,
"loss": 1.4587817192077637,
"step": 2776
},
{
"epoch": 1.8519999999999999,
"grad_norm": 15.125,
"learning_rate": 1.786833225137291e-06,
"loss": 1.441443920135498,
"step": 2778
},
{
"epoch": 1.8533333333333335,
"grad_norm": 4.90625,
"learning_rate": 1.7846976260569574e-06,
"loss": 1.4862936735153198,
"step": 2780
},
{
"epoch": 1.8546666666666667,
"grad_norm": 17.875,
"learning_rate": 1.7825809017736955e-06,
"loss": 0.6228671073913574,
"step": 2782
},
{
"epoch": 1.8559999999999999,
"grad_norm": 5.03125,
"learning_rate": 1.7804830621557043e-06,
"loss": 1.5867762565612793,
"step": 2784
},
{
"epoch": 1.8573333333333333,
"grad_norm": 5.25,
"learning_rate": 1.7784041169831413e-06,
"loss": 1.0642695426940918,
"step": 2786
},
{
"epoch": 1.8586666666666667,
"grad_norm": 5.90625,
"learning_rate": 1.7763440759480788e-06,
"loss": 1.5180978775024414,
"step": 2788
},
{
"epoch": 1.8599999999999999,
"grad_norm": 1.296875,
"learning_rate": 1.7743029486544568e-06,
"loss": 1.0780036449432373,
"step": 2790
},
{
"epoch": 1.8613333333333333,
"grad_norm": 5.59375,
"learning_rate": 1.7722807446180408e-06,
"loss": 1.7178488969802856,
"step": 2792
},
{
"epoch": 1.8626666666666667,
"grad_norm": 8.875,
"learning_rate": 1.7702774732663734e-06,
"loss": 1.1812188625335693,
"step": 2794
},
{
"epoch": 1.8639999999999999,
"grad_norm": 2.265625,
"learning_rate": 1.7682931439387347e-06,
"loss": 1.1251749992370605,
"step": 2796
},
{
"epoch": 1.8653333333333333,
"grad_norm": 1.4609375,
"learning_rate": 1.7663277658860964e-06,
"loss": 1.242966651916504,
"step": 2798
},
{
"epoch": 1.8666666666666667,
"grad_norm": 6.625,
"learning_rate": 1.7643813482710784e-06,
"loss": 1.0621240139007568,
"step": 2800
},
{
"epoch": 1.8679999999999999,
"grad_norm": 3.40625,
"learning_rate": 1.7624539001679075e-06,
"loss": 1.1366503238677979,
"step": 2802
},
{
"epoch": 1.8693333333333333,
"grad_norm": 6.21875,
"learning_rate": 1.7605454305623735e-06,
"loss": 1.9657596349716187,
"step": 2804
},
{
"epoch": 1.8706666666666667,
"grad_norm": 4.40625,
"learning_rate": 1.7586559483517896e-06,
"loss": 1.3851277828216553,
"step": 2806
},
{
"epoch": 1.8719999999999999,
"grad_norm": 5.28125,
"learning_rate": 1.7567854623449479e-06,
"loss": 1.4316308498382568,
"step": 2808
},
{
"epoch": 1.8733333333333333,
"grad_norm": 6.65625,
"learning_rate": 1.7549339812620814e-06,
"loss": 1.9082809686660767,
"step": 2810
},
{
"epoch": 1.8746666666666667,
"grad_norm": 3.03125,
"learning_rate": 1.7531015137348206e-06,
"loss": 1.1026511192321777,
"step": 2812
},
{
"epoch": 1.876,
"grad_norm": 9.25,
"learning_rate": 1.7512880683061554e-06,
"loss": 1.4776630401611328,
"step": 2814
},
{
"epoch": 1.8773333333333333,
"grad_norm": 6.90625,
"learning_rate": 1.7494936534303938e-06,
"loss": 1.7435698509216309,
"step": 2816
},
{
"epoch": 1.8786666666666667,
"grad_norm": 8.5625,
"learning_rate": 1.7477182774731233e-06,
"loss": 1.4079492092132568,
"step": 2818
},
{
"epoch": 1.88,
"grad_norm": 7.6875,
"learning_rate": 1.7459619487111724e-06,
"loss": 1.026501178741455,
"step": 2820
},
{
"epoch": 1.8813333333333333,
"grad_norm": 3.796875,
"learning_rate": 1.7442246753325703e-06,
"loss": 1.0990175008773804,
"step": 2822
},
{
"epoch": 1.8826666666666667,
"grad_norm": 6.15625,
"learning_rate": 1.7425064654365107e-06,
"loss": 1.5780365467071533,
"step": 2824
},
{
"epoch": 1.884,
"grad_norm": 4.125,
"learning_rate": 1.7408073270333114e-06,
"loss": 1.1284211874008179,
"step": 2826
},
{
"epoch": 1.8853333333333333,
"grad_norm": 13.5,
"learning_rate": 1.7391272680443805e-06,
"loss": 1.859563946723938,
"step": 2828
},
{
"epoch": 1.8866666666666667,
"grad_norm": 4.46875,
"learning_rate": 1.7374662963021771e-06,
"loss": 1.4344596862792969,
"step": 2830
},
{
"epoch": 1.888,
"grad_norm": 4.875,
"learning_rate": 1.7358244195501737e-06,
"loss": 1.4997034072875977,
"step": 2832
},
{
"epoch": 1.8893333333333333,
"grad_norm": 1.6171875,
"learning_rate": 1.7342016454428246e-06,
"loss": 0.9284089803695679,
"step": 2834
},
{
"epoch": 1.8906666666666667,
"grad_norm": 7.4375,
"learning_rate": 1.7325979815455243e-06,
"loss": 1.1980538368225098,
"step": 2836
},
{
"epoch": 1.892,
"grad_norm": 4.875,
"learning_rate": 1.7310134353345775e-06,
"loss": 1.4303035736083984,
"step": 2838
},
{
"epoch": 1.8933333333333333,
"grad_norm": 6.375,
"learning_rate": 1.7294480141971615e-06,
"loss": 1.6346737146377563,
"step": 2840
},
{
"epoch": 1.8946666666666667,
"grad_norm": 11.0,
"learning_rate": 1.7279017254312906e-06,
"loss": 1.4243416786193848,
"step": 2842
},
{
"epoch": 1.896,
"grad_norm": 2.1875,
"learning_rate": 1.7263745762457857e-06,
"loss": 1.0933666229248047,
"step": 2844
},
{
"epoch": 1.8973333333333333,
"grad_norm": 5.75,
"learning_rate": 1.7248665737602377e-06,
"loss": 1.6563225984573364,
"step": 2846
},
{
"epoch": 1.8986666666666667,
"grad_norm": 2.3125,
"learning_rate": 1.7233777250049751e-06,
"loss": 1.069027066230774,
"step": 2848
},
{
"epoch": 1.9,
"grad_norm": 11.4375,
"learning_rate": 1.7219080369210335e-06,
"loss": 1.753813624382019,
"step": 2850
},
{
"epoch": 1.9013333333333333,
"grad_norm": 2.84375,
"learning_rate": 1.720457516360118e-06,
"loss": 1.206129550933838,
"step": 2852
},
{
"epoch": 1.9026666666666667,
"grad_norm": 3.640625,
"learning_rate": 1.719026170084577e-06,
"loss": 1.3521314859390259,
"step": 2854
},
{
"epoch": 1.904,
"grad_norm": 6.125,
"learning_rate": 1.7176140047673664e-06,
"loss": 1.412433385848999,
"step": 2856
},
{
"epoch": 1.9053333333333333,
"grad_norm": 9.5,
"learning_rate": 1.7162210269920215e-06,
"loss": 1.743882656097412,
"step": 2858
},
{
"epoch": 1.9066666666666667,
"grad_norm": 1.8359375,
"learning_rate": 1.7148472432526236e-06,
"loss": 1.0447434186935425,
"step": 2860
},
{
"epoch": 1.908,
"grad_norm": 4.3125,
"learning_rate": 1.7134926599537734e-06,
"loss": 1.4740633964538574,
"step": 2862
},
{
"epoch": 1.9093333333333333,
"grad_norm": 3.09375,
"learning_rate": 1.7121572834105563e-06,
"loss": 1.0643571615219116,
"step": 2864
},
{
"epoch": 1.9106666666666667,
"grad_norm": 2.828125,
"learning_rate": 1.710841119848517e-06,
"loss": 1.0655380487442017,
"step": 2866
},
{
"epoch": 1.912,
"grad_norm": 2.53125,
"learning_rate": 1.7095441754036283e-06,
"loss": 1.1269874572753906,
"step": 2868
},
{
"epoch": 1.9133333333333333,
"grad_norm": 4.34375,
"learning_rate": 1.7082664561222649e-06,
"loss": 1.4369423389434814,
"step": 2870
},
{
"epoch": 1.9146666666666667,
"grad_norm": 10.8125,
"learning_rate": 1.7070079679611703e-06,
"loss": 1.721430778503418,
"step": 2872
},
{
"epoch": 1.916,
"grad_norm": 6.625,
"learning_rate": 1.7057687167874356e-06,
"loss": 1.7939766645431519,
"step": 2874
},
{
"epoch": 1.9173333333333333,
"grad_norm": 16.625,
"learning_rate": 1.704548708378467e-06,
"loss": 1.3905680179595947,
"step": 2876
},
{
"epoch": 1.9186666666666667,
"grad_norm": 5.8125,
"learning_rate": 1.7033479484219613e-06,
"loss": 1.5273337364196777,
"step": 2878
},
{
"epoch": 1.92,
"grad_norm": 7.03125,
"learning_rate": 1.7021664425158774e-06,
"loss": 1.7179479598999023,
"step": 2880
},
{
"epoch": 1.9213333333333333,
"grad_norm": 6.34375,
"learning_rate": 1.701004196168413e-06,
"loss": 1.509115219116211,
"step": 2882
},
{
"epoch": 1.9226666666666667,
"grad_norm": 7.0625,
"learning_rate": 1.6998612147979776e-06,
"loss": 1.782740592956543,
"step": 2884
},
{
"epoch": 1.924,
"grad_norm": 1.5,
"learning_rate": 1.6987375037331662e-06,
"loss": 1.0091302394866943,
"step": 2886
},
{
"epoch": 1.9253333333333333,
"grad_norm": 14.1875,
"learning_rate": 1.6976330682127354e-06,
"loss": 1.941452980041504,
"step": 2888
},
{
"epoch": 1.9266666666666667,
"grad_norm": 9.125,
"learning_rate": 1.69654791338558e-06,
"loss": 1.7178850173950195,
"step": 2890
},
{
"epoch": 1.928,
"grad_norm": 8.5625,
"learning_rate": 1.6954820443107067e-06,
"loss": 1.575331687927246,
"step": 2892
},
{
"epoch": 1.9293333333333333,
"grad_norm": 13.25,
"learning_rate": 1.6944354659572127e-06,
"loss": 1.875302791595459,
"step": 2894
},
{
"epoch": 1.9306666666666668,
"grad_norm": 5.65625,
"learning_rate": 1.6934081832042604e-06,
"loss": 1.1005830764770508,
"step": 2896
},
{
"epoch": 1.932,
"grad_norm": 12.5,
"learning_rate": 1.6924002008410565e-06,
"loss": 1.8767313957214355,
"step": 2898
},
{
"epoch": 1.9333333333333333,
"grad_norm": 5.5,
"learning_rate": 1.69141152356683e-06,
"loss": 1.5892574787139893,
"step": 2900
},
{
"epoch": 1.9346666666666668,
"grad_norm": 14.5,
"learning_rate": 1.6904421559908073e-06,
"loss": 0.9386653304100037,
"step": 2902
},
{
"epoch": 1.936,
"grad_norm": 5.3125,
"learning_rate": 1.6894921026321951e-06,
"loss": 1.519507646560669,
"step": 2904
},
{
"epoch": 1.9373333333333334,
"grad_norm": 3.609375,
"learning_rate": 1.6885613679201543e-06,
"loss": 1.4453504085540771,
"step": 2906
},
{
"epoch": 1.9386666666666668,
"grad_norm": 2.0625,
"learning_rate": 1.6876499561937839e-06,
"loss": 1.2696738243103027,
"step": 2908
},
{
"epoch": 1.94,
"grad_norm": 17.25,
"learning_rate": 1.686757871702098e-06,
"loss": 2.0488576889038086,
"step": 2910
},
{
"epoch": 1.9413333333333334,
"grad_norm": 6.15625,
"learning_rate": 1.6858851186040078e-06,
"loss": 1.388519287109375,
"step": 2912
},
{
"epoch": 1.9426666666666668,
"grad_norm": 3.234375,
"learning_rate": 1.6850317009683007e-06,
"loss": 1.1983695030212402,
"step": 2914
},
{
"epoch": 1.944,
"grad_norm": 9.125,
"learning_rate": 1.6841976227736206e-06,
"loss": 1.755957841873169,
"step": 2916
},
{
"epoch": 1.9453333333333334,
"grad_norm": 1.1953125,
"learning_rate": 1.683382887908453e-06,
"loss": 1.0279343128204346,
"step": 2918
},
{
"epoch": 1.9466666666666668,
"grad_norm": 1.6875,
"learning_rate": 1.6825875001711025e-06,
"loss": 1.1533664464950562,
"step": 2920
},
{
"epoch": 1.948,
"grad_norm": 4.4375,
"learning_rate": 1.6818114632696795e-06,
"loss": 1.5219945907592773,
"step": 2922
},
{
"epoch": 1.9493333333333334,
"grad_norm": 5.59375,
"learning_rate": 1.6810547808220776e-06,
"loss": 1.1045305728912354,
"step": 2924
},
{
"epoch": 1.9506666666666668,
"grad_norm": 12.4375,
"learning_rate": 1.6803174563559612e-06,
"loss": 1.8807090520858765,
"step": 2926
},
{
"epoch": 1.952,
"grad_norm": 3.625,
"learning_rate": 1.679599493308748e-06,
"loss": 1.3571417331695557,
"step": 2928
},
{
"epoch": 1.9533333333333334,
"grad_norm": 6.03125,
"learning_rate": 1.678900895027592e-06,
"loss": 1.498100996017456,
"step": 2930
},
{
"epoch": 1.9546666666666668,
"grad_norm": 5.71875,
"learning_rate": 1.6782216647693678e-06,
"loss": 1.7426185607910156,
"step": 2932
},
{
"epoch": 1.956,
"grad_norm": 4.75,
"learning_rate": 1.677561805700656e-06,
"loss": 1.384394884109497,
"step": 2934
},
{
"epoch": 1.9573333333333334,
"grad_norm": 2.0625,
"learning_rate": 1.6769213208977307e-06,
"loss": 1.2053213119506836,
"step": 2936
},
{
"epoch": 1.9586666666666668,
"grad_norm": 11.5625,
"learning_rate": 1.6763002133465392e-06,
"loss": 1.4919240474700928,
"step": 2938
},
{
"epoch": 1.96,
"grad_norm": 11.375,
"learning_rate": 1.675698485942695e-06,
"loss": 1.5332872867584229,
"step": 2940
},
{
"epoch": 1.9613333333333334,
"grad_norm": 2.203125,
"learning_rate": 1.6751161414914592e-06,
"loss": 1.2368464469909668,
"step": 2942
},
{
"epoch": 1.9626666666666668,
"grad_norm": 4.96875,
"learning_rate": 1.6745531827077301e-06,
"loss": 0.38677334785461426,
"step": 2944
},
{
"epoch": 1.964,
"grad_norm": 3.03125,
"learning_rate": 1.6740096122160293e-06,
"loss": 1.246574878692627,
"step": 2946
},
{
"epoch": 1.9653333333333334,
"grad_norm": 4.9375,
"learning_rate": 1.6734854325504908e-06,
"loss": 1.4643174409866333,
"step": 2948
},
{
"epoch": 1.9666666666666668,
"grad_norm": 1.5703125,
"learning_rate": 1.6729806461548465e-06,
"loss": 1.108989953994751,
"step": 2950
},
{
"epoch": 1.968,
"grad_norm": 1.953125,
"learning_rate": 1.6724952553824183e-06,
"loss": 1.2631993293762207,
"step": 2952
},
{
"epoch": 1.9693333333333334,
"grad_norm": 2.28125,
"learning_rate": 1.6720292624961052e-06,
"loss": 1.0395303964614868,
"step": 2954
},
{
"epoch": 1.9706666666666668,
"grad_norm": 1.40625,
"learning_rate": 1.6715826696683727e-06,
"loss": 1.2307453155517578,
"step": 2956
},
{
"epoch": 1.972,
"grad_norm": 4.75,
"learning_rate": 1.671155478981242e-06,
"loss": 1.4833658933639526,
"step": 2958
},
{
"epoch": 1.9733333333333334,
"grad_norm": 7.84375,
"learning_rate": 1.6707476924262824e-06,
"loss": 1.4962571859359741,
"step": 2960
},
{
"epoch": 1.9746666666666668,
"grad_norm": 7.90625,
"learning_rate": 1.6703593119046018e-06,
"loss": 1.7367886304855347,
"step": 2962
},
{
"epoch": 1.976,
"grad_norm": 9.9375,
"learning_rate": 1.6699903392268343e-06,
"loss": 1.7091962099075317,
"step": 2964
},
{
"epoch": 1.9773333333333334,
"grad_norm": 7.46875,
"learning_rate": 1.6696407761131365e-06,
"loss": 1.367563009262085,
"step": 2966
},
{
"epoch": 1.9786666666666668,
"grad_norm": 14.5,
"learning_rate": 1.6693106241931765e-06,
"loss": 1.9681771993637085,
"step": 2968
},
{
"epoch": 1.98,
"grad_norm": 5.5625,
"learning_rate": 1.6689998850061267e-06,
"loss": 1.4136841297149658,
"step": 2970
},
{
"epoch": 1.9813333333333332,
"grad_norm": 6.34375,
"learning_rate": 1.6687085600006579e-06,
"loss": 1.7523043155670166,
"step": 2972
},
{
"epoch": 1.9826666666666668,
"grad_norm": 1.546875,
"learning_rate": 1.6684366505349317e-06,
"loss": 0.9437617063522339,
"step": 2974
},
{
"epoch": 1.984,
"grad_norm": 8.0,
"learning_rate": 1.668184157876594e-06,
"loss": 1.914856195449829,
"step": 2976
},
{
"epoch": 1.9853333333333332,
"grad_norm": 6.15625,
"learning_rate": 1.6679510832027685e-06,
"loss": 1.7545595169067383,
"step": 2978
},
{
"epoch": 1.9866666666666668,
"grad_norm": 10.6875,
"learning_rate": 1.667737427600053e-06,
"loss": 1.6925063133239746,
"step": 2980
},
{
"epoch": 1.988,
"grad_norm": 4.8125,
"learning_rate": 1.6675431920645127e-06,
"loss": 1.4586756229400635,
"step": 2982
},
{
"epoch": 1.9893333333333332,
"grad_norm": 2.34375,
"learning_rate": 1.6673683775016767e-06,
"loss": 1.1231346130371094,
"step": 2984
},
{
"epoch": 1.9906666666666668,
"grad_norm": 9.6875,
"learning_rate": 1.6672129847265328e-06,
"loss": 1.6970008611679077,
"step": 2986
},
{
"epoch": 1.992,
"grad_norm": 7.65625,
"learning_rate": 1.6670770144635247e-06,
"loss": 1.7199077606201172,
"step": 2988
},
{
"epoch": 1.9933333333333332,
"grad_norm": 5.46875,
"learning_rate": 1.6669604673465476e-06,
"loss": 1.5547149181365967,
"step": 2990
},
{
"epoch": 1.9946666666666668,
"grad_norm": 4.78125,
"learning_rate": 1.6668633439189452e-06,
"loss": 1.4819481372833252,
"step": 2992
},
{
"epoch": 1.996,
"grad_norm": 3.328125,
"learning_rate": 1.6667856446335087e-06,
"loss": 1.1569350957870483,
"step": 2994
},
{
"epoch": 1.9973333333333332,
"grad_norm": 7.21875,
"learning_rate": 1.6667273698524736e-06,
"loss": 1.6310951709747314,
"step": 2996
},
{
"epoch": 1.9986666666666668,
"grad_norm": 4.78125,
"learning_rate": 1.6666885198475175e-06,
"loss": 1.3490219116210938,
"step": 2998
},
{
"epoch": 2.0,
"grad_norm": 1.796875,
"learning_rate": 1.6666690947997594e-06,
"loss": 1.0550994873046875,
"step": 3000
},
{
"epoch": 2.0,
"step": 3000,
"total_flos": 2.464576238203699e+18,
"train_loss": 1.458037720322609,
"train_runtime": 26917.7119,
"train_samples_per_second": 0.892,
"train_steps_per_second": 0.111
}
],
"logging_steps": 2,
"max_steps": 3000,
"num_input_tokens_seen": 0,
"num_train_epochs": 2,
"save_steps": 9999999,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 2.464576238203699e+18,
"train_batch_size": 1,
"trial_name": null,
"trial_params": null
}