9b-2 / trainer_state.json
furproxy's picture
Upload folder using huggingface_hub
465b0e6 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 2.0,
"eval_steps": 500,
"global_step": 3000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0013333333333333333,
"grad_norm": 2.609375,
"learning_rate": 5.555555555555556e-08,
"loss": 1.426961898803711,
"step": 2
},
{
"epoch": 0.0026666666666666666,
"grad_norm": 4.03125,
"learning_rate": 1.6666666666666668e-07,
"loss": 1.0918725728988647,
"step": 4
},
{
"epoch": 0.004,
"grad_norm": 12.5,
"learning_rate": 2.7777777777777776e-07,
"loss": 2.423412799835205,
"step": 6
},
{
"epoch": 0.005333333333333333,
"grad_norm": 7.78125,
"learning_rate": 3.8888888888888895e-07,
"loss": 2.086796760559082,
"step": 8
},
{
"epoch": 0.006666666666666667,
"grad_norm": 18.0,
"learning_rate": 5.000000000000001e-07,
"loss": 2.240536689758301,
"step": 10
},
{
"epoch": 0.008,
"grad_norm": 7.625,
"learning_rate": 6.111111111111112e-07,
"loss": 1.9187642335891724,
"step": 12
},
{
"epoch": 0.009333333333333334,
"grad_norm": 11.375,
"learning_rate": 7.222222222222222e-07,
"loss": 1.9097466468811035,
"step": 14
},
{
"epoch": 0.010666666666666666,
"grad_norm": 10.25,
"learning_rate": 8.333333333333333e-07,
"loss": 2.225918769836426,
"step": 16
},
{
"epoch": 0.012,
"grad_norm": 14.5,
"learning_rate": 9.444444444444445e-07,
"loss": 2.5282227993011475,
"step": 18
},
{
"epoch": 0.013333333333333334,
"grad_norm": 10.75,
"learning_rate": 1.0555555555555557e-06,
"loss": 1.9008896350860596,
"step": 20
},
{
"epoch": 0.014666666666666666,
"grad_norm": 4.71875,
"learning_rate": 1.1666666666666668e-06,
"loss": 1.7159152030944824,
"step": 22
},
{
"epoch": 0.016,
"grad_norm": 5.21875,
"learning_rate": 1.2777777777777779e-06,
"loss": 1.7458038330078125,
"step": 24
},
{
"epoch": 0.017333333333333333,
"grad_norm": 2.359375,
"learning_rate": 1.3888888888888892e-06,
"loss": 1.1576664447784424,
"step": 26
},
{
"epoch": 0.018666666666666668,
"grad_norm": 7.125,
"learning_rate": 1.5e-06,
"loss": 1.8780293464660645,
"step": 28
},
{
"epoch": 0.02,
"grad_norm": 6.28125,
"learning_rate": 1.6111111111111113e-06,
"loss": 1.9322218894958496,
"step": 30
},
{
"epoch": 0.021333333333333333,
"grad_norm": 7.5,
"learning_rate": 1.7222222222222224e-06,
"loss": 1.9480838775634766,
"step": 32
},
{
"epoch": 0.02266666666666667,
"grad_norm": 12.8125,
"learning_rate": 1.8333333333333333e-06,
"loss": 1.7671797275543213,
"step": 34
},
{
"epoch": 0.024,
"grad_norm": 6.5625,
"learning_rate": 1.944444444444445e-06,
"loss": 2.0959420204162598,
"step": 36
},
{
"epoch": 0.025333333333333333,
"grad_norm": 2.4375,
"learning_rate": 2.0555555555555555e-06,
"loss": 1.345461130142212,
"step": 38
},
{
"epoch": 0.02666666666666667,
"grad_norm": 8.4375,
"learning_rate": 2.166666666666667e-06,
"loss": 1.9457855224609375,
"step": 40
},
{
"epoch": 0.028,
"grad_norm": 10.4375,
"learning_rate": 2.277777777777778e-06,
"loss": 2.2649214267730713,
"step": 42
},
{
"epoch": 0.029333333333333333,
"grad_norm": 8.875,
"learning_rate": 2.388888888888889e-06,
"loss": 2.0627341270446777,
"step": 44
},
{
"epoch": 0.030666666666666665,
"grad_norm": 12.0,
"learning_rate": 2.5e-06,
"loss": 2.0446112155914307,
"step": 46
},
{
"epoch": 0.032,
"grad_norm": 8.5,
"learning_rate": 2.6111111111111113e-06,
"loss": 2.0606207847595215,
"step": 48
},
{
"epoch": 0.03333333333333333,
"grad_norm": 9.125,
"learning_rate": 2.7222222222222224e-06,
"loss": 1.1834385395050049,
"step": 50
},
{
"epoch": 0.034666666666666665,
"grad_norm": 14.5625,
"learning_rate": 2.8333333333333335e-06,
"loss": 2.575603485107422,
"step": 52
},
{
"epoch": 0.036,
"grad_norm": 13.125,
"learning_rate": 2.944444444444445e-06,
"loss": 2.113842248916626,
"step": 54
},
{
"epoch": 0.037333333333333336,
"grad_norm": 14.1875,
"learning_rate": 3.055555555555556e-06,
"loss": 2.4097142219543457,
"step": 56
},
{
"epoch": 0.03866666666666667,
"grad_norm": 11.4375,
"learning_rate": 3.1666666666666667e-06,
"loss": 2.4086174964904785,
"step": 58
},
{
"epoch": 0.04,
"grad_norm": 4.09375,
"learning_rate": 3.277777777777778e-06,
"loss": 1.1603543758392334,
"step": 60
},
{
"epoch": 0.04133333333333333,
"grad_norm": 31.75,
"learning_rate": 3.3888888888888893e-06,
"loss": 2.3727102279663086,
"step": 62
},
{
"epoch": 0.042666666666666665,
"grad_norm": 12.875,
"learning_rate": 3.5e-06,
"loss": 2.0453083515167236,
"step": 64
},
{
"epoch": 0.044,
"grad_norm": 3.890625,
"learning_rate": 3.6111111111111115e-06,
"loss": 1.0684235095977783,
"step": 66
},
{
"epoch": 0.04533333333333334,
"grad_norm": 2.046875,
"learning_rate": 3.7222222222222225e-06,
"loss": 1.058991551399231,
"step": 68
},
{
"epoch": 0.04666666666666667,
"grad_norm": 9.3125,
"learning_rate": 3.833333333333334e-06,
"loss": 1.9442476034164429,
"step": 70
},
{
"epoch": 0.048,
"grad_norm": 22.125,
"learning_rate": 3.944444444444445e-06,
"loss": 1.7541954517364502,
"step": 72
},
{
"epoch": 0.04933333333333333,
"grad_norm": 2.953125,
"learning_rate": 4.055555555555556e-06,
"loss": 1.195051908493042,
"step": 74
},
{
"epoch": 0.050666666666666665,
"grad_norm": 14.25,
"learning_rate": 4.166666666666667e-06,
"loss": 2.3182945251464844,
"step": 76
},
{
"epoch": 0.052,
"grad_norm": 5.59375,
"learning_rate": 4.277777777777778e-06,
"loss": 1.9007854461669922,
"step": 78
},
{
"epoch": 0.05333333333333334,
"grad_norm": 2.734375,
"learning_rate": 4.388888888888889e-06,
"loss": 1.282339096069336,
"step": 80
},
{
"epoch": 0.05466666666666667,
"grad_norm": 12.375,
"learning_rate": 4.5e-06,
"loss": 2.4606080055236816,
"step": 82
},
{
"epoch": 0.056,
"grad_norm": 6.375,
"learning_rate": 4.611111111111112e-06,
"loss": 1.7879230976104736,
"step": 84
},
{
"epoch": 0.05733333333333333,
"grad_norm": 6.375,
"learning_rate": 4.722222222222222e-06,
"loss": 1.8923945426940918,
"step": 86
},
{
"epoch": 0.058666666666666666,
"grad_norm": 4.9375,
"learning_rate": 4.833333333333333e-06,
"loss": 1.7414391040802002,
"step": 88
},
{
"epoch": 0.06,
"grad_norm": 2.5,
"learning_rate": 4.944444444444445e-06,
"loss": 1.2417337894439697,
"step": 90
},
{
"epoch": 0.06133333333333333,
"grad_norm": 2.15625,
"learning_rate": 4.999998834496116e-06,
"loss": 1.0121757984161377,
"step": 92
},
{
"epoch": 0.06266666666666666,
"grad_norm": 7.53125,
"learning_rate": 4.999989510473192e-06,
"loss": 1.7546613216400146,
"step": 94
},
{
"epoch": 0.064,
"grad_norm": 9.4375,
"learning_rate": 4.999970862470813e-06,
"loss": 2.0210976600646973,
"step": 96
},
{
"epoch": 0.06533333333333333,
"grad_norm": 15.6875,
"learning_rate": 4.999942890575916e-06,
"loss": 1.8761789798736572,
"step": 98
},
{
"epoch": 0.06666666666666667,
"grad_norm": 5.4375,
"learning_rate": 4.999905594918907e-06,
"loss": 1.822148084640503,
"step": 100
},
{
"epoch": 0.068,
"grad_norm": 7.03125,
"learning_rate": 4.999858975673658e-06,
"loss": 1.699061393737793,
"step": 102
},
{
"epoch": 0.06933333333333333,
"grad_norm": 7.0625,
"learning_rate": 4.999803033057509e-06,
"loss": 1.9554791450500488,
"step": 104
},
{
"epoch": 0.07066666666666667,
"grad_norm": 4.96875,
"learning_rate": 4.999737767331265e-06,
"loss": 1.9270014762878418,
"step": 106
},
{
"epoch": 0.072,
"grad_norm": 8.0625,
"learning_rate": 4.999663178799196e-06,
"loss": 1.8165018558502197,
"step": 108
},
{
"epoch": 0.07333333333333333,
"grad_norm": 10.3125,
"learning_rate": 4.999579267809035e-06,
"loss": 2.142543315887451,
"step": 110
},
{
"epoch": 0.07466666666666667,
"grad_norm": 11.1875,
"learning_rate": 4.999486034751976e-06,
"loss": 2.3485541343688965,
"step": 112
},
{
"epoch": 0.076,
"grad_norm": 7.78125,
"learning_rate": 4.999383480062672e-06,
"loss": 1.2716255187988281,
"step": 114
},
{
"epoch": 0.07733333333333334,
"grad_norm": 4.53125,
"learning_rate": 4.9992716042192355e-06,
"loss": 1.8018227815628052,
"step": 116
},
{
"epoch": 0.07866666666666666,
"grad_norm": 2.1875,
"learning_rate": 4.999150407743234e-06,
"loss": 1.3383140563964844,
"step": 118
},
{
"epoch": 0.08,
"grad_norm": 8.625,
"learning_rate": 4.999019891199685e-06,
"loss": 1.7377729415893555,
"step": 120
},
{
"epoch": 0.08133333333333333,
"grad_norm": 7.28125,
"learning_rate": 4.9988800551970595e-06,
"loss": 1.9425296783447266,
"step": 122
},
{
"epoch": 0.08266666666666667,
"grad_norm": 3.328125,
"learning_rate": 4.998730900387276e-06,
"loss": 1.3355326652526855,
"step": 124
},
{
"epoch": 0.084,
"grad_norm": 3.84375,
"learning_rate": 4.998572427465695e-06,
"loss": 1.3544648885726929,
"step": 126
},
{
"epoch": 0.08533333333333333,
"grad_norm": 2.4375,
"learning_rate": 4.99840463717112e-06,
"loss": 1.1902351379394531,
"step": 128
},
{
"epoch": 0.08666666666666667,
"grad_norm": 3.4375,
"learning_rate": 4.998227530285792e-06,
"loss": 1.426368236541748,
"step": 130
},
{
"epoch": 0.088,
"grad_norm": 7.90625,
"learning_rate": 4.998041107635385e-06,
"loss": 2.050642490386963,
"step": 132
},
{
"epoch": 0.08933333333333333,
"grad_norm": 15.3125,
"learning_rate": 4.9978453700890035e-06,
"loss": 2.2510485649108887,
"step": 134
},
{
"epoch": 0.09066666666666667,
"grad_norm": 5.65625,
"learning_rate": 4.997640318559182e-06,
"loss": 1.8200645446777344,
"step": 136
},
{
"epoch": 0.092,
"grad_norm": 12.4375,
"learning_rate": 4.99742595400187e-06,
"loss": 2.2968640327453613,
"step": 138
},
{
"epoch": 0.09333333333333334,
"grad_norm": 3.125,
"learning_rate": 4.997202277416439e-06,
"loss": 1.460419774055481,
"step": 140
},
{
"epoch": 0.09466666666666666,
"grad_norm": 6.0625,
"learning_rate": 4.996969289845675e-06,
"loss": 1.9615103006362915,
"step": 142
},
{
"epoch": 0.096,
"grad_norm": 5.875,
"learning_rate": 4.9967269923757654e-06,
"loss": 1.1230132579803467,
"step": 144
},
{
"epoch": 0.09733333333333333,
"grad_norm": 25.5,
"learning_rate": 4.996475386136307e-06,
"loss": 2.2492356300354004,
"step": 146
},
{
"epoch": 0.09866666666666667,
"grad_norm": 6.59375,
"learning_rate": 4.996214472300291e-06,
"loss": 1.7113642692565918,
"step": 148
},
{
"epoch": 0.1,
"grad_norm": 4.75,
"learning_rate": 4.995944252084101e-06,
"loss": 1.7024157047271729,
"step": 150
},
{
"epoch": 0.10133333333333333,
"grad_norm": 6.1875,
"learning_rate": 4.995664726747508e-06,
"loss": 2.0609498023986816,
"step": 152
},
{
"epoch": 0.10266666666666667,
"grad_norm": 8.25,
"learning_rate": 4.9953758975936614e-06,
"loss": 1.9138317108154297,
"step": 154
},
{
"epoch": 0.104,
"grad_norm": 10.9375,
"learning_rate": 4.99507776596909e-06,
"loss": 1.7415437698364258,
"step": 156
},
{
"epoch": 0.10533333333333333,
"grad_norm": 1.53125,
"learning_rate": 4.9947703332636855e-06,
"loss": 1.1183407306671143,
"step": 158
},
{
"epoch": 0.10666666666666667,
"grad_norm": 6.1875,
"learning_rate": 4.994453600910705e-06,
"loss": 1.7093825340270996,
"step": 160
},
{
"epoch": 0.108,
"grad_norm": 4.5625,
"learning_rate": 4.994127570386756e-06,
"loss": 1.763106107711792,
"step": 162
},
{
"epoch": 0.10933333333333334,
"grad_norm": 4.4375,
"learning_rate": 4.993792243211802e-06,
"loss": 1.8390214443206787,
"step": 164
},
{
"epoch": 0.11066666666666666,
"grad_norm": 1.890625,
"learning_rate": 4.99344762094914e-06,
"loss": 1.1439769268035889,
"step": 166
},
{
"epoch": 0.112,
"grad_norm": 4.71875,
"learning_rate": 4.993093705205404e-06,
"loss": 1.956803560256958,
"step": 168
},
{
"epoch": 0.11333333333333333,
"grad_norm": 4.8125,
"learning_rate": 4.992730497630555e-06,
"loss": 1.7778558731079102,
"step": 170
},
{
"epoch": 0.11466666666666667,
"grad_norm": 10.6875,
"learning_rate": 4.992357999917872e-06,
"loss": 1.721332311630249,
"step": 172
},
{
"epoch": 0.116,
"grad_norm": 4.15625,
"learning_rate": 4.991976213803943e-06,
"loss": 1.1456602811813354,
"step": 174
},
{
"epoch": 0.11733333333333333,
"grad_norm": 3.671875,
"learning_rate": 4.991585141068663e-06,
"loss": 1.2858262062072754,
"step": 176
},
{
"epoch": 0.11866666666666667,
"grad_norm": 8.3125,
"learning_rate": 4.9911847835352165e-06,
"loss": 1.947248935699463,
"step": 178
},
{
"epoch": 0.12,
"grad_norm": 7.09375,
"learning_rate": 4.990775143070077e-06,
"loss": 1.9594460725784302,
"step": 180
},
{
"epoch": 0.12133333333333333,
"grad_norm": 5.21875,
"learning_rate": 4.990356221582993e-06,
"loss": 1.7351645231246948,
"step": 182
},
{
"epoch": 0.12266666666666666,
"grad_norm": 4.75,
"learning_rate": 4.989928021026984e-06,
"loss": 1.7385591268539429,
"step": 184
},
{
"epoch": 0.124,
"grad_norm": 4.8125,
"learning_rate": 4.989490543398327e-06,
"loss": 1.6152522563934326,
"step": 186
},
{
"epoch": 0.12533333333333332,
"grad_norm": 9.1875,
"learning_rate": 4.9890437907365475e-06,
"loss": 1.811694860458374,
"step": 188
},
{
"epoch": 0.12666666666666668,
"grad_norm": 5.4375,
"learning_rate": 4.9885877651244134e-06,
"loss": 1.835113525390625,
"step": 190
},
{
"epoch": 0.128,
"grad_norm": 4.75,
"learning_rate": 4.988122468687922e-06,
"loss": 1.6793406009674072,
"step": 192
},
{
"epoch": 0.12933333333333333,
"grad_norm": 15.625,
"learning_rate": 4.9876479035962935e-06,
"loss": 1.0911662578582764,
"step": 194
},
{
"epoch": 0.13066666666666665,
"grad_norm": 18.25,
"learning_rate": 4.987164072061957e-06,
"loss": 2.131570816040039,
"step": 196
},
{
"epoch": 0.132,
"grad_norm": 4.5,
"learning_rate": 4.986670976340538e-06,
"loss": 1.7224147319793701,
"step": 198
},
{
"epoch": 0.13333333333333333,
"grad_norm": 2.03125,
"learning_rate": 4.986168618730861e-06,
"loss": 1.1881237030029297,
"step": 200
},
{
"epoch": 0.13466666666666666,
"grad_norm": 9.1875,
"learning_rate": 4.9856570015749225e-06,
"loss": 1.8460280895233154,
"step": 202
},
{
"epoch": 0.136,
"grad_norm": 9.3125,
"learning_rate": 4.985136127257888e-06,
"loss": 2.2090723514556885,
"step": 204
},
{
"epoch": 0.13733333333333334,
"grad_norm": 4.4375,
"learning_rate": 4.984605998208081e-06,
"loss": 1.6706668138504028,
"step": 206
},
{
"epoch": 0.13866666666666666,
"grad_norm": 4.875,
"learning_rate": 4.984066616896972e-06,
"loss": 1.7842729091644287,
"step": 208
},
{
"epoch": 0.14,
"grad_norm": 2.734375,
"learning_rate": 4.9835179858391625e-06,
"loss": 1.0649902820587158,
"step": 210
},
{
"epoch": 0.14133333333333334,
"grad_norm": 5.28125,
"learning_rate": 4.982960107592379e-06,
"loss": 1.7180755138397217,
"step": 212
},
{
"epoch": 0.14266666666666666,
"grad_norm": 8.5,
"learning_rate": 4.982392984757459e-06,
"loss": 2.1030969619750977,
"step": 214
},
{
"epoch": 0.144,
"grad_norm": 3.359375,
"learning_rate": 4.981816619978337e-06,
"loss": 1.277032494544983,
"step": 216
},
{
"epoch": 0.14533333333333334,
"grad_norm": 6.78125,
"learning_rate": 4.981231015942032e-06,
"loss": 2.0104990005493164,
"step": 218
},
{
"epoch": 0.14666666666666667,
"grad_norm": 5.5,
"learning_rate": 4.980636175378639e-06,
"loss": 1.7849645614624023,
"step": 220
},
{
"epoch": 0.148,
"grad_norm": 9.8125,
"learning_rate": 4.980032101061314e-06,
"loss": 2.0194921493530273,
"step": 222
},
{
"epoch": 0.14933333333333335,
"grad_norm": 6.6875,
"learning_rate": 4.979418795806259e-06,
"loss": 1.7740180492401123,
"step": 224
},
{
"epoch": 0.15066666666666667,
"grad_norm": 6.65625,
"learning_rate": 4.978796262472713e-06,
"loss": 2.1783909797668457,
"step": 226
},
{
"epoch": 0.152,
"grad_norm": 21.125,
"learning_rate": 4.978164503962933e-06,
"loss": 1.5254769325256348,
"step": 228
},
{
"epoch": 0.15333333333333332,
"grad_norm": 5.375,
"learning_rate": 4.9775235232221895e-06,
"loss": 1.6781322956085205,
"step": 230
},
{
"epoch": 0.15466666666666667,
"grad_norm": 7.09375,
"learning_rate": 4.976873323238741e-06,
"loss": 1.8562153577804565,
"step": 232
},
{
"epoch": 0.156,
"grad_norm": 14.6875,
"learning_rate": 4.976213907043831e-06,
"loss": 1.696861743927002,
"step": 234
},
{
"epoch": 0.15733333333333333,
"grad_norm": 12.5,
"learning_rate": 4.975545277711665e-06,
"loss": 1.8190127611160278,
"step": 236
},
{
"epoch": 0.15866666666666668,
"grad_norm": 16.75,
"learning_rate": 4.974867438359404e-06,
"loss": 2.1855759620666504,
"step": 238
},
{
"epoch": 0.16,
"grad_norm": 6.6875,
"learning_rate": 4.974180392147145e-06,
"loss": 1.3512318134307861,
"step": 240
},
{
"epoch": 0.16133333333333333,
"grad_norm": 6.0,
"learning_rate": 4.973484142277905e-06,
"loss": 1.6209347248077393,
"step": 242
},
{
"epoch": 0.16266666666666665,
"grad_norm": 7.59375,
"learning_rate": 4.9727786919976125e-06,
"loss": 2.101145029067993,
"step": 244
},
{
"epoch": 0.164,
"grad_norm": 5.0625,
"learning_rate": 4.972064044595087e-06,
"loss": 1.5044230222702026,
"step": 246
},
{
"epoch": 0.16533333333333333,
"grad_norm": 3.8125,
"learning_rate": 4.971340203402024e-06,
"loss": 1.6177122592926025,
"step": 248
},
{
"epoch": 0.16666666666666666,
"grad_norm": 5.0,
"learning_rate": 4.970607171792981e-06,
"loss": 1.740015983581543,
"step": 250
},
{
"epoch": 0.168,
"grad_norm": 4.46875,
"learning_rate": 4.969864953185364e-06,
"loss": 1.7631562948226929,
"step": 252
},
{
"epoch": 0.16933333333333334,
"grad_norm": 2.625,
"learning_rate": 4.969113551039403e-06,
"loss": 1.0950901508331299,
"step": 254
},
{
"epoch": 0.17066666666666666,
"grad_norm": 4.1875,
"learning_rate": 4.968352968858149e-06,
"loss": 1.806433916091919,
"step": 256
},
{
"epoch": 0.172,
"grad_norm": 4.84375,
"learning_rate": 4.967583210187445e-06,
"loss": 1.367830753326416,
"step": 258
},
{
"epoch": 0.17333333333333334,
"grad_norm": 5.875,
"learning_rate": 4.9668042786159176e-06,
"loss": 2.118488073348999,
"step": 260
},
{
"epoch": 0.17466666666666666,
"grad_norm": 6.0625,
"learning_rate": 4.966016177774956e-06,
"loss": 1.6788520812988281,
"step": 262
},
{
"epoch": 0.176,
"grad_norm": 2.6875,
"learning_rate": 4.965218911338698e-06,
"loss": 1.3210437297821045,
"step": 264
},
{
"epoch": 0.17733333333333334,
"grad_norm": 6.875,
"learning_rate": 4.964412483024012e-06,
"loss": 1.92716646194458,
"step": 266
},
{
"epoch": 0.17866666666666667,
"grad_norm": 7.03125,
"learning_rate": 4.963596896590476e-06,
"loss": 1.7592105865478516,
"step": 268
},
{
"epoch": 0.18,
"grad_norm": 2.5625,
"learning_rate": 4.962772155840368e-06,
"loss": 1.0765562057495117,
"step": 270
},
{
"epoch": 0.18133333333333335,
"grad_norm": 4.78125,
"learning_rate": 4.961938264618638e-06,
"loss": 1.4803953170776367,
"step": 272
},
{
"epoch": 0.18266666666666667,
"grad_norm": 3.3125,
"learning_rate": 4.961095226812902e-06,
"loss": 1.6097404956817627,
"step": 274
},
{
"epoch": 0.184,
"grad_norm": 5.4375,
"learning_rate": 4.960243046353411e-06,
"loss": 1.7037537097930908,
"step": 276
},
{
"epoch": 0.18533333333333332,
"grad_norm": 14.75,
"learning_rate": 4.959381727213046e-06,
"loss": 2.05832576751709,
"step": 278
},
{
"epoch": 0.18666666666666668,
"grad_norm": 1.953125,
"learning_rate": 4.958511273407287e-06,
"loss": 1.2026753425598145,
"step": 280
},
{
"epoch": 0.188,
"grad_norm": 2.484375,
"learning_rate": 4.957631688994202e-06,
"loss": 1.1111297607421875,
"step": 282
},
{
"epoch": 0.18933333333333333,
"grad_norm": 5.1875,
"learning_rate": 4.9567429780744256e-06,
"loss": 1.7283909320831299,
"step": 284
},
{
"epoch": 0.19066666666666668,
"grad_norm": 5.125,
"learning_rate": 4.955845144791142e-06,
"loss": 1.2416884899139404,
"step": 286
},
{
"epoch": 0.192,
"grad_norm": 1.796875,
"learning_rate": 4.954938193330061e-06,
"loss": 1.023611068725586,
"step": 288
},
{
"epoch": 0.19333333333333333,
"grad_norm": 2.5,
"learning_rate": 4.954022127919406e-06,
"loss": 1.2488538026809692,
"step": 290
},
{
"epoch": 0.19466666666666665,
"grad_norm": 4.3125,
"learning_rate": 4.953096952829883e-06,
"loss": 1.7825567722320557,
"step": 292
},
{
"epoch": 0.196,
"grad_norm": 6.96875,
"learning_rate": 4.952162672374674e-06,
"loss": 1.6962242126464844,
"step": 294
},
{
"epoch": 0.19733333333333333,
"grad_norm": 8.8125,
"learning_rate": 4.951219290909408e-06,
"loss": 1.8218390941619873,
"step": 296
},
{
"epoch": 0.19866666666666666,
"grad_norm": 4.375,
"learning_rate": 4.9502668128321414e-06,
"loss": 1.539631724357605,
"step": 298
},
{
"epoch": 0.2,
"grad_norm": 4.6875,
"learning_rate": 4.949305242583341e-06,
"loss": 1.7179573774337769,
"step": 300
},
{
"epoch": 0.20133333333333334,
"grad_norm": 15.0625,
"learning_rate": 4.948334584645861e-06,
"loss": 2.0600290298461914,
"step": 302
},
{
"epoch": 0.20266666666666666,
"grad_norm": 31.875,
"learning_rate": 4.9473548435449234e-06,
"loss": 1.7066545486450195,
"step": 304
},
{
"epoch": 0.204,
"grad_norm": 2.4375,
"learning_rate": 4.946366023848093e-06,
"loss": 1.2282570600509644,
"step": 306
},
{
"epoch": 0.20533333333333334,
"grad_norm": 21.5,
"learning_rate": 4.945368130165262e-06,
"loss": 2.1756513118743896,
"step": 308
},
{
"epoch": 0.20666666666666667,
"grad_norm": 4.6875,
"learning_rate": 4.944361167148627e-06,
"loss": 1.6938464641571045,
"step": 310
},
{
"epoch": 0.208,
"grad_norm": 3.59375,
"learning_rate": 4.943345139492662e-06,
"loss": 1.200679063796997,
"step": 312
},
{
"epoch": 0.20933333333333334,
"grad_norm": 1.875,
"learning_rate": 4.9423200519341e-06,
"loss": 1.150309681892395,
"step": 314
},
{
"epoch": 0.21066666666666667,
"grad_norm": 4.90625,
"learning_rate": 4.9412859092519195e-06,
"loss": 1.66481614112854,
"step": 316
},
{
"epoch": 0.212,
"grad_norm": 6.03125,
"learning_rate": 4.9402427162673025e-06,
"loss": 1.6321322917938232,
"step": 318
},
{
"epoch": 0.21333333333333335,
"grad_norm": 24.875,
"learning_rate": 4.939190477843634e-06,
"loss": 1.3526780605316162,
"step": 320
},
{
"epoch": 0.21466666666666667,
"grad_norm": 5.9375,
"learning_rate": 4.938129198886462e-06,
"loss": 1.9712560176849365,
"step": 322
},
{
"epoch": 0.216,
"grad_norm": 4.6875,
"learning_rate": 4.937058884343484e-06,
"loss": 1.2531328201293945,
"step": 324
},
{
"epoch": 0.21733333333333332,
"grad_norm": 8.375,
"learning_rate": 4.9359795392045214e-06,
"loss": 1.63519287109375,
"step": 326
},
{
"epoch": 0.21866666666666668,
"grad_norm": 3.203125,
"learning_rate": 4.934891168501499e-06,
"loss": 1.183279275894165,
"step": 328
},
{
"epoch": 0.22,
"grad_norm": 5.6875,
"learning_rate": 4.933793777308415e-06,
"loss": 1.3079423904418945,
"step": 330
},
{
"epoch": 0.22133333333333333,
"grad_norm": 2.703125,
"learning_rate": 4.932687370741321e-06,
"loss": 1.2213515043258667,
"step": 332
},
{
"epoch": 0.22266666666666668,
"grad_norm": 4.4375,
"learning_rate": 4.9315719539583015e-06,
"loss": 1.6351184844970703,
"step": 334
},
{
"epoch": 0.224,
"grad_norm": 2.140625,
"learning_rate": 4.930447532159446e-06,
"loss": 1.0444347858428955,
"step": 336
},
{
"epoch": 0.22533333333333333,
"grad_norm": 2.25,
"learning_rate": 4.9293141105868245e-06,
"loss": 1.169987678527832,
"step": 338
},
{
"epoch": 0.22666666666666666,
"grad_norm": 7.875,
"learning_rate": 4.928171694524464e-06,
"loss": 2.0248818397521973,
"step": 340
},
{
"epoch": 0.228,
"grad_norm": 5.21875,
"learning_rate": 4.927020289298324e-06,
"loss": 1.7401028871536255,
"step": 342
},
{
"epoch": 0.22933333333333333,
"grad_norm": 4.0,
"learning_rate": 4.925859900276273e-06,
"loss": 1.1736500263214111,
"step": 344
},
{
"epoch": 0.23066666666666666,
"grad_norm": 4.78125,
"learning_rate": 4.924690532868062e-06,
"loss": 1.6478643417358398,
"step": 346
},
{
"epoch": 0.232,
"grad_norm": 10.75,
"learning_rate": 4.923512192525295e-06,
"loss": 2.1115689277648926,
"step": 348
},
{
"epoch": 0.23333333333333334,
"grad_norm": 6.25,
"learning_rate": 4.922324884741414e-06,
"loss": 1.1784987449645996,
"step": 350
},
{
"epoch": 0.23466666666666666,
"grad_norm": 8.875,
"learning_rate": 4.921128615051664e-06,
"loss": 1.7437598705291748,
"step": 352
},
{
"epoch": 0.236,
"grad_norm": 2.0,
"learning_rate": 4.919923389033073e-06,
"loss": 1.086277961730957,
"step": 354
},
{
"epoch": 0.23733333333333334,
"grad_norm": 9.0625,
"learning_rate": 4.9187092123044185e-06,
"loss": 1.7361807823181152,
"step": 356
},
{
"epoch": 0.23866666666666667,
"grad_norm": 10.375,
"learning_rate": 4.9174860905262125e-06,
"loss": 2.1892127990722656,
"step": 358
},
{
"epoch": 0.24,
"grad_norm": 10.5,
"learning_rate": 4.916254029400664e-06,
"loss": 1.6337263584136963,
"step": 360
},
{
"epoch": 0.24133333333333334,
"grad_norm": 5.53125,
"learning_rate": 4.9150130346716616e-06,
"loss": 1.626597285270691,
"step": 362
},
{
"epoch": 0.24266666666666667,
"grad_norm": 4.625,
"learning_rate": 4.913763112124739e-06,
"loss": 1.7248157262802124,
"step": 364
},
{
"epoch": 0.244,
"grad_norm": 8.6875,
"learning_rate": 4.912504267587052e-06,
"loss": 2.0670700073242188,
"step": 366
},
{
"epoch": 0.24533333333333332,
"grad_norm": 4.5625,
"learning_rate": 4.911236506927353e-06,
"loss": 1.2027419805526733,
"step": 368
},
{
"epoch": 0.24666666666666667,
"grad_norm": 4.46875,
"learning_rate": 4.909959836055958e-06,
"loss": 1.6558904647827148,
"step": 370
},
{
"epoch": 0.248,
"grad_norm": 3.734375,
"learning_rate": 4.90867426092473e-06,
"loss": 1.0571866035461426,
"step": 372
},
{
"epoch": 0.24933333333333332,
"grad_norm": 4.40625,
"learning_rate": 4.907379787527033e-06,
"loss": 1.663063883781433,
"step": 374
},
{
"epoch": 0.25066666666666665,
"grad_norm": 7.34375,
"learning_rate": 4.906076421897722e-06,
"loss": 1.614751935005188,
"step": 376
},
{
"epoch": 0.252,
"grad_norm": 10.375,
"learning_rate": 4.904764170113108e-06,
"loss": 1.6645468473434448,
"step": 378
},
{
"epoch": 0.25333333333333335,
"grad_norm": 2.9375,
"learning_rate": 4.903443038290924e-06,
"loss": 1.2448854446411133,
"step": 380
},
{
"epoch": 0.25466666666666665,
"grad_norm": 4.8125,
"learning_rate": 4.902113032590307e-06,
"loss": 1.1429449319839478,
"step": 382
},
{
"epoch": 0.256,
"grad_norm": 1.9453125,
"learning_rate": 4.900774159211764e-06,
"loss": 1.2650675773620605,
"step": 384
},
{
"epoch": 0.25733333333333336,
"grad_norm": 4.34375,
"learning_rate": 4.899426424397139e-06,
"loss": 1.1405256986618042,
"step": 386
},
{
"epoch": 0.25866666666666666,
"grad_norm": 12.0,
"learning_rate": 4.898069834429593e-06,
"loss": 2.080951690673828,
"step": 388
},
{
"epoch": 0.26,
"grad_norm": 6.5,
"learning_rate": 4.896704395633565e-06,
"loss": 1.5934624671936035,
"step": 390
},
{
"epoch": 0.2613333333333333,
"grad_norm": 12.25,
"learning_rate": 4.895330114374754e-06,
"loss": 2.1303348541259766,
"step": 392
},
{
"epoch": 0.26266666666666666,
"grad_norm": 3.953125,
"learning_rate": 4.893946997060075e-06,
"loss": 1.6423416137695312,
"step": 394
},
{
"epoch": 0.264,
"grad_norm": 5.59375,
"learning_rate": 4.892555050137642e-06,
"loss": 1.6157931089401245,
"step": 396
},
{
"epoch": 0.2653333333333333,
"grad_norm": 21.375,
"learning_rate": 4.891154280096731e-06,
"loss": 2.2374486923217773,
"step": 398
},
{
"epoch": 0.26666666666666666,
"grad_norm": 6.34375,
"learning_rate": 4.889744693467753e-06,
"loss": 0.9960446953773499,
"step": 400
},
{
"epoch": 0.268,
"grad_norm": 14.25,
"learning_rate": 4.888326296822219e-06,
"loss": 1.7377135753631592,
"step": 402
},
{
"epoch": 0.2693333333333333,
"grad_norm": 2.671875,
"learning_rate": 4.886899096772716e-06,
"loss": 1.4004313945770264,
"step": 404
},
{
"epoch": 0.27066666666666667,
"grad_norm": 9.625,
"learning_rate": 4.885463099972869e-06,
"loss": 2.226583480834961,
"step": 406
},
{
"epoch": 0.272,
"grad_norm": 4.25,
"learning_rate": 4.884018313117317e-06,
"loss": 1.6933379173278809,
"step": 408
},
{
"epoch": 0.2733333333333333,
"grad_norm": 21.0,
"learning_rate": 4.882564742941677e-06,
"loss": 1.2351548671722412,
"step": 410
},
{
"epoch": 0.27466666666666667,
"grad_norm": 2.28125,
"learning_rate": 4.881102396222511e-06,
"loss": 1.0993002653121948,
"step": 412
},
{
"epoch": 0.276,
"grad_norm": 2.265625,
"learning_rate": 4.879631279777303e-06,
"loss": 1.1669058799743652,
"step": 414
},
{
"epoch": 0.2773333333333333,
"grad_norm": 6.25,
"learning_rate": 4.878151400464418e-06,
"loss": 1.7067842483520508,
"step": 416
},
{
"epoch": 0.2786666666666667,
"grad_norm": 2.890625,
"learning_rate": 4.876662765183074e-06,
"loss": 1.1911600828170776,
"step": 418
},
{
"epoch": 0.28,
"grad_norm": 1.78125,
"learning_rate": 4.875165380873311e-06,
"loss": 1.3747963905334473,
"step": 420
},
{
"epoch": 0.2813333333333333,
"grad_norm": 10.6875,
"learning_rate": 4.873659254515954e-06,
"loss": 1.6159579753875732,
"step": 422
},
{
"epoch": 0.2826666666666667,
"grad_norm": 2.265625,
"learning_rate": 4.872144393132588e-06,
"loss": 1.1511104106903076,
"step": 424
},
{
"epoch": 0.284,
"grad_norm": 4.25,
"learning_rate": 4.870620803785514e-06,
"loss": 1.5702983140945435,
"step": 426
},
{
"epoch": 0.2853333333333333,
"grad_norm": 7.25,
"learning_rate": 4.869088493577731e-06,
"loss": 1.2697384357452393,
"step": 428
},
{
"epoch": 0.2866666666666667,
"grad_norm": 12.75,
"learning_rate": 4.86754746965289e-06,
"loss": 2.1861681938171387,
"step": 430
},
{
"epoch": 0.288,
"grad_norm": 7.0,
"learning_rate": 4.865997739195265e-06,
"loss": 1.9876891374588013,
"step": 432
},
{
"epoch": 0.28933333333333333,
"grad_norm": 11.0,
"learning_rate": 4.864439309429724e-06,
"loss": 1.7558832168579102,
"step": 434
},
{
"epoch": 0.2906666666666667,
"grad_norm": 5.4375,
"learning_rate": 4.862872187621685e-06,
"loss": 1.9074214696884155,
"step": 436
},
{
"epoch": 0.292,
"grad_norm": 5.28125,
"learning_rate": 4.861296381077095e-06,
"loss": 1.6114107370376587,
"step": 438
},
{
"epoch": 0.29333333333333333,
"grad_norm": 16.125,
"learning_rate": 4.859711897142386e-06,
"loss": 1.9621031284332275,
"step": 440
},
{
"epoch": 0.2946666666666667,
"grad_norm": 7.03125,
"learning_rate": 4.858118743204444e-06,
"loss": 1.6151349544525146,
"step": 442
},
{
"epoch": 0.296,
"grad_norm": 6.21875,
"learning_rate": 4.856516926690576e-06,
"loss": 1.7121708393096924,
"step": 444
},
{
"epoch": 0.29733333333333334,
"grad_norm": 6.71875,
"learning_rate": 4.854906455068471e-06,
"loss": 1.1954957246780396,
"step": 446
},
{
"epoch": 0.2986666666666667,
"grad_norm": 9.0,
"learning_rate": 4.853287335846174e-06,
"loss": 2.0688719749450684,
"step": 448
},
{
"epoch": 0.3,
"grad_norm": 5.40625,
"learning_rate": 4.851659576572039e-06,
"loss": 1.677027702331543,
"step": 450
},
{
"epoch": 0.30133333333333334,
"grad_norm": 6.03125,
"learning_rate": 4.850023184834703e-06,
"loss": 1.6223268508911133,
"step": 452
},
{
"epoch": 0.30266666666666664,
"grad_norm": 9.6875,
"learning_rate": 4.848378168263051e-06,
"loss": 1.6345758438110352,
"step": 454
},
{
"epoch": 0.304,
"grad_norm": 4.21875,
"learning_rate": 4.846724534526168e-06,
"loss": 1.7275407314300537,
"step": 456
},
{
"epoch": 0.30533333333333335,
"grad_norm": 6.90625,
"learning_rate": 4.845062291333322e-06,
"loss": 1.756260871887207,
"step": 458
},
{
"epoch": 0.30666666666666664,
"grad_norm": 14.75,
"learning_rate": 4.8433914464339136e-06,
"loss": 2.080754280090332,
"step": 460
},
{
"epoch": 0.308,
"grad_norm": 20.375,
"learning_rate": 4.841712007617445e-06,
"loss": 1.7779812812805176,
"step": 462
},
{
"epoch": 0.30933333333333335,
"grad_norm": 4.40625,
"learning_rate": 4.840023982713483e-06,
"loss": 1.0725421905517578,
"step": 464
},
{
"epoch": 0.31066666666666665,
"grad_norm": 15.1875,
"learning_rate": 4.838327379591626e-06,
"loss": 1.982491135597229,
"step": 466
},
{
"epoch": 0.312,
"grad_norm": 2.109375,
"learning_rate": 4.836622206161458e-06,
"loss": 1.088759183883667,
"step": 468
},
{
"epoch": 0.31333333333333335,
"grad_norm": 7.0625,
"learning_rate": 4.834908470372525e-06,
"loss": 1.4255026578903198,
"step": 470
},
{
"epoch": 0.31466666666666665,
"grad_norm": 11.9375,
"learning_rate": 4.833186180214287e-06,
"loss": 1.907231330871582,
"step": 472
},
{
"epoch": 0.316,
"grad_norm": 11.9375,
"learning_rate": 4.831455343716083e-06,
"loss": 2.125192642211914,
"step": 474
},
{
"epoch": 0.31733333333333336,
"grad_norm": 6.09375,
"learning_rate": 4.8297159689471e-06,
"loss": 1.6836061477661133,
"step": 476
},
{
"epoch": 0.31866666666666665,
"grad_norm": 4.34375,
"learning_rate": 4.827968064016326e-06,
"loss": 1.5955266952514648,
"step": 478
},
{
"epoch": 0.32,
"grad_norm": 7.53125,
"learning_rate": 4.82621163707252e-06,
"loss": 1.5531877279281616,
"step": 480
},
{
"epoch": 0.32133333333333336,
"grad_norm": 4.9375,
"learning_rate": 4.824446696304168e-06,
"loss": 1.5762629508972168,
"step": 482
},
{
"epoch": 0.32266666666666666,
"grad_norm": 20.875,
"learning_rate": 4.8226732499394504e-06,
"loss": 2.128744125366211,
"step": 484
},
{
"epoch": 0.324,
"grad_norm": 15.875,
"learning_rate": 4.820891306246197e-06,
"loss": 1.3488337993621826,
"step": 486
},
{
"epoch": 0.3253333333333333,
"grad_norm": 5.0,
"learning_rate": 4.8191008735318565e-06,
"loss": 1.7257015705108643,
"step": 488
},
{
"epoch": 0.32666666666666666,
"grad_norm": 5.96875,
"learning_rate": 4.817301960143453e-06,
"loss": 1.6011383533477783,
"step": 490
},
{
"epoch": 0.328,
"grad_norm": 4.28125,
"learning_rate": 4.815494574467542e-06,
"loss": 1.690148115158081,
"step": 492
},
{
"epoch": 0.3293333333333333,
"grad_norm": 9.0625,
"learning_rate": 4.813678724930183e-06,
"loss": 1.9120967388153076,
"step": 494
},
{
"epoch": 0.33066666666666666,
"grad_norm": 7.9375,
"learning_rate": 4.811854419996894e-06,
"loss": 2.227816104888916,
"step": 496
},
{
"epoch": 0.332,
"grad_norm": 6.625,
"learning_rate": 4.81002166817261e-06,
"loss": 1.061286449432373,
"step": 498
},
{
"epoch": 0.3333333333333333,
"grad_norm": 8.9375,
"learning_rate": 4.808180478001644e-06,
"loss": 1.9699760675430298,
"step": 500
},
{
"epoch": 0.33466666666666667,
"grad_norm": 5.21875,
"learning_rate": 4.806330858067652e-06,
"loss": 1.7396867275238037,
"step": 502
},
{
"epoch": 0.336,
"grad_norm": 2.9375,
"learning_rate": 4.804472816993587e-06,
"loss": 1.083378791809082,
"step": 504
},
{
"epoch": 0.3373333333333333,
"grad_norm": 4.75,
"learning_rate": 4.802606363441666e-06,
"loss": 1.575303554534912,
"step": 506
},
{
"epoch": 0.33866666666666667,
"grad_norm": 10.25,
"learning_rate": 4.800731506113319e-06,
"loss": 1.6470720767974854,
"step": 508
},
{
"epoch": 0.34,
"grad_norm": 8.125,
"learning_rate": 4.798848253749158e-06,
"loss": 1.6459286212921143,
"step": 510
},
{
"epoch": 0.3413333333333333,
"grad_norm": 1.8671875,
"learning_rate": 4.796956615128933e-06,
"loss": 1.2288987636566162,
"step": 512
},
{
"epoch": 0.3426666666666667,
"grad_norm": 7.09375,
"learning_rate": 4.7950565990714894e-06,
"loss": 1.6872162818908691,
"step": 514
},
{
"epoch": 0.344,
"grad_norm": 3.765625,
"learning_rate": 4.79314821443473e-06,
"loss": 1.7207008600234985,
"step": 516
},
{
"epoch": 0.3453333333333333,
"grad_norm": 11.5625,
"learning_rate": 4.791231470115571e-06,
"loss": 2.0396337509155273,
"step": 518
},
{
"epoch": 0.3466666666666667,
"grad_norm": 2.40625,
"learning_rate": 4.7893063750498995e-06,
"loss": 1.1848084926605225,
"step": 520
},
{
"epoch": 0.348,
"grad_norm": 5.28125,
"learning_rate": 4.787372938212537e-06,
"loss": 1.6492676734924316,
"step": 522
},
{
"epoch": 0.34933333333333333,
"grad_norm": 3.640625,
"learning_rate": 4.785431168617195e-06,
"loss": 1.5428884029388428,
"step": 524
},
{
"epoch": 0.3506666666666667,
"grad_norm": 3.703125,
"learning_rate": 4.78348107531643e-06,
"loss": 1.6366922855377197,
"step": 526
},
{
"epoch": 0.352,
"grad_norm": 5.40625,
"learning_rate": 4.781522667401604e-06,
"loss": 1.7472410202026367,
"step": 528
},
{
"epoch": 0.35333333333333333,
"grad_norm": 2.15625,
"learning_rate": 4.779555954002843e-06,
"loss": 1.2404601573944092,
"step": 530
},
{
"epoch": 0.3546666666666667,
"grad_norm": 15.625,
"learning_rate": 4.777580944288991e-06,
"loss": 1.88511323928833,
"step": 532
},
{
"epoch": 0.356,
"grad_norm": 2.4375,
"learning_rate": 4.775597647467575e-06,
"loss": 1.0901260375976562,
"step": 534
},
{
"epoch": 0.35733333333333334,
"grad_norm": 5.25,
"learning_rate": 4.77360607278475e-06,
"loss": 1.555063009262085,
"step": 536
},
{
"epoch": 0.3586666666666667,
"grad_norm": 8.8125,
"learning_rate": 4.771606229525265e-06,
"loss": 1.9415209293365479,
"step": 538
},
{
"epoch": 0.36,
"grad_norm": 8.125,
"learning_rate": 4.769598127012421e-06,
"loss": 1.9015228748321533,
"step": 540
},
{
"epoch": 0.36133333333333334,
"grad_norm": 4.15625,
"learning_rate": 4.767581774608016e-06,
"loss": 1.6610472202301025,
"step": 542
},
{
"epoch": 0.3626666666666667,
"grad_norm": 2.984375,
"learning_rate": 4.765557181712317e-06,
"loss": 1.0736007690429688,
"step": 544
},
{
"epoch": 0.364,
"grad_norm": 3.75,
"learning_rate": 4.763524357764004e-06,
"loss": 1.6187169551849365,
"step": 546
},
{
"epoch": 0.36533333333333334,
"grad_norm": 6.09375,
"learning_rate": 4.761483312240129e-06,
"loss": 1.6005005836486816,
"step": 548
},
{
"epoch": 0.36666666666666664,
"grad_norm": 15.125,
"learning_rate": 4.759434054656078e-06,
"loss": 2.02974796295166,
"step": 550
},
{
"epoch": 0.368,
"grad_norm": 6.8125,
"learning_rate": 4.757376594565518e-06,
"loss": 1.6362042427062988,
"step": 552
},
{
"epoch": 0.36933333333333335,
"grad_norm": 12.5625,
"learning_rate": 4.755310941560356e-06,
"loss": 1.5618031024932861,
"step": 554
},
{
"epoch": 0.37066666666666664,
"grad_norm": 2.078125,
"learning_rate": 4.753237105270696e-06,
"loss": 1.2482681274414062,
"step": 556
},
{
"epoch": 0.372,
"grad_norm": 4.09375,
"learning_rate": 4.751155095364793e-06,
"loss": 1.620242953300476,
"step": 558
},
{
"epoch": 0.37333333333333335,
"grad_norm": 8.3125,
"learning_rate": 4.749064921549006e-06,
"loss": 2.135446071624756,
"step": 560
},
{
"epoch": 0.37466666666666665,
"grad_norm": 5.40625,
"learning_rate": 4.746966593567756e-06,
"loss": 1.3215208053588867,
"step": 562
},
{
"epoch": 0.376,
"grad_norm": 8.375,
"learning_rate": 4.7448601212034765e-06,
"loss": 1.4838060140609741,
"step": 564
},
{
"epoch": 0.37733333333333335,
"grad_norm": 12.4375,
"learning_rate": 4.742745514276571e-06,
"loss": 1.6796302795410156,
"step": 566
},
{
"epoch": 0.37866666666666665,
"grad_norm": 12.8125,
"learning_rate": 4.74062278264537e-06,
"loss": 2.027433395385742,
"step": 568
},
{
"epoch": 0.38,
"grad_norm": 12.4375,
"learning_rate": 4.738491936206075e-06,
"loss": 1.9793848991394043,
"step": 570
},
{
"epoch": 0.38133333333333336,
"grad_norm": 3.046875,
"learning_rate": 4.736352984892723e-06,
"loss": 0.9984286427497864,
"step": 572
},
{
"epoch": 0.38266666666666665,
"grad_norm": 5.78125,
"learning_rate": 4.734205938677139e-06,
"loss": 1.686956524848938,
"step": 574
},
{
"epoch": 0.384,
"grad_norm": 4.5,
"learning_rate": 4.732050807568878e-06,
"loss": 1.7226555347442627,
"step": 576
},
{
"epoch": 0.38533333333333336,
"grad_norm": 12.625,
"learning_rate": 4.729887601615194e-06,
"loss": 2.1920371055603027,
"step": 578
},
{
"epoch": 0.38666666666666666,
"grad_norm": 21.0,
"learning_rate": 4.727716330900984e-06,
"loss": 1.6783638000488281,
"step": 580
},
{
"epoch": 0.388,
"grad_norm": 6.15625,
"learning_rate": 4.725537005548743e-06,
"loss": 1.344970703125,
"step": 582
},
{
"epoch": 0.3893333333333333,
"grad_norm": 3.046875,
"learning_rate": 4.723349635718515e-06,
"loss": 1.1667028665542603,
"step": 584
},
{
"epoch": 0.39066666666666666,
"grad_norm": 6.875,
"learning_rate": 4.721154231607851e-06,
"loss": 1.7253570556640625,
"step": 586
},
{
"epoch": 0.392,
"grad_norm": 6.875,
"learning_rate": 4.718950803451755e-06,
"loss": 1.813482403755188,
"step": 588
},
{
"epoch": 0.3933333333333333,
"grad_norm": 6.59375,
"learning_rate": 4.716739361522642e-06,
"loss": 1.6438264846801758,
"step": 590
},
{
"epoch": 0.39466666666666667,
"grad_norm": 4.8125,
"learning_rate": 4.714519916130283e-06,
"loss": 1.6976796388626099,
"step": 592
},
{
"epoch": 0.396,
"grad_norm": 3.671875,
"learning_rate": 4.712292477621766e-06,
"loss": 1.6207929849624634,
"step": 594
},
{
"epoch": 0.3973333333333333,
"grad_norm": 6.6875,
"learning_rate": 4.710057056381439e-06,
"loss": 1.5759934186935425,
"step": 596
},
{
"epoch": 0.39866666666666667,
"grad_norm": 28.375,
"learning_rate": 4.707813662830871e-06,
"loss": 1.3628721237182617,
"step": 598
},
{
"epoch": 0.4,
"grad_norm": 3.46875,
"learning_rate": 4.705562307428792e-06,
"loss": 1.591555118560791,
"step": 600
},
{
"epoch": 0.4013333333333333,
"grad_norm": 6.125,
"learning_rate": 4.703303000671051e-06,
"loss": 1.7297916412353516,
"step": 602
},
{
"epoch": 0.4026666666666667,
"grad_norm": 2.375,
"learning_rate": 4.7010357530905715e-06,
"loss": 1.0203232765197754,
"step": 604
},
{
"epoch": 0.404,
"grad_norm": 7.6875,
"learning_rate": 4.698760575257292e-06,
"loss": 1.0827909708023071,
"step": 606
},
{
"epoch": 0.4053333333333333,
"grad_norm": 15.625,
"learning_rate": 4.6964774777781245e-06,
"loss": 1.1942954063415527,
"step": 608
},
{
"epoch": 0.4066666666666667,
"grad_norm": 8.6875,
"learning_rate": 4.6941864712969025e-06,
"loss": 1.9994385242462158,
"step": 610
},
{
"epoch": 0.408,
"grad_norm": 5.0625,
"learning_rate": 4.691887566494328e-06,
"loss": 0.9512624740600586,
"step": 612
},
{
"epoch": 0.4093333333333333,
"grad_norm": 5.6875,
"learning_rate": 4.689580774087932e-06,
"loss": 1.6768784523010254,
"step": 614
},
{
"epoch": 0.4106666666666667,
"grad_norm": 4.875,
"learning_rate": 4.68726610483201e-06,
"loss": 1.5625501871109009,
"step": 616
},
{
"epoch": 0.412,
"grad_norm": 32.0,
"learning_rate": 4.6849435695175835e-06,
"loss": 2.0652124881744385,
"step": 618
},
{
"epoch": 0.41333333333333333,
"grad_norm": 5.1875,
"learning_rate": 4.682613178972346e-06,
"loss": 1.673771619796753,
"step": 620
},
{
"epoch": 0.4146666666666667,
"grad_norm": 22.875,
"learning_rate": 4.680274944060611e-06,
"loss": 1.8690307140350342,
"step": 622
},
{
"epoch": 0.416,
"grad_norm": 3.5625,
"learning_rate": 4.677928875683263e-06,
"loss": 1.4643995761871338,
"step": 624
},
{
"epoch": 0.41733333333333333,
"grad_norm": 10.4375,
"learning_rate": 4.675574984777705e-06,
"loss": 1.976689338684082,
"step": 626
},
{
"epoch": 0.4186666666666667,
"grad_norm": 4.96875,
"learning_rate": 4.67321328231781e-06,
"loss": 1.1396830081939697,
"step": 628
},
{
"epoch": 0.42,
"grad_norm": 5.40625,
"learning_rate": 4.67084377931387e-06,
"loss": 1.2085014581680298,
"step": 630
},
{
"epoch": 0.42133333333333334,
"grad_norm": 3.390625,
"learning_rate": 4.668466486812539e-06,
"loss": 1.0501954555511475,
"step": 632
},
{
"epoch": 0.4226666666666667,
"grad_norm": 8.8125,
"learning_rate": 4.66608141589679e-06,
"loss": 1.7985272407531738,
"step": 634
},
{
"epoch": 0.424,
"grad_norm": 8.0625,
"learning_rate": 4.663688577685859e-06,
"loss": 1.6298389434814453,
"step": 636
},
{
"epoch": 0.42533333333333334,
"grad_norm": 30.875,
"learning_rate": 4.661287983335188e-06,
"loss": 1.0675194263458252,
"step": 638
},
{
"epoch": 0.4266666666666667,
"grad_norm": 9.1875,
"learning_rate": 4.658879644036383e-06,
"loss": 1.6258975267410278,
"step": 640
},
{
"epoch": 0.428,
"grad_norm": 4.8125,
"learning_rate": 4.656463571017159e-06,
"loss": 1.4670131206512451,
"step": 642
},
{
"epoch": 0.42933333333333334,
"grad_norm": 12.875,
"learning_rate": 4.654039775541279e-06,
"loss": 1.5779855251312256,
"step": 644
},
{
"epoch": 0.43066666666666664,
"grad_norm": 5.09375,
"learning_rate": 4.651608268908513e-06,
"loss": 1.165670394897461,
"step": 646
},
{
"epoch": 0.432,
"grad_norm": 4.03125,
"learning_rate": 4.649169062454581e-06,
"loss": 1.5870051383972168,
"step": 648
},
{
"epoch": 0.43333333333333335,
"grad_norm": 14.5,
"learning_rate": 4.646722167551095e-06,
"loss": 2.0407092571258545,
"step": 650
},
{
"epoch": 0.43466666666666665,
"grad_norm": 6.875,
"learning_rate": 4.644267595605518e-06,
"loss": 1.6178638935089111,
"step": 652
},
{
"epoch": 0.436,
"grad_norm": 6.0625,
"learning_rate": 4.6418053580610934e-06,
"loss": 1.6280204057693481,
"step": 654
},
{
"epoch": 0.43733333333333335,
"grad_norm": 101.5,
"learning_rate": 4.639335466396812e-06,
"loss": 1.7070868015289307,
"step": 656
},
{
"epoch": 0.43866666666666665,
"grad_norm": 8.75,
"learning_rate": 4.636857932127344e-06,
"loss": 1.6747055053710938,
"step": 658
},
{
"epoch": 0.44,
"grad_norm": 9.0,
"learning_rate": 4.634372766802986e-06,
"loss": 1.4893217086791992,
"step": 660
},
{
"epoch": 0.44133333333333336,
"grad_norm": 12.0,
"learning_rate": 4.631879982009617e-06,
"loss": 1.6209745407104492,
"step": 662
},
{
"epoch": 0.44266666666666665,
"grad_norm": 2.1875,
"learning_rate": 4.6293795893686335e-06,
"loss": 1.1486353874206543,
"step": 664
},
{
"epoch": 0.444,
"grad_norm": 5.625,
"learning_rate": 4.626871600536901e-06,
"loss": 1.9780635833740234,
"step": 666
},
{
"epoch": 0.44533333333333336,
"grad_norm": 4.4375,
"learning_rate": 4.6243560272067014e-06,
"loss": 1.5998198986053467,
"step": 668
},
{
"epoch": 0.44666666666666666,
"grad_norm": 1.21875,
"learning_rate": 4.6218328811056704e-06,
"loss": 1.1909828186035156,
"step": 670
},
{
"epoch": 0.448,
"grad_norm": 4.75,
"learning_rate": 4.619302173996753e-06,
"loss": 1.4504064321517944,
"step": 672
},
{
"epoch": 0.4493333333333333,
"grad_norm": 5.4375,
"learning_rate": 4.6167639176781395e-06,
"loss": 1.688302993774414,
"step": 674
},
{
"epoch": 0.45066666666666666,
"grad_norm": 6.875,
"learning_rate": 4.614218123983219e-06,
"loss": 1.7892383337020874,
"step": 676
},
{
"epoch": 0.452,
"grad_norm": 2.0625,
"learning_rate": 4.611664804780517e-06,
"loss": 1.0726022720336914,
"step": 678
},
{
"epoch": 0.4533333333333333,
"grad_norm": 7.96875,
"learning_rate": 4.609103971973644e-06,
"loss": 1.877305030822754,
"step": 680
},
{
"epoch": 0.45466666666666666,
"grad_norm": 5.78125,
"learning_rate": 4.606535637501238e-06,
"loss": 1.6311051845550537,
"step": 682
},
{
"epoch": 0.456,
"grad_norm": 5.125,
"learning_rate": 4.603959813336911e-06,
"loss": 1.6753770112991333,
"step": 684
},
{
"epoch": 0.4573333333333333,
"grad_norm": 5.09375,
"learning_rate": 4.601376511489193e-06,
"loss": 1.477659821510315,
"step": 686
},
{
"epoch": 0.45866666666666667,
"grad_norm": 5.125,
"learning_rate": 4.598785744001473e-06,
"loss": 1.5649811029434204,
"step": 688
},
{
"epoch": 0.46,
"grad_norm": 4.03125,
"learning_rate": 4.596187522951945e-06,
"loss": 1.5314197540283203,
"step": 690
},
{
"epoch": 0.4613333333333333,
"grad_norm": 29.0,
"learning_rate": 4.593581860453553e-06,
"loss": 1.951949119567871,
"step": 692
},
{
"epoch": 0.46266666666666667,
"grad_norm": 7.34375,
"learning_rate": 4.590968768653933e-06,
"loss": 1.8065054416656494,
"step": 694
},
{
"epoch": 0.464,
"grad_norm": 86.5,
"learning_rate": 4.5883482597353555e-06,
"loss": 1.4217579364776611,
"step": 696
},
{
"epoch": 0.4653333333333333,
"grad_norm": 48.25,
"learning_rate": 4.585720345914671e-06,
"loss": 1.402038335800171,
"step": 698
},
{
"epoch": 0.4666666666666667,
"grad_norm": 3.515625,
"learning_rate": 4.583085039443249e-06,
"loss": 1.546642780303955,
"step": 700
},
{
"epoch": 0.468,
"grad_norm": 6.96875,
"learning_rate": 4.580442352606928e-06,
"loss": 1.8113808631896973,
"step": 702
},
{
"epoch": 0.4693333333333333,
"grad_norm": 3.234375,
"learning_rate": 4.57779229772595e-06,
"loss": 1.235628366470337,
"step": 704
},
{
"epoch": 0.4706666666666667,
"grad_norm": 4.65625,
"learning_rate": 4.575134887154909e-06,
"loss": 1.591590166091919,
"step": 706
},
{
"epoch": 0.472,
"grad_norm": 6.125,
"learning_rate": 4.572470133282691e-06,
"loss": 1.5594894886016846,
"step": 708
},
{
"epoch": 0.47333333333333333,
"grad_norm": 5.4375,
"learning_rate": 4.569798048532416e-06,
"loss": 1.6119413375854492,
"step": 710
},
{
"epoch": 0.4746666666666667,
"grad_norm": 16.75,
"learning_rate": 4.56711864536138e-06,
"loss": 2.1140735149383545,
"step": 712
},
{
"epoch": 0.476,
"grad_norm": 3.328125,
"learning_rate": 4.564431936261001e-06,
"loss": 1.0822668075561523,
"step": 714
},
{
"epoch": 0.47733333333333333,
"grad_norm": 9.6875,
"learning_rate": 4.561737933756752e-06,
"loss": 1.572784185409546,
"step": 716
},
{
"epoch": 0.4786666666666667,
"grad_norm": 4.0625,
"learning_rate": 4.559036650408114e-06,
"loss": 1.5953166484832764,
"step": 718
},
{
"epoch": 0.48,
"grad_norm": 4.4375,
"learning_rate": 4.556328098808506e-06,
"loss": 1.5809223651885986,
"step": 720
},
{
"epoch": 0.48133333333333334,
"grad_norm": 4.9375,
"learning_rate": 4.553612291585234e-06,
"loss": 1.7776161432266235,
"step": 722
},
{
"epoch": 0.4826666666666667,
"grad_norm": 2.71875,
"learning_rate": 4.550889241399431e-06,
"loss": 1.1778576374053955,
"step": 724
},
{
"epoch": 0.484,
"grad_norm": 16.375,
"learning_rate": 4.5481589609459945e-06,
"loss": 1.919342041015625,
"step": 726
},
{
"epoch": 0.48533333333333334,
"grad_norm": 4.03125,
"learning_rate": 4.545421462953531e-06,
"loss": 1.5503928661346436,
"step": 728
},
{
"epoch": 0.4866666666666667,
"grad_norm": 6.96875,
"learning_rate": 4.542676760184296e-06,
"loss": 2.023519992828369,
"step": 730
},
{
"epoch": 0.488,
"grad_norm": 4.40625,
"learning_rate": 4.539924865434131e-06,
"loss": 1.6147465705871582,
"step": 732
},
{
"epoch": 0.48933333333333334,
"grad_norm": 5.4375,
"learning_rate": 4.53716579153241e-06,
"loss": 1.701406717300415,
"step": 734
},
{
"epoch": 0.49066666666666664,
"grad_norm": 6.03125,
"learning_rate": 4.5343995513419725e-06,
"loss": 1.9945590496063232,
"step": 736
},
{
"epoch": 0.492,
"grad_norm": 3.046875,
"learning_rate": 4.531626157759072e-06,
"loss": 1.1337153911590576,
"step": 738
},
{
"epoch": 0.49333333333333335,
"grad_norm": 1.734375,
"learning_rate": 4.528845623713307e-06,
"loss": 1.0001354217529297,
"step": 740
},
{
"epoch": 0.49466666666666664,
"grad_norm": 7.46875,
"learning_rate": 4.526057962167567e-06,
"loss": 1.6229677200317383,
"step": 742
},
{
"epoch": 0.496,
"grad_norm": 45.75,
"learning_rate": 4.52326318611797e-06,
"loss": 1.9723401069641113,
"step": 744
},
{
"epoch": 0.49733333333333335,
"grad_norm": 2.453125,
"learning_rate": 4.520461308593801e-06,
"loss": 1.0949461460113525,
"step": 746
},
{
"epoch": 0.49866666666666665,
"grad_norm": 1.765625,
"learning_rate": 4.5176523426574535e-06,
"loss": 1.124253273010254,
"step": 748
},
{
"epoch": 0.5,
"grad_norm": 5.03125,
"learning_rate": 4.514836301404367e-06,
"loss": 1.6151834726333618,
"step": 750
},
{
"epoch": 0.5013333333333333,
"grad_norm": 11.75,
"learning_rate": 4.5120131979629635e-06,
"loss": 1.9495484828948975,
"step": 752
},
{
"epoch": 0.5026666666666667,
"grad_norm": 3.515625,
"learning_rate": 4.509183045494593e-06,
"loss": 1.092561960220337,
"step": 754
},
{
"epoch": 0.504,
"grad_norm": 10.875,
"learning_rate": 4.506345857193467e-06,
"loss": 2.0824429988861084,
"step": 756
},
{
"epoch": 0.5053333333333333,
"grad_norm": 12.3125,
"learning_rate": 4.503501646286596e-06,
"loss": 1.9892358779907227,
"step": 758
},
{
"epoch": 0.5066666666666667,
"grad_norm": 2.890625,
"learning_rate": 4.500650426033732e-06,
"loss": 1.1249581575393677,
"step": 760
},
{
"epoch": 0.508,
"grad_norm": 8.3125,
"learning_rate": 4.497792209727304e-06,
"loss": 2.0044803619384766,
"step": 762
},
{
"epoch": 0.5093333333333333,
"grad_norm": 3.234375,
"learning_rate": 4.494927010692358e-06,
"loss": 1.162718415260315,
"step": 764
},
{
"epoch": 0.5106666666666667,
"grad_norm": 10.0625,
"learning_rate": 4.492054842286493e-06,
"loss": 1.6656391620635986,
"step": 766
},
{
"epoch": 0.512,
"grad_norm": 3.765625,
"learning_rate": 4.489175717899796e-06,
"loss": 1.6391451358795166,
"step": 768
},
{
"epoch": 0.5133333333333333,
"grad_norm": 5.28125,
"learning_rate": 4.486289650954789e-06,
"loss": 1.5884838104248047,
"step": 770
},
{
"epoch": 0.5146666666666667,
"grad_norm": 1.2890625,
"learning_rate": 4.483396654906356e-06,
"loss": 0.9799174070358276,
"step": 772
},
{
"epoch": 0.516,
"grad_norm": 1.703125,
"learning_rate": 4.480496743241683e-06,
"loss": 1.0725151300430298,
"step": 774
},
{
"epoch": 0.5173333333333333,
"grad_norm": 17.375,
"learning_rate": 4.477589929480203e-06,
"loss": 2.1492419242858887,
"step": 776
},
{
"epoch": 0.5186666666666667,
"grad_norm": 5.8125,
"learning_rate": 4.4746762271735214e-06,
"loss": 1.7624104022979736,
"step": 778
},
{
"epoch": 0.52,
"grad_norm": 16.625,
"learning_rate": 4.4717556499053584e-06,
"loss": 2.1565475463867188,
"step": 780
},
{
"epoch": 0.5213333333333333,
"grad_norm": 3.234375,
"learning_rate": 4.46882821129149e-06,
"loss": 1.2971224784851074,
"step": 782
},
{
"epoch": 0.5226666666666666,
"grad_norm": 4.90625,
"learning_rate": 4.465893924979673e-06,
"loss": 1.0319178104400635,
"step": 784
},
{
"epoch": 0.524,
"grad_norm": 8.125,
"learning_rate": 4.462952804649593e-06,
"loss": 1.9379088878631592,
"step": 786
},
{
"epoch": 0.5253333333333333,
"grad_norm": 5.6875,
"learning_rate": 4.460004864012796e-06,
"loss": 1.6146807670593262,
"step": 788
},
{
"epoch": 0.5266666666666666,
"grad_norm": 2.296875,
"learning_rate": 4.4570501168126205e-06,
"loss": 0.9778133630752563,
"step": 790
},
{
"epoch": 0.528,
"grad_norm": 1.640625,
"learning_rate": 4.454088576824143e-06,
"loss": 1.121327519416809,
"step": 792
},
{
"epoch": 0.5293333333333333,
"grad_norm": 5.90625,
"learning_rate": 4.451120257854101e-06,
"loss": 1.7932809591293335,
"step": 794
},
{
"epoch": 0.5306666666666666,
"grad_norm": 11.0625,
"learning_rate": 4.448145173740844e-06,
"loss": 1.5648019313812256,
"step": 796
},
{
"epoch": 0.532,
"grad_norm": 1.5234375,
"learning_rate": 4.445163338354253e-06,
"loss": 1.1240180730819702,
"step": 798
},
{
"epoch": 0.5333333333333333,
"grad_norm": 1.875,
"learning_rate": 4.442174765595688e-06,
"loss": 1.1813502311706543,
"step": 800
},
{
"epoch": 0.5346666666666666,
"grad_norm": 13.4375,
"learning_rate": 4.439179469397918e-06,
"loss": 1.7995562553405762,
"step": 802
},
{
"epoch": 0.536,
"grad_norm": 3.328125,
"learning_rate": 4.436177463725057e-06,
"loss": 1.1335866451263428,
"step": 804
},
{
"epoch": 0.5373333333333333,
"grad_norm": 11.3125,
"learning_rate": 4.433168762572495e-06,
"loss": 2.0559403896331787,
"step": 806
},
{
"epoch": 0.5386666666666666,
"grad_norm": 1.8046875,
"learning_rate": 4.4301533799668414e-06,
"loss": 1.1813790798187256,
"step": 808
},
{
"epoch": 0.54,
"grad_norm": 6.21875,
"learning_rate": 4.427131329965854e-06,
"loss": 1.7660613059997559,
"step": 810
},
{
"epoch": 0.5413333333333333,
"grad_norm": 10.6875,
"learning_rate": 4.4241026266583705e-06,
"loss": 1.9616385698318481,
"step": 812
},
{
"epoch": 0.5426666666666666,
"grad_norm": 6.25,
"learning_rate": 4.42106728416425e-06,
"loss": 1.9410457611083984,
"step": 814
},
{
"epoch": 0.544,
"grad_norm": 6.03125,
"learning_rate": 4.418025316634301e-06,
"loss": 1.6492912769317627,
"step": 816
},
{
"epoch": 0.5453333333333333,
"grad_norm": 6.1875,
"learning_rate": 4.4149767382502205e-06,
"loss": 1.769735336303711,
"step": 818
},
{
"epoch": 0.5466666666666666,
"grad_norm": 33.5,
"learning_rate": 4.4119215632245235e-06,
"loss": 1.4241745471954346,
"step": 820
},
{
"epoch": 0.548,
"grad_norm": 6.3125,
"learning_rate": 4.408859805800481e-06,
"loss": 1.6003971099853516,
"step": 822
},
{
"epoch": 0.5493333333333333,
"grad_norm": 8.5625,
"learning_rate": 4.405791480252046e-06,
"loss": 1.998405933380127,
"step": 824
},
{
"epoch": 0.5506666666666666,
"grad_norm": 21.25,
"learning_rate": 4.4027166008837996e-06,
"loss": 2.0935518741607666,
"step": 826
},
{
"epoch": 0.552,
"grad_norm": 5.71875,
"learning_rate": 4.399635182030869e-06,
"loss": 1.7479844093322754,
"step": 828
},
{
"epoch": 0.5533333333333333,
"grad_norm": 5.09375,
"learning_rate": 4.396547238058876e-06,
"loss": 1.6909379959106445,
"step": 830
},
{
"epoch": 0.5546666666666666,
"grad_norm": 7.5,
"learning_rate": 4.393452783363857e-06,
"loss": 1.9220030307769775,
"step": 832
},
{
"epoch": 0.556,
"grad_norm": 13.375,
"learning_rate": 4.390351832372206e-06,
"loss": 1.959233045578003,
"step": 834
},
{
"epoch": 0.5573333333333333,
"grad_norm": 6.78125,
"learning_rate": 4.387244399540599e-06,
"loss": 1.5985342264175415,
"step": 836
},
{
"epoch": 0.5586666666666666,
"grad_norm": 3.359375,
"learning_rate": 4.384130499355931e-06,
"loss": 1.2405080795288086,
"step": 838
},
{
"epoch": 0.56,
"grad_norm": 33.5,
"learning_rate": 4.381010146335249e-06,
"loss": 1.2756681442260742,
"step": 840
},
{
"epoch": 0.5613333333333334,
"grad_norm": 72.5,
"learning_rate": 4.377883355025686e-06,
"loss": 1.2579646110534668,
"step": 842
},
{
"epoch": 0.5626666666666666,
"grad_norm": 16.625,
"learning_rate": 4.374750140004383e-06,
"loss": 1.0350561141967773,
"step": 844
},
{
"epoch": 0.564,
"grad_norm": 4.78125,
"learning_rate": 4.371610515878436e-06,
"loss": 1.5376999378204346,
"step": 846
},
{
"epoch": 0.5653333333333334,
"grad_norm": 4.71875,
"learning_rate": 4.3684644972848166e-06,
"loss": 1.540494680404663,
"step": 848
},
{
"epoch": 0.5666666666666667,
"grad_norm": 3.84375,
"learning_rate": 4.365312098890308e-06,
"loss": 1.5681653022766113,
"step": 850
},
{
"epoch": 0.568,
"grad_norm": 7.71875,
"learning_rate": 4.362153335391436e-06,
"loss": 2.0566165447235107,
"step": 852
},
{
"epoch": 0.5693333333333334,
"grad_norm": 1.421875,
"learning_rate": 4.358988221514399e-06,
"loss": 1.065299391746521,
"step": 854
},
{
"epoch": 0.5706666666666667,
"grad_norm": 8.0625,
"learning_rate": 4.355816772015007e-06,
"loss": 1.5944557189941406,
"step": 856
},
{
"epoch": 0.572,
"grad_norm": 9.5,
"learning_rate": 4.352639001678599e-06,
"loss": 1.5592529773712158,
"step": 858
},
{
"epoch": 0.5733333333333334,
"grad_norm": 4.25,
"learning_rate": 4.349454925319986e-06,
"loss": 1.6201512813568115,
"step": 860
},
{
"epoch": 0.5746666666666667,
"grad_norm": 6.9375,
"learning_rate": 4.346264557783379e-06,
"loss": 1.5860223770141602,
"step": 862
},
{
"epoch": 0.576,
"grad_norm": 5.34375,
"learning_rate": 4.343067913942314e-06,
"loss": 1.6586430072784424,
"step": 864
},
{
"epoch": 0.5773333333333334,
"grad_norm": 7.71875,
"learning_rate": 4.339865008699592e-06,
"loss": 1.4852830171585083,
"step": 866
},
{
"epoch": 0.5786666666666667,
"grad_norm": 3.90625,
"learning_rate": 4.336655856987201e-06,
"loss": 1.5025522708892822,
"step": 868
},
{
"epoch": 0.58,
"grad_norm": 8.875,
"learning_rate": 4.333440473766253e-06,
"loss": 1.8594863414764404,
"step": 870
},
{
"epoch": 0.5813333333333334,
"grad_norm": 3.828125,
"learning_rate": 4.33021887402691e-06,
"loss": 1.5938358306884766,
"step": 872
},
{
"epoch": 0.5826666666666667,
"grad_norm": 7.4375,
"learning_rate": 4.326991072788315e-06,
"loss": 1.713855266571045,
"step": 874
},
{
"epoch": 0.584,
"grad_norm": 2.890625,
"learning_rate": 4.323757085098524e-06,
"loss": 0.9895963668823242,
"step": 876
},
{
"epoch": 0.5853333333333334,
"grad_norm": 6.09375,
"learning_rate": 4.320516926034434e-06,
"loss": 1.524658203125,
"step": 878
},
{
"epoch": 0.5866666666666667,
"grad_norm": 10.0625,
"learning_rate": 4.31727061070171e-06,
"loss": 1.939576268196106,
"step": 880
},
{
"epoch": 0.588,
"grad_norm": 8.125,
"learning_rate": 4.314018154234722e-06,
"loss": 1.504568338394165,
"step": 882
},
{
"epoch": 0.5893333333333334,
"grad_norm": 13.25,
"learning_rate": 4.310759571796469e-06,
"loss": 1.8733505010604858,
"step": 884
},
{
"epoch": 0.5906666666666667,
"grad_norm": 8.9375,
"learning_rate": 4.307494878578505e-06,
"loss": 2.1683549880981445,
"step": 886
},
{
"epoch": 0.592,
"grad_norm": 3.34375,
"learning_rate": 4.3042240898008805e-06,
"loss": 1.0660171508789062,
"step": 888
},
{
"epoch": 0.5933333333333334,
"grad_norm": 4.875,
"learning_rate": 4.300947220712056e-06,
"loss": 1.6291861534118652,
"step": 890
},
{
"epoch": 0.5946666666666667,
"grad_norm": 6.8125,
"learning_rate": 4.297664286588844e-06,
"loss": 1.6542470455169678,
"step": 892
},
{
"epoch": 0.596,
"grad_norm": 5.53125,
"learning_rate": 4.294375302736328e-06,
"loss": 1.5474224090576172,
"step": 894
},
{
"epoch": 0.5973333333333334,
"grad_norm": 8.25,
"learning_rate": 4.291080284487797e-06,
"loss": 1.8157379627227783,
"step": 896
},
{
"epoch": 0.5986666666666667,
"grad_norm": 4.28125,
"learning_rate": 4.287779247204675e-06,
"loss": 1.239814281463623,
"step": 898
},
{
"epoch": 0.6,
"grad_norm": 6.21875,
"learning_rate": 4.284472206276443e-06,
"loss": 1.558706283569336,
"step": 900
},
{
"epoch": 0.6013333333333334,
"grad_norm": 8.625,
"learning_rate": 4.281159177120574e-06,
"loss": 2.167874336242676,
"step": 902
},
{
"epoch": 0.6026666666666667,
"grad_norm": 3.171875,
"learning_rate": 4.2778401751824565e-06,
"loss": 1.0401667356491089,
"step": 904
},
{
"epoch": 0.604,
"grad_norm": 32.25,
"learning_rate": 4.274515215935322e-06,
"loss": 1.2682547569274902,
"step": 906
},
{
"epoch": 0.6053333333333333,
"grad_norm": 3.578125,
"learning_rate": 4.271184314880181e-06,
"loss": 1.533789873123169,
"step": 908
},
{
"epoch": 0.6066666666666667,
"grad_norm": 3.9375,
"learning_rate": 4.267847487545741e-06,
"loss": 1.5725165605545044,
"step": 910
},
{
"epoch": 0.608,
"grad_norm": 4.875,
"learning_rate": 4.264504749488336e-06,
"loss": 1.630423665046692,
"step": 912
},
{
"epoch": 0.6093333333333333,
"grad_norm": 4.28125,
"learning_rate": 4.261156116291862e-06,
"loss": 1.0812149047851562,
"step": 914
},
{
"epoch": 0.6106666666666667,
"grad_norm": 4.3125,
"learning_rate": 4.257801603567689e-06,
"loss": 1.5762662887573242,
"step": 916
},
{
"epoch": 0.612,
"grad_norm": 7.25,
"learning_rate": 4.254441226954608e-06,
"loss": 1.642853021621704,
"step": 918
},
{
"epoch": 0.6133333333333333,
"grad_norm": 8.4375,
"learning_rate": 4.251075002118741e-06,
"loss": 1.8817405700683594,
"step": 920
},
{
"epoch": 0.6146666666666667,
"grad_norm": 8.625,
"learning_rate": 4.2477029447534744e-06,
"loss": 1.8150745630264282,
"step": 922
},
{
"epoch": 0.616,
"grad_norm": 4.46875,
"learning_rate": 4.244325070579391e-06,
"loss": 1.6018476486206055,
"step": 924
},
{
"epoch": 0.6173333333333333,
"grad_norm": 11.75,
"learning_rate": 4.240941395344182e-06,
"loss": 1.8347196578979492,
"step": 926
},
{
"epoch": 0.6186666666666667,
"grad_norm": 9.6875,
"learning_rate": 4.2375519348225946e-06,
"loss": 1.8900158405303955,
"step": 928
},
{
"epoch": 0.62,
"grad_norm": 4.75,
"learning_rate": 4.23415670481634e-06,
"loss": 1.5854055881500244,
"step": 930
},
{
"epoch": 0.6213333333333333,
"grad_norm": 15.75,
"learning_rate": 4.2307557211540296e-06,
"loss": 2.090912342071533,
"step": 932
},
{
"epoch": 0.6226666666666667,
"grad_norm": 5.125,
"learning_rate": 4.227348999691096e-06,
"loss": 1.1517055034637451,
"step": 934
},
{
"epoch": 0.624,
"grad_norm": 22.5,
"learning_rate": 4.223936556309723e-06,
"loss": 1.033469796180725,
"step": 936
},
{
"epoch": 0.6253333333333333,
"grad_norm": 5.125,
"learning_rate": 4.220518406918771e-06,
"loss": 1.536806344985962,
"step": 938
},
{
"epoch": 0.6266666666666667,
"grad_norm": 9.1875,
"learning_rate": 4.2170945674537015e-06,
"loss": 2.028916835784912,
"step": 940
},
{
"epoch": 0.628,
"grad_norm": 7.0,
"learning_rate": 4.2136650538765e-06,
"loss": 1.6300554275512695,
"step": 942
},
{
"epoch": 0.6293333333333333,
"grad_norm": 6.71875,
"learning_rate": 4.210229882175611e-06,
"loss": 1.740851640701294,
"step": 944
},
{
"epoch": 0.6306666666666667,
"grad_norm": 4.90625,
"learning_rate": 4.2067890683658495e-06,
"loss": 1.5381369590759277,
"step": 946
},
{
"epoch": 0.632,
"grad_norm": 4.84375,
"learning_rate": 4.203342628488342e-06,
"loss": 1.6090049743652344,
"step": 948
},
{
"epoch": 0.6333333333333333,
"grad_norm": 2.703125,
"learning_rate": 4.1998905786104386e-06,
"loss": 1.1410777568817139,
"step": 950
},
{
"epoch": 0.6346666666666667,
"grad_norm": 1.90625,
"learning_rate": 4.196432934825644e-06,
"loss": 1.1576334238052368,
"step": 952
},
{
"epoch": 0.636,
"grad_norm": 8.8125,
"learning_rate": 4.192969713253544e-06,
"loss": 1.8281700611114502,
"step": 954
},
{
"epoch": 0.6373333333333333,
"grad_norm": 1.8203125,
"learning_rate": 4.189500930039726e-06,
"loss": 1.1463249921798706,
"step": 956
},
{
"epoch": 0.6386666666666667,
"grad_norm": 11.375,
"learning_rate": 4.186026601355706e-06,
"loss": 1.3184925317764282,
"step": 958
},
{
"epoch": 0.64,
"grad_norm": 2.375,
"learning_rate": 4.182546743398855e-06,
"loss": 1.1309475898742676,
"step": 960
},
{
"epoch": 0.6413333333333333,
"grad_norm": 6.28125,
"learning_rate": 4.179061372392319e-06,
"loss": 2.0938892364501953,
"step": 962
},
{
"epoch": 0.6426666666666667,
"grad_norm": 5.125,
"learning_rate": 4.1755705045849474e-06,
"loss": 1.8526628017425537,
"step": 964
},
{
"epoch": 0.644,
"grad_norm": 11.5625,
"learning_rate": 4.172074156251215e-06,
"loss": 1.9665130376815796,
"step": 966
},
{
"epoch": 0.6453333333333333,
"grad_norm": 7.65625,
"learning_rate": 4.168572343691147e-06,
"loss": 1.5805991888046265,
"step": 968
},
{
"epoch": 0.6466666666666666,
"grad_norm": 103.5,
"learning_rate": 4.165065083230245e-06,
"loss": 1.496896505355835,
"step": 970
},
{
"epoch": 0.648,
"grad_norm": 19.375,
"learning_rate": 4.161552391219406e-06,
"loss": 1.1086199283599854,
"step": 972
},
{
"epoch": 0.6493333333333333,
"grad_norm": 26.5,
"learning_rate": 4.158034284034849e-06,
"loss": 1.9410427808761597,
"step": 974
},
{
"epoch": 0.6506666666666666,
"grad_norm": 11.8125,
"learning_rate": 4.154510778078039e-06,
"loss": 1.9177557229995728,
"step": 976
},
{
"epoch": 0.652,
"grad_norm": 10.4375,
"learning_rate": 4.150981889775614e-06,
"loss": 1.9715896844863892,
"step": 978
},
{
"epoch": 0.6533333333333333,
"grad_norm": 18.25,
"learning_rate": 4.147447635579299e-06,
"loss": 1.1010019779205322,
"step": 980
},
{
"epoch": 0.6546666666666666,
"grad_norm": 4.34375,
"learning_rate": 4.143908031965837e-06,
"loss": 1.5735809803009033,
"step": 982
},
{
"epoch": 0.656,
"grad_norm": 2.140625,
"learning_rate": 4.140363095436912e-06,
"loss": 1.1293983459472656,
"step": 984
},
{
"epoch": 0.6573333333333333,
"grad_norm": 5.46875,
"learning_rate": 4.136812842519067e-06,
"loss": 1.9613256454467773,
"step": 986
},
{
"epoch": 0.6586666666666666,
"grad_norm": 2.421875,
"learning_rate": 4.13325728976363e-06,
"loss": 0.9995434880256653,
"step": 988
},
{
"epoch": 0.66,
"grad_norm": 4.65625,
"learning_rate": 4.129696453746642e-06,
"loss": 1.6232421398162842,
"step": 990
},
{
"epoch": 0.6613333333333333,
"grad_norm": 5.09375,
"learning_rate": 4.126130351068768e-06,
"loss": 1.6333463191986084,
"step": 992
},
{
"epoch": 0.6626666666666666,
"grad_norm": 9.0625,
"learning_rate": 4.122558998355229e-06,
"loss": 1.931457757949829,
"step": 994
},
{
"epoch": 0.664,
"grad_norm": 2.90625,
"learning_rate": 4.118982412255725e-06,
"loss": 1.1441792249679565,
"step": 996
},
{
"epoch": 0.6653333333333333,
"grad_norm": 6.375,
"learning_rate": 4.115400609444349e-06,
"loss": 1.8410940170288086,
"step": 998
},
{
"epoch": 0.6666666666666666,
"grad_norm": 13.25,
"learning_rate": 4.111813606619517e-06,
"loss": 1.7064735889434814,
"step": 1000
},
{
"epoch": 0.668,
"grad_norm": 21.5,
"learning_rate": 4.1082214205038864e-06,
"loss": 2.002370834350586,
"step": 1002
},
{
"epoch": 0.6693333333333333,
"grad_norm": 8.0625,
"learning_rate": 4.104624067844281e-06,
"loss": 1.1194469928741455,
"step": 1004
},
{
"epoch": 0.6706666666666666,
"grad_norm": 5.21875,
"learning_rate": 4.1010215654116084e-06,
"loss": 1.5584155321121216,
"step": 1006
},
{
"epoch": 0.672,
"grad_norm": 7.375,
"learning_rate": 4.0974139300007855e-06,
"loss": 1.5594654083251953,
"step": 1008
},
{
"epoch": 0.6733333333333333,
"grad_norm": 17.75,
"learning_rate": 4.093801178430663e-06,
"loss": 1.9932979345321655,
"step": 1010
},
{
"epoch": 0.6746666666666666,
"grad_norm": 7.75,
"learning_rate": 4.090183327543937e-06,
"loss": 1.4730606079101562,
"step": 1012
},
{
"epoch": 0.676,
"grad_norm": 24.375,
"learning_rate": 4.086560394207081e-06,
"loss": 2.038485050201416,
"step": 1014
},
{
"epoch": 0.6773333333333333,
"grad_norm": 9.0625,
"learning_rate": 4.082932395310261e-06,
"loss": 1.8734180927276611,
"step": 1016
},
{
"epoch": 0.6786666666666666,
"grad_norm": 9.0625,
"learning_rate": 4.07929934776726e-06,
"loss": 2.1227965354919434,
"step": 1018
},
{
"epoch": 0.68,
"grad_norm": 2.578125,
"learning_rate": 4.075661268515395e-06,
"loss": 1.21480393409729,
"step": 1020
},
{
"epoch": 0.6813333333333333,
"grad_norm": 9.625,
"learning_rate": 4.072018174515446e-06,
"loss": 1.6561039686203003,
"step": 1022
},
{
"epoch": 0.6826666666666666,
"grad_norm": 4.09375,
"learning_rate": 4.068370082751567e-06,
"loss": 1.6361010074615479,
"step": 1024
},
{
"epoch": 0.684,
"grad_norm": 1.8046875,
"learning_rate": 4.064717010231214e-06,
"loss": 1.1598769426345825,
"step": 1026
},
{
"epoch": 0.6853333333333333,
"grad_norm": 2.90625,
"learning_rate": 4.061058973985064e-06,
"loss": 1.2839393615722656,
"step": 1028
},
{
"epoch": 0.6866666666666666,
"grad_norm": 10.6875,
"learning_rate": 4.0573959910669316e-06,
"loss": 1.272928237915039,
"step": 1030
},
{
"epoch": 0.688,
"grad_norm": 3.96875,
"learning_rate": 4.0537280785536955e-06,
"loss": 1.5582289695739746,
"step": 1032
},
{
"epoch": 0.6893333333333334,
"grad_norm": 8.1875,
"learning_rate": 4.050055253545219e-06,
"loss": 1.6847953796386719,
"step": 1034
},
{
"epoch": 0.6906666666666667,
"grad_norm": 10.0625,
"learning_rate": 4.0463775331642605e-06,
"loss": 2.000561237335205,
"step": 1036
},
{
"epoch": 0.692,
"grad_norm": 4.34375,
"learning_rate": 4.042694934556407e-06,
"loss": 1.596095085144043,
"step": 1038
},
{
"epoch": 0.6933333333333334,
"grad_norm": 8.1875,
"learning_rate": 4.039007474889983e-06,
"loss": 1.8276232481002808,
"step": 1040
},
{
"epoch": 0.6946666666666667,
"grad_norm": 14.5625,
"learning_rate": 4.035315171355981e-06,
"loss": 1.7133440971374512,
"step": 1042
},
{
"epoch": 0.696,
"grad_norm": 4.5625,
"learning_rate": 4.031618041167969e-06,
"loss": 1.6173053979873657,
"step": 1044
},
{
"epoch": 0.6973333333333334,
"grad_norm": 29.625,
"learning_rate": 4.027916101562024e-06,
"loss": 0.8435451984405518,
"step": 1046
},
{
"epoch": 0.6986666666666667,
"grad_norm": 7.1875,
"learning_rate": 4.024209369796638e-06,
"loss": 1.728581428527832,
"step": 1048
},
{
"epoch": 0.7,
"grad_norm": 2.453125,
"learning_rate": 4.020497863152647e-06,
"loss": 1.4456583261489868,
"step": 1050
},
{
"epoch": 0.7013333333333334,
"grad_norm": 20.625,
"learning_rate": 4.0167815989331505e-06,
"loss": 1.5146148204803467,
"step": 1052
},
{
"epoch": 0.7026666666666667,
"grad_norm": 5.1875,
"learning_rate": 4.013060594463422e-06,
"loss": 1.0910983085632324,
"step": 1054
},
{
"epoch": 0.704,
"grad_norm": 4.53125,
"learning_rate": 4.009334867090839e-06,
"loss": 1.5269734859466553,
"step": 1056
},
{
"epoch": 0.7053333333333334,
"grad_norm": 8.375,
"learning_rate": 4.005604434184793e-06,
"loss": 2.0650410652160645,
"step": 1058
},
{
"epoch": 0.7066666666666667,
"grad_norm": 3.765625,
"learning_rate": 4.0018693131366185e-06,
"loss": 1.6046576499938965,
"step": 1060
},
{
"epoch": 0.708,
"grad_norm": 3.9375,
"learning_rate": 3.998129521359499e-06,
"loss": 1.0697150230407715,
"step": 1062
},
{
"epoch": 0.7093333333333334,
"grad_norm": 2.09375,
"learning_rate": 3.994385076288399e-06,
"loss": 1.048234224319458,
"step": 1064
},
{
"epoch": 0.7106666666666667,
"grad_norm": 2.578125,
"learning_rate": 3.990635995379975e-06,
"loss": 1.0379292964935303,
"step": 1066
},
{
"epoch": 0.712,
"grad_norm": 8.9375,
"learning_rate": 3.986882296112495e-06,
"loss": 2.008152961730957,
"step": 1068
},
{
"epoch": 0.7133333333333334,
"grad_norm": 4.21875,
"learning_rate": 3.983123995985757e-06,
"loss": 1.593372106552124,
"step": 1070
},
{
"epoch": 0.7146666666666667,
"grad_norm": 10.0,
"learning_rate": 3.979361112521011e-06,
"loss": 1.7745264768600464,
"step": 1072
},
{
"epoch": 0.716,
"grad_norm": 9.6875,
"learning_rate": 3.975593663260872e-06,
"loss": 1.8867788314819336,
"step": 1074
},
{
"epoch": 0.7173333333333334,
"grad_norm": 8.25,
"learning_rate": 3.971821665769241e-06,
"loss": 1.751440167427063,
"step": 1076
},
{
"epoch": 0.7186666666666667,
"grad_norm": 22.75,
"learning_rate": 3.968045137631226e-06,
"loss": 1.5239152908325195,
"step": 1078
},
{
"epoch": 0.72,
"grad_norm": 4.9375,
"learning_rate": 3.964264096453055e-06,
"loss": 1.5637166500091553,
"step": 1080
},
{
"epoch": 0.7213333333333334,
"grad_norm": 5.65625,
"learning_rate": 3.960478559861992e-06,
"loss": 1.5539973974227905,
"step": 1082
},
{
"epoch": 0.7226666666666667,
"grad_norm": 31.25,
"learning_rate": 3.956688545506266e-06,
"loss": 2.123660087585449,
"step": 1084
},
{
"epoch": 0.724,
"grad_norm": 6.625,
"learning_rate": 3.952894071054976e-06,
"loss": 1.5803725719451904,
"step": 1086
},
{
"epoch": 0.7253333333333334,
"grad_norm": 4.15625,
"learning_rate": 3.949095154198015e-06,
"loss": 1.592582106590271,
"step": 1088
},
{
"epoch": 0.7266666666666667,
"grad_norm": 4.9375,
"learning_rate": 3.945291812645989e-06,
"loss": 1.5624558925628662,
"step": 1090
},
{
"epoch": 0.728,
"grad_norm": 31.5,
"learning_rate": 3.941484064130129e-06,
"loss": 0.7563271522521973,
"step": 1092
},
{
"epoch": 0.7293333333333333,
"grad_norm": 2.25,
"learning_rate": 3.937671926402213e-06,
"loss": 1.1665401458740234,
"step": 1094
},
{
"epoch": 0.7306666666666667,
"grad_norm": 6.40625,
"learning_rate": 3.933855417234481e-06,
"loss": 1.601196527481079,
"step": 1096
},
{
"epoch": 0.732,
"grad_norm": 4.59375,
"learning_rate": 3.930034554419554e-06,
"loss": 1.6145453453063965,
"step": 1098
},
{
"epoch": 0.7333333333333333,
"grad_norm": 1.453125,
"learning_rate": 3.926209355770348e-06,
"loss": 1.085764765739441,
"step": 1100
},
{
"epoch": 0.7346666666666667,
"grad_norm": 5.1875,
"learning_rate": 3.922379839119991e-06,
"loss": 1.493807077407837,
"step": 1102
},
{
"epoch": 0.736,
"grad_norm": 11.5625,
"learning_rate": 3.9185460223217464e-06,
"loss": 1.9608560800552368,
"step": 1104
},
{
"epoch": 0.7373333333333333,
"grad_norm": 2.640625,
"learning_rate": 3.914707923248923e-06,
"loss": 1.1575837135314941,
"step": 1106
},
{
"epoch": 0.7386666666666667,
"grad_norm": 4.78125,
"learning_rate": 3.910865559794791e-06,
"loss": 1.6585121154785156,
"step": 1108
},
{
"epoch": 0.74,
"grad_norm": 5.625,
"learning_rate": 3.907018949872504e-06,
"loss": 1.608562707901001,
"step": 1110
},
{
"epoch": 0.7413333333333333,
"grad_norm": 1.90625,
"learning_rate": 3.903168111415013e-06,
"loss": 1.0436785221099854,
"step": 1112
},
{
"epoch": 0.7426666666666667,
"grad_norm": 5.09375,
"learning_rate": 3.899313062374981e-06,
"loss": 1.571044921875,
"step": 1114
},
{
"epoch": 0.744,
"grad_norm": 4.75,
"learning_rate": 3.895453820724699e-06,
"loss": 1.6325924396514893,
"step": 1116
},
{
"epoch": 0.7453333333333333,
"grad_norm": 7.1875,
"learning_rate": 3.891590404456011e-06,
"loss": 1.6957452297210693,
"step": 1118
},
{
"epoch": 0.7466666666666667,
"grad_norm": 4.8125,
"learning_rate": 3.8877228315802154e-06,
"loss": 1.0871795415878296,
"step": 1120
},
{
"epoch": 0.748,
"grad_norm": 2.234375,
"learning_rate": 3.883851120127991e-06,
"loss": 1.1415892839431763,
"step": 1122
},
{
"epoch": 0.7493333333333333,
"grad_norm": 6.46875,
"learning_rate": 3.879975288149313e-06,
"loss": 1.5673210620880127,
"step": 1124
},
{
"epoch": 0.7506666666666667,
"grad_norm": 3.0,
"learning_rate": 3.876095353713365e-06,
"loss": 1.2196298837661743,
"step": 1126
},
{
"epoch": 0.752,
"grad_norm": 5.03125,
"learning_rate": 3.872211334908457e-06,
"loss": 1.531401515007019,
"step": 1128
},
{
"epoch": 0.7533333333333333,
"grad_norm": 2.921875,
"learning_rate": 3.868323249841938e-06,
"loss": 1.157065749168396,
"step": 1130
},
{
"epoch": 0.7546666666666667,
"grad_norm": 7.375,
"learning_rate": 3.864431116640116e-06,
"loss": 1.9410104751586914,
"step": 1132
},
{
"epoch": 0.756,
"grad_norm": 1.8046875,
"learning_rate": 3.860534953448172e-06,
"loss": 1.1366026401519775,
"step": 1134
},
{
"epoch": 0.7573333333333333,
"grad_norm": 6.59375,
"learning_rate": 3.8566347784300736e-06,
"loss": 1.7256261110305786,
"step": 1136
},
{
"epoch": 0.7586666666666667,
"grad_norm": 10.25,
"learning_rate": 3.852730609768493e-06,
"loss": 1.6122360229492188,
"step": 1138
},
{
"epoch": 0.76,
"grad_norm": 5.4375,
"learning_rate": 3.8488224656647175e-06,
"loss": 1.6505470275878906,
"step": 1140
},
{
"epoch": 0.7613333333333333,
"grad_norm": 4.1875,
"learning_rate": 3.844910364338574e-06,
"loss": 1.6339609622955322,
"step": 1142
},
{
"epoch": 0.7626666666666667,
"grad_norm": 1.6796875,
"learning_rate": 3.84099432402833e-06,
"loss": 1.1175481081008911,
"step": 1144
},
{
"epoch": 0.764,
"grad_norm": 9.9375,
"learning_rate": 3.837074362990624e-06,
"loss": 2.268331527709961,
"step": 1146
},
{
"epoch": 0.7653333333333333,
"grad_norm": 14.125,
"learning_rate": 3.833150499500369e-06,
"loss": 1.9729036092758179,
"step": 1148
},
{
"epoch": 0.7666666666666667,
"grad_norm": 1.796875,
"learning_rate": 3.829222751850673e-06,
"loss": 1.1577950716018677,
"step": 1150
},
{
"epoch": 0.768,
"grad_norm": 9.875,
"learning_rate": 3.8252911383527505e-06,
"loss": 2.0585074424743652,
"step": 1152
},
{
"epoch": 0.7693333333333333,
"grad_norm": 4.46875,
"learning_rate": 3.821355677335839e-06,
"loss": 1.5769875049591064,
"step": 1154
},
{
"epoch": 0.7706666666666667,
"grad_norm": 8.0625,
"learning_rate": 3.817416387147114e-06,
"loss": 1.9496655464172363,
"step": 1156
},
{
"epoch": 0.772,
"grad_norm": 6.21875,
"learning_rate": 3.813473286151601e-06,
"loss": 1.529472827911377,
"step": 1158
},
{
"epoch": 0.7733333333333333,
"grad_norm": 5.9375,
"learning_rate": 3.8095263927320945e-06,
"loss": 1.6636042594909668,
"step": 1160
},
{
"epoch": 0.7746666666666666,
"grad_norm": 6.78125,
"learning_rate": 3.8055757252890677e-06,
"loss": 1.729430913925171,
"step": 1162
},
{
"epoch": 0.776,
"grad_norm": 14.125,
"learning_rate": 3.801621302240588e-06,
"loss": 1.8068076372146606,
"step": 1164
},
{
"epoch": 0.7773333333333333,
"grad_norm": 10.25,
"learning_rate": 3.797663142022231e-06,
"loss": 2.0321993827819824,
"step": 1166
},
{
"epoch": 0.7786666666666666,
"grad_norm": 7.09375,
"learning_rate": 3.793701263086995e-06,
"loss": 1.7701747417449951,
"step": 1168
},
{
"epoch": 0.78,
"grad_norm": 9.25,
"learning_rate": 3.789735683905218e-06,
"loss": 1.120033621788025,
"step": 1170
},
{
"epoch": 0.7813333333333333,
"grad_norm": 4.40625,
"learning_rate": 3.785766422964484e-06,
"loss": 1.5124024152755737,
"step": 1172
},
{
"epoch": 0.7826666666666666,
"grad_norm": 2.703125,
"learning_rate": 3.781793498769546e-06,
"loss": 1.2949274778366089,
"step": 1174
},
{
"epoch": 0.784,
"grad_norm": 7.03125,
"learning_rate": 3.777816929842232e-06,
"loss": 1.6004828214645386,
"step": 1176
},
{
"epoch": 0.7853333333333333,
"grad_norm": 7.0,
"learning_rate": 3.7738367347213623e-06,
"loss": 1.5260186195373535,
"step": 1178
},
{
"epoch": 0.7866666666666666,
"grad_norm": 2.171875,
"learning_rate": 3.7698529319626633e-06,
"loss": 1.0432777404785156,
"step": 1180
},
{
"epoch": 0.788,
"grad_norm": 4.5,
"learning_rate": 3.765865540138679e-06,
"loss": 1.6023154258728027,
"step": 1182
},
{
"epoch": 0.7893333333333333,
"grad_norm": 5.84375,
"learning_rate": 3.7618745778386888e-06,
"loss": 1.6582971811294556,
"step": 1184
},
{
"epoch": 0.7906666666666666,
"grad_norm": 7.21875,
"learning_rate": 3.757880063668614e-06,
"loss": 2.0822949409484863,
"step": 1186
},
{
"epoch": 0.792,
"grad_norm": 9.875,
"learning_rate": 3.753882016250936e-06,
"loss": 1.8574600219726562,
"step": 1188
},
{
"epoch": 0.7933333333333333,
"grad_norm": 3.34375,
"learning_rate": 3.74988045422461e-06,
"loss": 1.2435466051101685,
"step": 1190
},
{
"epoch": 0.7946666666666666,
"grad_norm": 10.125,
"learning_rate": 3.7458753962449747e-06,
"loss": 1.7264337539672852,
"step": 1192
},
{
"epoch": 0.796,
"grad_norm": 5.25,
"learning_rate": 3.741866860983665e-06,
"loss": 1.8587850332260132,
"step": 1194
},
{
"epoch": 0.7973333333333333,
"grad_norm": 7.46875,
"learning_rate": 3.737854867128531e-06,
"loss": 1.72437584400177,
"step": 1196
},
{
"epoch": 0.7986666666666666,
"grad_norm": 7.65625,
"learning_rate": 3.733839433383545e-06,
"loss": 1.894095778465271,
"step": 1198
},
{
"epoch": 0.8,
"grad_norm": 1.6796875,
"learning_rate": 3.729820578468716e-06,
"loss": 1.0513193607330322,
"step": 1200
},
{
"epoch": 0.8013333333333333,
"grad_norm": 1.109375,
"learning_rate": 3.725798321120001e-06,
"loss": 1.066056728363037,
"step": 1202
},
{
"epoch": 0.8026666666666666,
"grad_norm": 11.625,
"learning_rate": 3.7217726800892227e-06,
"loss": 1.6573752164840698,
"step": 1204
},
{
"epoch": 0.804,
"grad_norm": 7.65625,
"learning_rate": 3.7177436741439755e-06,
"loss": 1.9016170501708984,
"step": 1206
},
{
"epoch": 0.8053333333333333,
"grad_norm": 5.84375,
"learning_rate": 3.7137113220675436e-06,
"loss": 1.5036678314208984,
"step": 1208
},
{
"epoch": 0.8066666666666666,
"grad_norm": 3.8125,
"learning_rate": 3.709675642658809e-06,
"loss": 1.4776989221572876,
"step": 1210
},
{
"epoch": 0.808,
"grad_norm": 8.25,
"learning_rate": 3.7056366547321655e-06,
"loss": 1.8003324270248413,
"step": 1212
},
{
"epoch": 0.8093333333333333,
"grad_norm": 4.71875,
"learning_rate": 3.701594377117431e-06,
"loss": 1.521277666091919,
"step": 1214
},
{
"epoch": 0.8106666666666666,
"grad_norm": 5.34375,
"learning_rate": 3.697548828659765e-06,
"loss": 1.5993854999542236,
"step": 1216
},
{
"epoch": 0.812,
"grad_norm": 4.4375,
"learning_rate": 3.6935000282195687e-06,
"loss": 1.6389127969741821,
"step": 1218
},
{
"epoch": 0.8133333333333334,
"grad_norm": 4.9375,
"learning_rate": 3.689447994672407e-06,
"loss": 1.6071922779083252,
"step": 1220
},
{
"epoch": 0.8146666666666667,
"grad_norm": 6.84375,
"learning_rate": 3.68539274690892e-06,
"loss": 1.8381483554840088,
"step": 1222
},
{
"epoch": 0.816,
"grad_norm": 6.125,
"learning_rate": 3.6813343038347284e-06,
"loss": 1.6339752674102783,
"step": 1224
},
{
"epoch": 0.8173333333333334,
"grad_norm": 7.5625,
"learning_rate": 3.677272684370352e-06,
"loss": 1.5650919675827026,
"step": 1226
},
{
"epoch": 0.8186666666666667,
"grad_norm": 4.71875,
"learning_rate": 3.6732079074511186e-06,
"loss": 1.6217875480651855,
"step": 1228
},
{
"epoch": 0.82,
"grad_norm": 5.1875,
"learning_rate": 3.669139992027074e-06,
"loss": 1.3875737190246582,
"step": 1230
},
{
"epoch": 0.8213333333333334,
"grad_norm": 2.5625,
"learning_rate": 3.6650689570629005e-06,
"loss": 1.1723411083221436,
"step": 1232
},
{
"epoch": 0.8226666666666667,
"grad_norm": 3.03125,
"learning_rate": 3.6609948215378176e-06,
"loss": 1.1628097295761108,
"step": 1234
},
{
"epoch": 0.824,
"grad_norm": 3.46875,
"learning_rate": 3.656917604445506e-06,
"loss": 1.2432491779327393,
"step": 1236
},
{
"epoch": 0.8253333333333334,
"grad_norm": 8.4375,
"learning_rate": 3.6528373247940085e-06,
"loss": 1.8964778184890747,
"step": 1238
},
{
"epoch": 0.8266666666666667,
"grad_norm": 7.65625,
"learning_rate": 3.6487540016056455e-06,
"loss": 2.0520777702331543,
"step": 1240
},
{
"epoch": 0.828,
"grad_norm": 4.125,
"learning_rate": 3.644667653916929e-06,
"loss": 1.1067545413970947,
"step": 1242
},
{
"epoch": 0.8293333333333334,
"grad_norm": 4.90625,
"learning_rate": 3.640578300778469e-06,
"loss": 1.6915913820266724,
"step": 1244
},
{
"epoch": 0.8306666666666667,
"grad_norm": 5.46875,
"learning_rate": 3.6364859612548888e-06,
"loss": 1.6206862926483154,
"step": 1246
},
{
"epoch": 0.832,
"grad_norm": 4.90625,
"learning_rate": 3.6323906544247323e-06,
"loss": 1.6607365608215332,
"step": 1248
},
{
"epoch": 0.8333333333333334,
"grad_norm": 8.75,
"learning_rate": 3.628292399380379e-06,
"loss": 1.6489142179489136,
"step": 1250
},
{
"epoch": 0.8346666666666667,
"grad_norm": 7.59375,
"learning_rate": 3.6241912152279492e-06,
"loss": 1.9431458711624146,
"step": 1252
},
{
"epoch": 0.836,
"grad_norm": 7.40625,
"learning_rate": 3.620087121087226e-06,
"loss": 1.875465750694275,
"step": 1254
},
{
"epoch": 0.8373333333333334,
"grad_norm": 4.9375,
"learning_rate": 3.6159801360915513e-06,
"loss": 1.6114364862442017,
"step": 1256
},
{
"epoch": 0.8386666666666667,
"grad_norm": 7.375,
"learning_rate": 3.611870279387748e-06,
"loss": 1.6327881813049316,
"step": 1258
},
{
"epoch": 0.84,
"grad_norm": 5.90625,
"learning_rate": 3.6077575701360267e-06,
"loss": 2.0225255489349365,
"step": 1260
},
{
"epoch": 0.8413333333333334,
"grad_norm": 10.875,
"learning_rate": 3.603642027509897e-06,
"loss": 1.468903660774231,
"step": 1262
},
{
"epoch": 0.8426666666666667,
"grad_norm": 3.96875,
"learning_rate": 3.5995236706960757e-06,
"loss": 1.4783247709274292,
"step": 1264
},
{
"epoch": 0.844,
"grad_norm": 5.375,
"learning_rate": 3.595402518894402e-06,
"loss": 1.5046296119689941,
"step": 1266
},
{
"epoch": 0.8453333333333334,
"grad_norm": 2.3125,
"learning_rate": 3.5912785913177417e-06,
"loss": 1.090078592300415,
"step": 1268
},
{
"epoch": 0.8466666666666667,
"grad_norm": 1.2421875,
"learning_rate": 3.5871519071919058e-06,
"loss": 1.0590107440948486,
"step": 1270
},
{
"epoch": 0.848,
"grad_norm": 4.8125,
"learning_rate": 3.583022485755554e-06,
"loss": 1.0319173336029053,
"step": 1272
},
{
"epoch": 0.8493333333333334,
"grad_norm": 4.4375,
"learning_rate": 3.5788903462601065e-06,
"loss": 1.6474723815917969,
"step": 1274
},
{
"epoch": 0.8506666666666667,
"grad_norm": 4.375,
"learning_rate": 3.574755507969657e-06,
"loss": 1.6048872470855713,
"step": 1276
},
{
"epoch": 0.852,
"grad_norm": 6.125,
"learning_rate": 3.5706179901608795e-06,
"loss": 1.5846049785614014,
"step": 1278
},
{
"epoch": 0.8533333333333334,
"grad_norm": 4.4375,
"learning_rate": 3.5664778121229414e-06,
"loss": 1.5983173847198486,
"step": 1280
},
{
"epoch": 0.8546666666666667,
"grad_norm": 14.625,
"learning_rate": 3.5623349931574113e-06,
"loss": 0.8655703067779541,
"step": 1282
},
{
"epoch": 0.856,
"grad_norm": 4.71875,
"learning_rate": 3.5581895525781706e-06,
"loss": 1.6905121803283691,
"step": 1284
},
{
"epoch": 0.8573333333333333,
"grad_norm": 3.8125,
"learning_rate": 3.5540415097113212e-06,
"loss": 1.1031184196472168,
"step": 1286
},
{
"epoch": 0.8586666666666667,
"grad_norm": 4.1875,
"learning_rate": 3.5498908838950976e-06,
"loss": 1.6588813066482544,
"step": 1288
},
{
"epoch": 0.86,
"grad_norm": 9.6875,
"learning_rate": 3.545737694479777e-06,
"loss": 1.1068980693817139,
"step": 1290
},
{
"epoch": 0.8613333333333333,
"grad_norm": 8.375,
"learning_rate": 3.541581960827586e-06,
"loss": 1.858797311782837,
"step": 1292
},
{
"epoch": 0.8626666666666667,
"grad_norm": 22.5,
"learning_rate": 3.5374237023126157e-06,
"loss": 1.3582959175109863,
"step": 1294
},
{
"epoch": 0.864,
"grad_norm": 1.8359375,
"learning_rate": 3.533262938320724e-06,
"loss": 1.1611998081207275,
"step": 1296
},
{
"epoch": 0.8653333333333333,
"grad_norm": 1.09375,
"learning_rate": 3.5290996882494533e-06,
"loss": 1.2682225704193115,
"step": 1298
},
{
"epoch": 0.8666666666666667,
"grad_norm": 3.5,
"learning_rate": 3.5249339715079343e-06,
"loss": 1.1011674404144287,
"step": 1300
},
{
"epoch": 0.868,
"grad_norm": 2.09375,
"learning_rate": 3.5207658075167972e-06,
"loss": 1.168353796005249,
"step": 1302
},
{
"epoch": 0.8693333333333333,
"grad_norm": 12.375,
"learning_rate": 3.516595215708082e-06,
"loss": 2.0601859092712402,
"step": 1304
},
{
"epoch": 0.8706666666666667,
"grad_norm": 5.21875,
"learning_rate": 3.5124222155251454e-06,
"loss": 1.5306146144866943,
"step": 1306
},
{
"epoch": 0.872,
"grad_norm": 5.375,
"learning_rate": 3.5082468264225754e-06,
"loss": 1.5819231271743774,
"step": 1308
},
{
"epoch": 0.8733333333333333,
"grad_norm": 12.3125,
"learning_rate": 3.504069067866094e-06,
"loss": 1.9946259260177612,
"step": 1310
},
{
"epoch": 0.8746666666666667,
"grad_norm": 2.875,
"learning_rate": 3.4998889593324715e-06,
"loss": 1.1388391256332397,
"step": 1312
},
{
"epoch": 0.876,
"grad_norm": 7.8125,
"learning_rate": 3.495706520309432e-06,
"loss": 1.6211680173873901,
"step": 1314
},
{
"epoch": 0.8773333333333333,
"grad_norm": 7.25,
"learning_rate": 3.4915217702955674e-06,
"loss": 1.8492045402526855,
"step": 1316
},
{
"epoch": 0.8786666666666667,
"grad_norm": 11.1875,
"learning_rate": 3.487334728800239e-06,
"loss": 1.5768213272094727,
"step": 1318
},
{
"epoch": 0.88,
"grad_norm": 2.140625,
"learning_rate": 3.4831454153434967e-06,
"loss": 1.0622522830963135,
"step": 1320
},
{
"epoch": 0.8813333333333333,
"grad_norm": 2.234375,
"learning_rate": 3.478953849455977e-06,
"loss": 1.1389195919036865,
"step": 1322
},
{
"epoch": 0.8826666666666667,
"grad_norm": 5.71875,
"learning_rate": 3.4747600506788206e-06,
"loss": 1.699198842048645,
"step": 1324
},
{
"epoch": 0.884,
"grad_norm": 6.21875,
"learning_rate": 3.470564038563576e-06,
"loss": 1.1638987064361572,
"step": 1326
},
{
"epoch": 0.8853333333333333,
"grad_norm": 9.9375,
"learning_rate": 3.466365832672112e-06,
"loss": 1.9894802570343018,
"step": 1328
},
{
"epoch": 0.8866666666666667,
"grad_norm": 3.90625,
"learning_rate": 3.462165452576523e-06,
"loss": 1.5490775108337402,
"step": 1330
},
{
"epoch": 0.888,
"grad_norm": 4.6875,
"learning_rate": 3.457962917859041e-06,
"loss": 1.6606712341308594,
"step": 1332
},
{
"epoch": 0.8893333333333333,
"grad_norm": 2.21875,
"learning_rate": 3.4537582481119435e-06,
"loss": 0.9603934288024902,
"step": 1334
},
{
"epoch": 0.8906666666666667,
"grad_norm": 9.625,
"learning_rate": 3.4495514629374595e-06,
"loss": 1.3755745887756348,
"step": 1336
},
{
"epoch": 0.892,
"grad_norm": 6.75,
"learning_rate": 3.4453425819476804e-06,
"loss": 1.5730741024017334,
"step": 1338
},
{
"epoch": 0.8933333333333333,
"grad_norm": 5.65625,
"learning_rate": 3.441131624764471e-06,
"loss": 1.7277932167053223,
"step": 1340
},
{
"epoch": 0.8946666666666667,
"grad_norm": 4.1875,
"learning_rate": 3.4369186110193707e-06,
"loss": 1.558158278465271,
"step": 1342
},
{
"epoch": 0.896,
"grad_norm": 2.640625,
"learning_rate": 3.4327035603535126e-06,
"loss": 1.1294000148773193,
"step": 1344
},
{
"epoch": 0.8973333333333333,
"grad_norm": 7.0625,
"learning_rate": 3.42848649241752e-06,
"loss": 1.7495123147964478,
"step": 1346
},
{
"epoch": 0.8986666666666666,
"grad_norm": 1.5625,
"learning_rate": 3.4242674268714243e-06,
"loss": 1.104962944984436,
"step": 1348
},
{
"epoch": 0.9,
"grad_norm": 8.625,
"learning_rate": 3.42004638338457e-06,
"loss": 1.8600108623504639,
"step": 1350
},
{
"epoch": 0.9013333333333333,
"grad_norm": 3.96875,
"learning_rate": 3.415823381635519e-06,
"loss": 1.2579452991485596,
"step": 1352
},
{
"epoch": 0.9026666666666666,
"grad_norm": 5.53125,
"learning_rate": 3.4115984413119676e-06,
"loss": 1.4979395866394043,
"step": 1354
},
{
"epoch": 0.904,
"grad_norm": 7.625,
"learning_rate": 3.407371582110647e-06,
"loss": 1.5508317947387695,
"step": 1356
},
{
"epoch": 0.9053333333333333,
"grad_norm": 11.25,
"learning_rate": 3.4031428237372343e-06,
"loss": 1.851904034614563,
"step": 1358
},
{
"epoch": 0.9066666666666666,
"grad_norm": 3.34375,
"learning_rate": 3.3989121859062624e-06,
"loss": 1.0736128091812134,
"step": 1360
},
{
"epoch": 0.908,
"grad_norm": 5.0625,
"learning_rate": 3.3946796883410225e-06,
"loss": 1.609264850616455,
"step": 1362
},
{
"epoch": 0.9093333333333333,
"grad_norm": 4.8125,
"learning_rate": 3.39044535077348e-06,
"loss": 1.1035856008529663,
"step": 1364
},
{
"epoch": 0.9106666666666666,
"grad_norm": 2.21875,
"learning_rate": 3.3862091929441764e-06,
"loss": 1.1078152656555176,
"step": 1366
},
{
"epoch": 0.912,
"grad_norm": 1.984375,
"learning_rate": 3.3819712346021392e-06,
"loss": 1.1677632331848145,
"step": 1368
},
{
"epoch": 0.9133333333333333,
"grad_norm": 4.8125,
"learning_rate": 3.37773149550479e-06,
"loss": 1.5922446250915527,
"step": 1370
},
{
"epoch": 0.9146666666666666,
"grad_norm": 13.8125,
"learning_rate": 3.3734899954178534e-06,
"loss": 1.8471770286560059,
"step": 1372
},
{
"epoch": 0.916,
"grad_norm": 8.625,
"learning_rate": 3.369246754115262e-06,
"loss": 1.8968651294708252,
"step": 1374
},
{
"epoch": 0.9173333333333333,
"grad_norm": 5.40625,
"learning_rate": 3.365001791379068e-06,
"loss": 1.5288443565368652,
"step": 1376
},
{
"epoch": 0.9186666666666666,
"grad_norm": 8.9375,
"learning_rate": 3.360755126999347e-06,
"loss": 1.6761029958724976,
"step": 1378
},
{
"epoch": 0.92,
"grad_norm": 9.375,
"learning_rate": 3.3565067807741093e-06,
"loss": 1.8433051109313965,
"step": 1380
},
{
"epoch": 0.9213333333333333,
"grad_norm": 8.125,
"learning_rate": 3.352256772509205e-06,
"loss": 1.642780065536499,
"step": 1382
},
{
"epoch": 0.9226666666666666,
"grad_norm": 9.5,
"learning_rate": 3.348005122018232e-06,
"loss": 1.9076459407806396,
"step": 1384
},
{
"epoch": 0.924,
"grad_norm": 3.265625,
"learning_rate": 3.3437518491224464e-06,
"loss": 1.042888879776001,
"step": 1386
},
{
"epoch": 0.9253333333333333,
"grad_norm": 12.0,
"learning_rate": 3.3394969736506656e-06,
"loss": 2.10634708404541,
"step": 1388
},
{
"epoch": 0.9266666666666666,
"grad_norm": 12.9375,
"learning_rate": 3.33524051543918e-06,
"loss": 1.8503813743591309,
"step": 1390
},
{
"epoch": 0.928,
"grad_norm": 10.125,
"learning_rate": 3.3309824943316593e-06,
"loss": 1.7067197561264038,
"step": 1392
},
{
"epoch": 0.9293333333333333,
"grad_norm": 7.84375,
"learning_rate": 3.3267229301790562e-06,
"loss": 1.9710360765457153,
"step": 1394
},
{
"epoch": 0.9306666666666666,
"grad_norm": 2.125,
"learning_rate": 3.32246184283952e-06,
"loss": 1.1389985084533691,
"step": 1396
},
{
"epoch": 0.932,
"grad_norm": 10.0625,
"learning_rate": 3.3181992521783e-06,
"loss": 1.9844406843185425,
"step": 1398
},
{
"epoch": 0.9333333333333333,
"grad_norm": 7.90625,
"learning_rate": 3.313935178067656e-06,
"loss": 1.700979232788086,
"step": 1400
},
{
"epoch": 0.9346666666666666,
"grad_norm": 3.234375,
"learning_rate": 3.30966964038676e-06,
"loss": 0.9724457263946533,
"step": 1402
},
{
"epoch": 0.936,
"grad_norm": 5.90625,
"learning_rate": 3.3054026590216092e-06,
"loss": 1.6514759063720703,
"step": 1404
},
{
"epoch": 0.9373333333333334,
"grad_norm": 3.546875,
"learning_rate": 3.3011342538649325e-06,
"loss": 1.581580638885498,
"step": 1406
},
{
"epoch": 0.9386666666666666,
"grad_norm": 11.0625,
"learning_rate": 3.2968644448160946e-06,
"loss": 1.3123493194580078,
"step": 1408
},
{
"epoch": 0.94,
"grad_norm": 20.75,
"learning_rate": 3.2925932517810057e-06,
"loss": 2.246950149536133,
"step": 1410
},
{
"epoch": 0.9413333333333334,
"grad_norm": 8.375,
"learning_rate": 3.288320694672028e-06,
"loss": 1.4993822574615479,
"step": 1412
},
{
"epoch": 0.9426666666666667,
"grad_norm": 3.03125,
"learning_rate": 3.2840467934078845e-06,
"loss": 1.228714942932129,
"step": 1414
},
{
"epoch": 0.944,
"grad_norm": 11.8125,
"learning_rate": 3.279771567913562e-06,
"loss": 1.83895742893219,
"step": 1416
},
{
"epoch": 0.9453333333333334,
"grad_norm": 1.9453125,
"learning_rate": 3.2754950381202243e-06,
"loss": 1.0585711002349854,
"step": 1418
},
{
"epoch": 0.9466666666666667,
"grad_norm": 3.421875,
"learning_rate": 3.2712172239651106e-06,
"loss": 1.1873035430908203,
"step": 1420
},
{
"epoch": 0.948,
"grad_norm": 4.875,
"learning_rate": 3.2669381453914552e-06,
"loss": 1.6478772163391113,
"step": 1422
},
{
"epoch": 0.9493333333333334,
"grad_norm": 3.9375,
"learning_rate": 3.26265782234838e-06,
"loss": 1.157041072845459,
"step": 1424
},
{
"epoch": 0.9506666666666667,
"grad_norm": 7.75,
"learning_rate": 3.2583762747908134e-06,
"loss": 1.9819687604904175,
"step": 1426
},
{
"epoch": 0.952,
"grad_norm": 4.46875,
"learning_rate": 3.25409352267939e-06,
"loss": 1.4531431198120117,
"step": 1428
},
{
"epoch": 0.9533333333333334,
"grad_norm": 3.90625,
"learning_rate": 3.249809585980361e-06,
"loss": 1.5999106168746948,
"step": 1430
},
{
"epoch": 0.9546666666666667,
"grad_norm": 7.3125,
"learning_rate": 3.245524484665501e-06,
"loss": 1.8473896980285645,
"step": 1432
},
{
"epoch": 0.956,
"grad_norm": 4.71875,
"learning_rate": 3.2412382387120112e-06,
"loss": 1.5177754163742065,
"step": 1434
},
{
"epoch": 0.9573333333333334,
"grad_norm": 2.09375,
"learning_rate": 3.236950868102432e-06,
"loss": 1.2477397918701172,
"step": 1436
},
{
"epoch": 0.9586666666666667,
"grad_norm": 6.0625,
"learning_rate": 3.232662392824547e-06,
"loss": 1.6189217567443848,
"step": 1438
},
{
"epoch": 0.96,
"grad_norm": 10.4375,
"learning_rate": 3.2283728328712877e-06,
"loss": 1.6426982879638672,
"step": 1440
},
{
"epoch": 0.9613333333333334,
"grad_norm": 7.1875,
"learning_rate": 3.224082208240643e-06,
"loss": 1.27528715133667,
"step": 1442
},
{
"epoch": 0.9626666666666667,
"grad_norm": 22.5,
"learning_rate": 3.219790538935566e-06,
"loss": 0.6726552248001099,
"step": 1444
},
{
"epoch": 0.964,
"grad_norm": 3.15625,
"learning_rate": 3.215497844963881e-06,
"loss": 1.2849948406219482,
"step": 1446
},
{
"epoch": 0.9653333333333334,
"grad_norm": 4.84375,
"learning_rate": 3.211204146338187e-06,
"loss": 1.6178771257400513,
"step": 1448
},
{
"epoch": 0.9666666666666667,
"grad_norm": 1.84375,
"learning_rate": 3.206909463075768e-06,
"loss": 1.1476926803588867,
"step": 1450
},
{
"epoch": 0.968,
"grad_norm": 9.6875,
"learning_rate": 3.2026138151984987e-06,
"loss": 1.3063325881958008,
"step": 1452
},
{
"epoch": 0.9693333333333334,
"grad_norm": 3.875,
"learning_rate": 3.1983172227327495e-06,
"loss": 1.0711333751678467,
"step": 1454
},
{
"epoch": 0.9706666666666667,
"grad_norm": 2.578125,
"learning_rate": 3.194019705709297e-06,
"loss": 1.2706935405731201,
"step": 1456
},
{
"epoch": 0.972,
"grad_norm": 3.875,
"learning_rate": 3.189721284163225e-06,
"loss": 1.5907695293426514,
"step": 1458
},
{
"epoch": 0.9733333333333334,
"grad_norm": 5.9375,
"learning_rate": 3.1854219781338358e-06,
"loss": 1.630199670791626,
"step": 1460
},
{
"epoch": 0.9746666666666667,
"grad_norm": 7.15625,
"learning_rate": 3.181121807664556e-06,
"loss": 1.8257417678833008,
"step": 1462
},
{
"epoch": 0.976,
"grad_norm": 11.25,
"learning_rate": 3.1768207928028405e-06,
"loss": 1.8316962718963623,
"step": 1464
},
{
"epoch": 0.9773333333333334,
"grad_norm": 4.28125,
"learning_rate": 3.1725189536000823e-06,
"loss": 1.4978811740875244,
"step": 1466
},
{
"epoch": 0.9786666666666667,
"grad_norm": 11.625,
"learning_rate": 3.168216310111516e-06,
"loss": 2.125202178955078,
"step": 1468
},
{
"epoch": 0.98,
"grad_norm": 6.46875,
"learning_rate": 3.1639128823961275e-06,
"loss": 1.5529388189315796,
"step": 1470
},
{
"epoch": 0.9813333333333333,
"grad_norm": 6.1875,
"learning_rate": 3.1596086905165556e-06,
"loss": 1.8385839462280273,
"step": 1472
},
{
"epoch": 0.9826666666666667,
"grad_norm": 1.546875,
"learning_rate": 3.1553037545390077e-06,
"loss": 0.97187340259552,
"step": 1474
},
{
"epoch": 0.984,
"grad_norm": 9.125,
"learning_rate": 3.150998094533152e-06,
"loss": 2.0341556072235107,
"step": 1476
},
{
"epoch": 0.9853333333333333,
"grad_norm": 5.09375,
"learning_rate": 3.146691730572039e-06,
"loss": 1.839565396308899,
"step": 1478
},
{
"epoch": 0.9866666666666667,
"grad_norm": 16.625,
"learning_rate": 3.1423846827319994e-06,
"loss": 1.7883915901184082,
"step": 1480
},
{
"epoch": 0.988,
"grad_norm": 9.75,
"learning_rate": 3.1380769710925494e-06,
"loss": 1.6055920124053955,
"step": 1482
},
{
"epoch": 0.9893333333333333,
"grad_norm": 1.8515625,
"learning_rate": 3.133768615736302e-06,
"loss": 1.1589007377624512,
"step": 1484
},
{
"epoch": 0.9906666666666667,
"grad_norm": 7.90625,
"learning_rate": 3.1294596367488715e-06,
"loss": 1.8504548072814941,
"step": 1486
},
{
"epoch": 0.992,
"grad_norm": 9.0,
"learning_rate": 3.1251500542187798e-06,
"loss": 1.8369858264923096,
"step": 1488
},
{
"epoch": 0.9933333333333333,
"grad_norm": 5.40625,
"learning_rate": 3.12083988823736e-06,
"loss": 1.6977782249450684,
"step": 1490
},
{
"epoch": 0.9946666666666667,
"grad_norm": 4.8125,
"learning_rate": 3.116529158898668e-06,
"loss": 1.6213133335113525,
"step": 1492
},
{
"epoch": 0.996,
"grad_norm": 1.8359375,
"learning_rate": 3.112217886299385e-06,
"loss": 1.1973605155944824,
"step": 1494
},
{
"epoch": 0.9973333333333333,
"grad_norm": 7.59375,
"learning_rate": 3.107906090538725e-06,
"loss": 1.7736064195632935,
"step": 1496
},
{
"epoch": 0.9986666666666667,
"grad_norm": 4.4375,
"learning_rate": 3.1035937917183414e-06,
"loss": 1.4783213138580322,
"step": 1498
},
{
"epoch": 1.0,
"grad_norm": 1.5,
"learning_rate": 3.099281009942231e-06,
"loss": 1.0851173400878906,
"step": 1500
},
{
"epoch": 1.0013333333333334,
"grad_norm": 0.69921875,
"learning_rate": 3.0949677653166453e-06,
"loss": 1.3752434253692627,
"step": 1502
},
{
"epoch": 1.0026666666666666,
"grad_norm": 2.171875,
"learning_rate": 3.0906540779499916e-06,
"loss": 0.9937149286270142,
"step": 1504
},
{
"epoch": 1.004,
"grad_norm": 12.625,
"learning_rate": 3.0863399679527408e-06,
"loss": 2.0265655517578125,
"step": 1506
},
{
"epoch": 1.0053333333333334,
"grad_norm": 6.75,
"learning_rate": 3.0820254554373345e-06,
"loss": 1.6888525485992432,
"step": 1508
},
{
"epoch": 1.0066666666666666,
"grad_norm": 18.25,
"learning_rate": 3.0777105605180923e-06,
"loss": 1.7616627216339111,
"step": 1510
},
{
"epoch": 1.008,
"grad_norm": 5.28125,
"learning_rate": 3.0733953033111153e-06,
"loss": 1.5890424251556396,
"step": 1512
},
{
"epoch": 1.0093333333333334,
"grad_norm": 4.8125,
"learning_rate": 3.0690797039341936e-06,
"loss": 1.5777063369750977,
"step": 1514
},
{
"epoch": 1.0106666666666666,
"grad_norm": 7.03125,
"learning_rate": 3.0647637825067125e-06,
"loss": 1.8093584775924683,
"step": 1516
},
{
"epoch": 1.012,
"grad_norm": 10.4375,
"learning_rate": 3.0604475591495587e-06,
"loss": 2.03692626953125,
"step": 1518
},
{
"epoch": 1.0133333333333334,
"grad_norm": 6.6875,
"learning_rate": 3.056131053985028e-06,
"loss": 1.6062037944793701,
"step": 1520
},
{
"epoch": 1.0146666666666666,
"grad_norm": 3.3125,
"learning_rate": 3.051814287136727e-06,
"loss": 1.497098684310913,
"step": 1522
},
{
"epoch": 1.016,
"grad_norm": 3.609375,
"learning_rate": 3.0474972787294852e-06,
"loss": 1.5099387168884277,
"step": 1524
},
{
"epoch": 1.0173333333333334,
"grad_norm": 6.75,
"learning_rate": 3.043180048889256e-06,
"loss": 1.0779247283935547,
"step": 1526
},
{
"epoch": 1.0186666666666666,
"grad_norm": 6.75,
"learning_rate": 3.038862617743027e-06,
"loss": 1.5594415664672852,
"step": 1528
},
{
"epoch": 1.02,
"grad_norm": 6.125,
"learning_rate": 3.034545005418723e-06,
"loss": 1.5969600677490234,
"step": 1530
},
{
"epoch": 1.0213333333333334,
"grad_norm": 4.9375,
"learning_rate": 3.030227232045114e-06,
"loss": 1.633499264717102,
"step": 1532
},
{
"epoch": 1.0226666666666666,
"grad_norm": 10.6875,
"learning_rate": 3.0259093177517213e-06,
"loss": 1.1812535524368286,
"step": 1534
},
{
"epoch": 1.024,
"grad_norm": 5.875,
"learning_rate": 3.021591282668721e-06,
"loss": 1.7009207010269165,
"step": 1536
},
{
"epoch": 1.0253333333333334,
"grad_norm": 0.79296875,
"learning_rate": 3.0172731469268545e-06,
"loss": 1.2874627113342285,
"step": 1538
},
{
"epoch": 1.0266666666666666,
"grad_norm": 6.71875,
"learning_rate": 3.0129549306573323e-06,
"loss": 1.6079018115997314,
"step": 1540
},
{
"epoch": 1.028,
"grad_norm": 7.46875,
"learning_rate": 3.00863665399174e-06,
"loss": 1.9101991653442383,
"step": 1542
},
{
"epoch": 1.0293333333333334,
"grad_norm": 20.125,
"learning_rate": 3.0043183370619445e-06,
"loss": 1.7360703945159912,
"step": 1544
},
{
"epoch": 1.0306666666666666,
"grad_norm": 5.53125,
"learning_rate": 3.0000000000000005e-06,
"loss": 1.664625644683838,
"step": 1546
},
{
"epoch": 1.032,
"grad_norm": 8.125,
"learning_rate": 2.9956816629380557e-06,
"loss": 1.6770424842834473,
"step": 1548
},
{
"epoch": 1.0333333333333334,
"grad_norm": 1.8515625,
"learning_rate": 2.9913633460082604e-06,
"loss": 1.0641461610794067,
"step": 1550
},
{
"epoch": 1.0346666666666666,
"grad_norm": 9.8125,
"learning_rate": 2.9870450693426683e-06,
"loss": 2.1422629356384277,
"step": 1552
},
{
"epoch": 1.036,
"grad_norm": 9.9375,
"learning_rate": 2.982726853073147e-06,
"loss": 1.7939167022705078,
"step": 1554
},
{
"epoch": 1.0373333333333334,
"grad_norm": 8.875,
"learning_rate": 2.9784087173312804e-06,
"loss": 1.9452416896820068,
"step": 1556
},
{
"epoch": 1.0386666666666666,
"grad_norm": 13.9375,
"learning_rate": 2.9740906822482797e-06,
"loss": 2.0147793292999268,
"step": 1558
},
{
"epoch": 1.04,
"grad_norm": 1.828125,
"learning_rate": 2.9697727679548864e-06,
"loss": 1.0894575119018555,
"step": 1560
},
{
"epoch": 1.0413333333333332,
"grad_norm": 7.625,
"learning_rate": 2.965454994581277e-06,
"loss": 1.9521132707595825,
"step": 1562
},
{
"epoch": 1.0426666666666666,
"grad_norm": 17.625,
"learning_rate": 2.9611373822569735e-06,
"loss": 1.7252278327941895,
"step": 1564
},
{
"epoch": 1.044,
"grad_norm": 2.40625,
"learning_rate": 2.9568199511107448e-06,
"loss": 0.9713205695152283,
"step": 1566
},
{
"epoch": 1.0453333333333332,
"grad_norm": 2.984375,
"learning_rate": 2.9525027212705158e-06,
"loss": 0.9757088422775269,
"step": 1568
},
{
"epoch": 1.0466666666666666,
"grad_norm": 5.625,
"learning_rate": 2.9481857128632742e-06,
"loss": 1.5996389389038086,
"step": 1570
},
{
"epoch": 1.048,
"grad_norm": 28.5,
"learning_rate": 2.943868946014973e-06,
"loss": 0.7404099106788635,
"step": 1572
},
{
"epoch": 1.0493333333333332,
"grad_norm": 1.59375,
"learning_rate": 2.9395524408504427e-06,
"loss": 1.0925877094268799,
"step": 1574
},
{
"epoch": 1.0506666666666666,
"grad_norm": 12.625,
"learning_rate": 2.935236217493289e-06,
"loss": 1.9147734642028809,
"step": 1576
},
{
"epoch": 1.052,
"grad_norm": 8.25,
"learning_rate": 2.930920296065808e-06,
"loss": 1.5937700271606445,
"step": 1578
},
{
"epoch": 1.0533333333333332,
"grad_norm": 3.0,
"learning_rate": 2.926604696688886e-06,
"loss": 1.1637517213821411,
"step": 1580
},
{
"epoch": 1.0546666666666666,
"grad_norm": 10.75,
"learning_rate": 2.922289439481909e-06,
"loss": 1.9980616569519043,
"step": 1582
},
{
"epoch": 1.056,
"grad_norm": 10.6875,
"learning_rate": 2.9179745445626673e-06,
"loss": 1.5037312507629395,
"step": 1584
},
{
"epoch": 1.0573333333333332,
"grad_norm": 4.78125,
"learning_rate": 2.9136600320472606e-06,
"loss": 1.5640144348144531,
"step": 1586
},
{
"epoch": 1.0586666666666666,
"grad_norm": 4.75,
"learning_rate": 2.90934592205001e-06,
"loss": 1.4845762252807617,
"step": 1588
},
{
"epoch": 1.06,
"grad_norm": 1.6796875,
"learning_rate": 2.905032234683356e-06,
"loss": 1.1452919244766235,
"step": 1590
},
{
"epoch": 1.0613333333333332,
"grad_norm": 1.6875,
"learning_rate": 2.9007189900577694e-06,
"loss": 0.9397138357162476,
"step": 1592
},
{
"epoch": 1.0626666666666666,
"grad_norm": 6.4375,
"learning_rate": 2.896406208281659e-06,
"loss": 1.4903689622879028,
"step": 1594
},
{
"epoch": 1.064,
"grad_norm": 6.46875,
"learning_rate": 2.8920939094612756e-06,
"loss": 1.7486934661865234,
"step": 1596
},
{
"epoch": 1.0653333333333332,
"grad_norm": 6.78125,
"learning_rate": 2.8877821137006156e-06,
"loss": 1.5886731147766113,
"step": 1598
},
{
"epoch": 1.0666666666666667,
"grad_norm": 4.0625,
"learning_rate": 2.8834708411013323e-06,
"loss": 1.5811033248901367,
"step": 1600
},
{
"epoch": 1.068,
"grad_norm": 7.03125,
"learning_rate": 2.879160111762641e-06,
"loss": 1.4661691188812256,
"step": 1602
},
{
"epoch": 1.0693333333333332,
"grad_norm": 4.53125,
"learning_rate": 2.8748499457812212e-06,
"loss": 1.6812434196472168,
"step": 1604
},
{
"epoch": 1.0706666666666667,
"grad_norm": 6.625,
"learning_rate": 2.8705403632511286e-06,
"loss": 1.653494119644165,
"step": 1606
},
{
"epoch": 1.072,
"grad_norm": 12.1875,
"learning_rate": 2.866231384263698e-06,
"loss": 1.531437873840332,
"step": 1608
},
{
"epoch": 1.0733333333333333,
"grad_norm": 7.09375,
"learning_rate": 2.8619230289074516e-06,
"loss": 1.8403922319412231,
"step": 1610
},
{
"epoch": 1.0746666666666667,
"grad_norm": 7.90625,
"learning_rate": 2.857615317268001e-06,
"loss": 1.9845728874206543,
"step": 1612
},
{
"epoch": 1.076,
"grad_norm": 5.125,
"learning_rate": 2.8533082694279614e-06,
"loss": 1.1663343906402588,
"step": 1614
},
{
"epoch": 1.0773333333333333,
"grad_norm": 4.4375,
"learning_rate": 2.8490019054668488e-06,
"loss": 1.5892982482910156,
"step": 1616
},
{
"epoch": 1.0786666666666667,
"grad_norm": 2.21875,
"learning_rate": 2.8446962454609938e-06,
"loss": 1.2441880702972412,
"step": 1618
},
{
"epoch": 1.08,
"grad_norm": 3.890625,
"learning_rate": 2.8403913094834446e-06,
"loss": 1.556786298751831,
"step": 1620
},
{
"epoch": 1.0813333333333333,
"grad_norm": 6.65625,
"learning_rate": 2.836087117603874e-06,
"loss": 1.6569768190383911,
"step": 1622
},
{
"epoch": 1.0826666666666667,
"grad_norm": 7.875,
"learning_rate": 2.831783689888485e-06,
"loss": 1.2390692234039307,
"step": 1624
},
{
"epoch": 1.084,
"grad_norm": 3.21875,
"learning_rate": 2.827481046399919e-06,
"loss": 1.24364173412323,
"step": 1626
},
{
"epoch": 1.0853333333333333,
"grad_norm": 3.953125,
"learning_rate": 2.8231792071971596e-06,
"loss": 1.1136494874954224,
"step": 1628
},
{
"epoch": 1.0866666666666667,
"grad_norm": 2.46875,
"learning_rate": 2.818878192335445e-06,
"loss": 1.3179781436920166,
"step": 1630
},
{
"epoch": 1.088,
"grad_norm": 6.0,
"learning_rate": 2.8145780218661652e-06,
"loss": 1.8306783437728882,
"step": 1632
},
{
"epoch": 1.0893333333333333,
"grad_norm": 7.40625,
"learning_rate": 2.8102787158367762e-06,
"loss": 1.8992735147476196,
"step": 1634
},
{
"epoch": 1.0906666666666667,
"grad_norm": 5.78125,
"learning_rate": 2.8059802942907045e-06,
"loss": 1.5470423698425293,
"step": 1636
},
{
"epoch": 1.092,
"grad_norm": 7.03125,
"learning_rate": 2.8016827772672515e-06,
"loss": 1.8855934143066406,
"step": 1638
},
{
"epoch": 1.0933333333333333,
"grad_norm": 1.9375,
"learning_rate": 2.7973861848015028e-06,
"loss": 1.3518332242965698,
"step": 1640
},
{
"epoch": 1.0946666666666667,
"grad_norm": 7.0,
"learning_rate": 2.793090536924233e-06,
"loss": 1.6882765293121338,
"step": 1642
},
{
"epoch": 1.096,
"grad_norm": 1.625,
"learning_rate": 2.7887958536618143e-06,
"loss": 1.0547984838485718,
"step": 1644
},
{
"epoch": 1.0973333333333333,
"grad_norm": 21.875,
"learning_rate": 2.78450215503612e-06,
"loss": 0.577151894569397,
"step": 1646
},
{
"epoch": 1.0986666666666667,
"grad_norm": 4.75,
"learning_rate": 2.7802094610644346e-06,
"loss": 1.5353561639785767,
"step": 1648
},
{
"epoch": 1.1,
"grad_norm": 4.96875,
"learning_rate": 2.775917791759358e-06,
"loss": 1.4958857297897339,
"step": 1650
},
{
"epoch": 1.1013333333333333,
"grad_norm": 7.0625,
"learning_rate": 2.7716271671287133e-06,
"loss": 1.8528183698654175,
"step": 1652
},
{
"epoch": 1.1026666666666667,
"grad_norm": 4.34375,
"learning_rate": 2.767337607175454e-06,
"loss": 1.679598331451416,
"step": 1654
},
{
"epoch": 1.104,
"grad_norm": 8.0625,
"learning_rate": 2.7630491318975683e-06,
"loss": 1.5526305437088013,
"step": 1656
},
{
"epoch": 1.1053333333333333,
"grad_norm": 1.6171875,
"learning_rate": 2.75876176128799e-06,
"loss": 1.0565264225006104,
"step": 1658
},
{
"epoch": 1.1066666666666667,
"grad_norm": 11.5,
"learning_rate": 2.7544755153345004e-06,
"loss": 1.4916378259658813,
"step": 1660
},
{
"epoch": 1.108,
"grad_norm": 4.78125,
"learning_rate": 2.75019041401964e-06,
"loss": 1.5577830076217651,
"step": 1662
},
{
"epoch": 1.1093333333333333,
"grad_norm": 4.65625,
"learning_rate": 2.7459064773206112e-06,
"loss": 1.6151214838027954,
"step": 1664
},
{
"epoch": 1.1106666666666667,
"grad_norm": 1.40625,
"learning_rate": 2.741623725209188e-06,
"loss": 1.078333854675293,
"step": 1666
},
{
"epoch": 1.112,
"grad_norm": 5.40625,
"learning_rate": 2.737342177651621e-06,
"loss": 1.70587158203125,
"step": 1668
},
{
"epoch": 1.1133333333333333,
"grad_norm": 6.28125,
"learning_rate": 2.733061854608546e-06,
"loss": 1.6127488613128662,
"step": 1670
},
{
"epoch": 1.1146666666666667,
"grad_norm": 5.28125,
"learning_rate": 2.7287827760348895e-06,
"loss": 1.5487406253814697,
"step": 1672
},
{
"epoch": 1.116,
"grad_norm": 4.125,
"learning_rate": 2.7245049618797776e-06,
"loss": 1.0803545713424683,
"step": 1674
},
{
"epoch": 1.1173333333333333,
"grad_norm": 2.90625,
"learning_rate": 2.7202284320864393e-06,
"loss": 1.207014799118042,
"step": 1676
},
{
"epoch": 1.1186666666666667,
"grad_norm": 6.90625,
"learning_rate": 2.715953206592117e-06,
"loss": 1.7723512649536133,
"step": 1678
},
{
"epoch": 1.12,
"grad_norm": 11.3125,
"learning_rate": 2.711679305327973e-06,
"loss": 1.7852306365966797,
"step": 1680
},
{
"epoch": 1.1213333333333333,
"grad_norm": 5.09375,
"learning_rate": 2.7074067482189957e-06,
"loss": 1.533666968345642,
"step": 1682
},
{
"epoch": 1.1226666666666667,
"grad_norm": 5.96875,
"learning_rate": 2.7031355551839056e-06,
"loss": 1.528637409210205,
"step": 1684
},
{
"epoch": 1.124,
"grad_norm": 3.796875,
"learning_rate": 2.6988657461350676e-06,
"loss": 1.445178508758545,
"step": 1686
},
{
"epoch": 1.1253333333333333,
"grad_norm": 17.875,
"learning_rate": 2.694597340978391e-06,
"loss": 1.4634462594985962,
"step": 1688
},
{
"epoch": 1.1266666666666667,
"grad_norm": 5.75,
"learning_rate": 2.690330359613241e-06,
"loss": 1.637460470199585,
"step": 1690
},
{
"epoch": 1.1280000000000001,
"grad_norm": 6.8125,
"learning_rate": 2.686064821932345e-06,
"loss": 1.4969818592071533,
"step": 1692
},
{
"epoch": 1.1293333333333333,
"grad_norm": 3.28125,
"learning_rate": 2.6818007478217e-06,
"loss": 1.0365345478057861,
"step": 1694
},
{
"epoch": 1.1306666666666667,
"grad_norm": 5.84375,
"learning_rate": 2.677538157160481e-06,
"loss": 1.9270894527435303,
"step": 1696
},
{
"epoch": 1.1320000000000001,
"grad_norm": 5.78125,
"learning_rate": 2.6732770698209448e-06,
"loss": 1.5478744506835938,
"step": 1698
},
{
"epoch": 1.1333333333333333,
"grad_norm": 1.390625,
"learning_rate": 2.6690175056683417e-06,
"loss": 1.1369259357452393,
"step": 1700
},
{
"epoch": 1.1346666666666667,
"grad_norm": 7.0625,
"learning_rate": 2.6647594845608204e-06,
"loss": 1.628596305847168,
"step": 1702
},
{
"epoch": 1.1360000000000001,
"grad_norm": 16.125,
"learning_rate": 2.660503026349335e-06,
"loss": 2.0064220428466797,
"step": 1704
},
{
"epoch": 1.1373333333333333,
"grad_norm": 7.9375,
"learning_rate": 2.6562481508775546e-06,
"loss": 1.5023362636566162,
"step": 1706
},
{
"epoch": 1.1386666666666667,
"grad_norm": 5.6875,
"learning_rate": 2.6519948779817685e-06,
"loss": 1.6183425188064575,
"step": 1708
},
{
"epoch": 1.1400000000000001,
"grad_norm": 2.09375,
"learning_rate": 2.647743227490796e-06,
"loss": 1.0072540044784546,
"step": 1710
},
{
"epoch": 1.1413333333333333,
"grad_norm": 5.21875,
"learning_rate": 2.6434932192258912e-06,
"loss": 1.5038986206054688,
"step": 1712
},
{
"epoch": 1.1426666666666667,
"grad_norm": 8.0625,
"learning_rate": 2.6392448730006536e-06,
"loss": 1.941042423248291,
"step": 1714
},
{
"epoch": 1.144,
"grad_norm": 3.84375,
"learning_rate": 2.6349982086209324e-06,
"loss": 1.1978323459625244,
"step": 1716
},
{
"epoch": 1.1453333333333333,
"grad_norm": 8.0625,
"learning_rate": 2.6307532458847386e-06,
"loss": 1.8174412250518799,
"step": 1718
},
{
"epoch": 1.1466666666666667,
"grad_norm": 6.125,
"learning_rate": 2.626510004582148e-06,
"loss": 1.5800225734710693,
"step": 1720
},
{
"epoch": 1.148,
"grad_norm": 7.78125,
"learning_rate": 2.6222685044952106e-06,
"loss": 1.6541552543640137,
"step": 1722
},
{
"epoch": 1.1493333333333333,
"grad_norm": 6.6875,
"learning_rate": 2.618028765397862e-06,
"loss": 1.5724791288375854,
"step": 1724
},
{
"epoch": 1.1506666666666667,
"grad_norm": 9.0625,
"learning_rate": 2.613790807055825e-06,
"loss": 1.9914119243621826,
"step": 1726
},
{
"epoch": 1.152,
"grad_norm": 24.5,
"learning_rate": 2.6095546492265204e-06,
"loss": 0.9788597822189331,
"step": 1728
},
{
"epoch": 1.1533333333333333,
"grad_norm": 4.90625,
"learning_rate": 2.605320311658978e-06,
"loss": 1.5182876586914062,
"step": 1730
},
{
"epoch": 1.1546666666666667,
"grad_norm": 6.1875,
"learning_rate": 2.601087814093739e-06,
"loss": 1.6977787017822266,
"step": 1732
},
{
"epoch": 1.156,
"grad_norm": 21.0,
"learning_rate": 2.596857176262766e-06,
"loss": 1.313176155090332,
"step": 1734
},
{
"epoch": 1.1573333333333333,
"grad_norm": 4.65625,
"learning_rate": 2.5926284178893533e-06,
"loss": 1.6549556255340576,
"step": 1736
},
{
"epoch": 1.1586666666666667,
"grad_norm": 13.0625,
"learning_rate": 2.588401558688033e-06,
"loss": 2.004779577255249,
"step": 1738
},
{
"epoch": 1.16,
"grad_norm": 3.21875,
"learning_rate": 2.5841766183644824e-06,
"loss": 1.2679145336151123,
"step": 1740
},
{
"epoch": 1.1613333333333333,
"grad_norm": 9.125,
"learning_rate": 2.5799536166154314e-06,
"loss": 1.4783008098602295,
"step": 1742
},
{
"epoch": 1.1626666666666667,
"grad_norm": 10.875,
"learning_rate": 2.5757325731285767e-06,
"loss": 1.916029691696167,
"step": 1744
},
{
"epoch": 1.164,
"grad_norm": 4.34375,
"learning_rate": 2.571513507582481e-06,
"loss": 1.3801783323287964,
"step": 1746
},
{
"epoch": 1.1653333333333333,
"grad_norm": 3.921875,
"learning_rate": 2.5672964396464884e-06,
"loss": 1.4577257633209229,
"step": 1748
},
{
"epoch": 1.1666666666666667,
"grad_norm": 6.03125,
"learning_rate": 2.5630813889806294e-06,
"loss": 1.5916978120803833,
"step": 1750
},
{
"epoch": 1.168,
"grad_norm": 6.875,
"learning_rate": 2.55886837523553e-06,
"loss": 1.5933470726013184,
"step": 1752
},
{
"epoch": 1.1693333333333333,
"grad_norm": 1.2578125,
"learning_rate": 2.554657418052321e-06,
"loss": 1.0478358268737793,
"step": 1754
},
{
"epoch": 1.1706666666666667,
"grad_norm": 4.53125,
"learning_rate": 2.550448537062542e-06,
"loss": 1.6661409139633179,
"step": 1756
},
{
"epoch": 1.172,
"grad_norm": 4.09375,
"learning_rate": 2.546241751888058e-06,
"loss": 1.266357421875,
"step": 1758
},
{
"epoch": 1.1733333333333333,
"grad_norm": 5.875,
"learning_rate": 2.5420370821409603e-06,
"loss": 1.9419959783554077,
"step": 1760
},
{
"epoch": 1.1746666666666667,
"grad_norm": 4.28125,
"learning_rate": 2.5378345474234777e-06,
"loss": 1.5483953952789307,
"step": 1762
},
{
"epoch": 1.176,
"grad_norm": 1.703125,
"learning_rate": 2.5336341673278896e-06,
"loss": 1.253208875656128,
"step": 1764
},
{
"epoch": 1.1773333333333333,
"grad_norm": 11.0,
"learning_rate": 2.529435961436425e-06,
"loss": 1.7776868343353271,
"step": 1766
},
{
"epoch": 1.1786666666666668,
"grad_norm": 7.21875,
"learning_rate": 2.525239949321181e-06,
"loss": 1.5882803201675415,
"step": 1768
},
{
"epoch": 1.18,
"grad_norm": 75.0,
"learning_rate": 2.5210461505440243e-06,
"loss": 1.0166734457015991,
"step": 1770
},
{
"epoch": 1.1813333333333333,
"grad_norm": 2.59375,
"learning_rate": 2.516854584656505e-06,
"loss": 1.4092483520507812,
"step": 1772
},
{
"epoch": 1.1826666666666668,
"grad_norm": 3.625,
"learning_rate": 2.5126652711997613e-06,
"loss": 1.493394136428833,
"step": 1774
},
{
"epoch": 1.184,
"grad_norm": 5.9375,
"learning_rate": 2.508478229704434e-06,
"loss": 1.5544865131378174,
"step": 1776
},
{
"epoch": 1.1853333333333333,
"grad_norm": 8.75,
"learning_rate": 2.5042934796905682e-06,
"loss": 1.7734179496765137,
"step": 1778
},
{
"epoch": 1.1866666666666668,
"grad_norm": 1.9296875,
"learning_rate": 2.50011104066753e-06,
"loss": 1.1469995975494385,
"step": 1780
},
{
"epoch": 1.188,
"grad_norm": 1.9375,
"learning_rate": 2.495930932133907e-06,
"loss": 1.056424617767334,
"step": 1782
},
{
"epoch": 1.1893333333333334,
"grad_norm": 4.5,
"learning_rate": 2.491753173577426e-06,
"loss": 1.584565281867981,
"step": 1784
},
{
"epoch": 1.1906666666666668,
"grad_norm": 7.03125,
"learning_rate": 2.4875777844748556e-06,
"loss": 1.1618425846099854,
"step": 1786
},
{
"epoch": 1.192,
"grad_norm": 2.453125,
"learning_rate": 2.4834047842919195e-06,
"loss": 0.9867179989814758,
"step": 1788
},
{
"epoch": 1.1933333333333334,
"grad_norm": 2.59375,
"learning_rate": 2.479234192483204e-06,
"loss": 1.1931567192077637,
"step": 1790
},
{
"epoch": 1.1946666666666665,
"grad_norm": 4.0,
"learning_rate": 2.4750660284920663e-06,
"loss": 1.6453449726104736,
"step": 1792
},
{
"epoch": 1.196,
"grad_norm": 7.59375,
"learning_rate": 2.4709003117505473e-06,
"loss": 1.5443363189697266,
"step": 1794
},
{
"epoch": 1.1973333333333334,
"grad_norm": 5.15625,
"learning_rate": 2.466737061679277e-06,
"loss": 1.6797435283660889,
"step": 1796
},
{
"epoch": 1.1986666666666665,
"grad_norm": 5.28125,
"learning_rate": 2.4625762976873857e-06,
"loss": 1.4136509895324707,
"step": 1798
},
{
"epoch": 1.2,
"grad_norm": 9.3125,
"learning_rate": 2.4584180391724148e-06,
"loss": 1.5729784965515137,
"step": 1800
},
{
"epoch": 1.2013333333333334,
"grad_norm": 12.75,
"learning_rate": 2.4542623055202242e-06,
"loss": 1.860079288482666,
"step": 1802
},
{
"epoch": 1.2026666666666666,
"grad_norm": 7.03125,
"learning_rate": 2.450109116104903e-06,
"loss": 1.5427799224853516,
"step": 1804
},
{
"epoch": 1.204,
"grad_norm": 1.9375,
"learning_rate": 2.4459584902886798e-06,
"loss": 1.1774003505706787,
"step": 1806
},
{
"epoch": 1.2053333333333334,
"grad_norm": 7.9375,
"learning_rate": 2.44181044742183e-06,
"loss": 1.9959464073181152,
"step": 1808
},
{
"epoch": 1.2066666666666666,
"grad_norm": 5.4375,
"learning_rate": 2.437665006842589e-06,
"loss": 1.5742697715759277,
"step": 1810
},
{
"epoch": 1.208,
"grad_norm": 1.9921875,
"learning_rate": 2.433522187877059e-06,
"loss": 1.152430772781372,
"step": 1812
},
{
"epoch": 1.2093333333333334,
"grad_norm": 1.6640625,
"learning_rate": 2.4293820098391206e-06,
"loss": 1.106142282485962,
"step": 1814
},
{
"epoch": 1.2106666666666666,
"grad_norm": 7.09375,
"learning_rate": 2.4252444920303442e-06,
"loss": 1.5196865797042847,
"step": 1816
},
{
"epoch": 1.212,
"grad_norm": 4.46875,
"learning_rate": 2.4211096537398945e-06,
"loss": 1.5185796022415161,
"step": 1818
},
{
"epoch": 1.2133333333333334,
"grad_norm": 10.5625,
"learning_rate": 2.4169775142444472e-06,
"loss": 0.9786717295646667,
"step": 1820
},
{
"epoch": 1.2146666666666666,
"grad_norm": 5.1875,
"learning_rate": 2.412848092808095e-06,
"loss": 1.836982011795044,
"step": 1822
},
{
"epoch": 1.216,
"grad_norm": 3.953125,
"learning_rate": 2.408721408682259e-06,
"loss": 1.1979806423187256,
"step": 1824
},
{
"epoch": 1.2173333333333334,
"grad_norm": 4.8125,
"learning_rate": 2.4045974811055995e-06,
"loss": 1.5440890789031982,
"step": 1826
},
{
"epoch": 1.2186666666666666,
"grad_norm": 3.65625,
"learning_rate": 2.4004763293039253e-06,
"loss": 1.1417531967163086,
"step": 1828
},
{
"epoch": 1.22,
"grad_norm": 2.796875,
"learning_rate": 2.396357972490104e-06,
"loss": 1.2566338777542114,
"step": 1830
},
{
"epoch": 1.2213333333333334,
"grad_norm": 5.71875,
"learning_rate": 2.392242429863974e-06,
"loss": 1.178492546081543,
"step": 1832
},
{
"epoch": 1.2226666666666666,
"grad_norm": 5.09375,
"learning_rate": 2.3881297206122526e-06,
"loss": 1.5269526243209839,
"step": 1834
},
{
"epoch": 1.224,
"grad_norm": 3.171875,
"learning_rate": 2.38401986390845e-06,
"loss": 1.0146985054016113,
"step": 1836
},
{
"epoch": 1.2253333333333334,
"grad_norm": 2.359375,
"learning_rate": 2.3799128789127756e-06,
"loss": 1.1452817916870117,
"step": 1838
},
{
"epoch": 1.2266666666666666,
"grad_norm": 5.0625,
"learning_rate": 2.3758087847720518e-06,
"loss": 1.9190927743911743,
"step": 1840
},
{
"epoch": 1.228,
"grad_norm": 6.0,
"learning_rate": 2.3717076006196234e-06,
"loss": 1.6128742694854736,
"step": 1842
},
{
"epoch": 1.2293333333333334,
"grad_norm": 2.015625,
"learning_rate": 2.3676093455752695e-06,
"loss": 1.142547845840454,
"step": 1844
},
{
"epoch": 1.2306666666666666,
"grad_norm": 5.0625,
"learning_rate": 2.363514038745113e-06,
"loss": 1.5303454399108887,
"step": 1846
},
{
"epoch": 1.232,
"grad_norm": 7.0625,
"learning_rate": 2.3594216992215324e-06,
"loss": 1.9574984312057495,
"step": 1848
},
{
"epoch": 1.2333333333333334,
"grad_norm": 3.125,
"learning_rate": 2.3553323460830723e-06,
"loss": 1.140625238418579,
"step": 1850
},
{
"epoch": 1.2346666666666666,
"grad_norm": 4.375,
"learning_rate": 2.351245998394356e-06,
"loss": 1.6304525136947632,
"step": 1852
},
{
"epoch": 1.236,
"grad_norm": 6.84375,
"learning_rate": 2.347162675205993e-06,
"loss": 1.058687448501587,
"step": 1854
},
{
"epoch": 1.2373333333333334,
"grad_norm": 8.9375,
"learning_rate": 2.3430823955544947e-06,
"loss": 1.610640287399292,
"step": 1856
},
{
"epoch": 1.2386666666666666,
"grad_norm": 11.875,
"learning_rate": 2.339005178462183e-06,
"loss": 2.0690908432006836,
"step": 1858
},
{
"epoch": 1.24,
"grad_norm": 4.9375,
"learning_rate": 2.3349310429371014e-06,
"loss": 1.5361344814300537,
"step": 1860
},
{
"epoch": 1.2413333333333334,
"grad_norm": 6.46875,
"learning_rate": 2.330860007972927e-06,
"loss": 1.52693510055542,
"step": 1862
},
{
"epoch": 1.2426666666666666,
"grad_norm": 3.9375,
"learning_rate": 2.3267920925488833e-06,
"loss": 1.5994844436645508,
"step": 1864
},
{
"epoch": 1.244,
"grad_norm": 7.53125,
"learning_rate": 2.3227273156296486e-06,
"loss": 1.8968441486358643,
"step": 1866
},
{
"epoch": 1.2453333333333334,
"grad_norm": 4.71875,
"learning_rate": 2.3186656961652722e-06,
"loss": 1.1545343399047852,
"step": 1868
},
{
"epoch": 1.2466666666666666,
"grad_norm": 10.6875,
"learning_rate": 2.3146072530910804e-06,
"loss": 1.5420873165130615,
"step": 1870
},
{
"epoch": 1.248,
"grad_norm": 1.4296875,
"learning_rate": 2.3105520053275928e-06,
"loss": 1.0231177806854248,
"step": 1872
},
{
"epoch": 1.2493333333333334,
"grad_norm": 15.6875,
"learning_rate": 2.306499971780432e-06,
"loss": 1.553828239440918,
"step": 1874
},
{
"epoch": 1.2506666666666666,
"grad_norm": 4.84375,
"learning_rate": 2.3024511713402358e-06,
"loss": 1.510333776473999,
"step": 1876
},
{
"epoch": 1.252,
"grad_norm": 4.59375,
"learning_rate": 2.298405622882569e-06,
"loss": 1.556577444076538,
"step": 1878
},
{
"epoch": 1.2533333333333334,
"grad_norm": 1.875,
"learning_rate": 2.294363345267836e-06,
"loss": 1.2078943252563477,
"step": 1880
},
{
"epoch": 1.2546666666666666,
"grad_norm": 1.640625,
"learning_rate": 2.2903243573411926e-06,
"loss": 1.112194299697876,
"step": 1882
},
{
"epoch": 1.256,
"grad_norm": 1.7734375,
"learning_rate": 2.286288677932457e-06,
"loss": 1.247178554534912,
"step": 1884
},
{
"epoch": 1.2573333333333334,
"grad_norm": 2.4375,
"learning_rate": 2.282256325856025e-06,
"loss": 1.1059410572052002,
"step": 1886
},
{
"epoch": 1.2586666666666666,
"grad_norm": 8.0,
"learning_rate": 2.2782273199107783e-06,
"loss": 1.9317150115966797,
"step": 1888
},
{
"epoch": 1.26,
"grad_norm": 5.25,
"learning_rate": 2.2742016788799996e-06,
"loss": 1.4922699928283691,
"step": 1890
},
{
"epoch": 1.2613333333333334,
"grad_norm": 11.5,
"learning_rate": 2.2701794215312854e-06,
"loss": 1.8612873554229736,
"step": 1892
},
{
"epoch": 1.2626666666666666,
"grad_norm": 6.53125,
"learning_rate": 2.266160566616456e-06,
"loss": 1.5477168560028076,
"step": 1894
},
{
"epoch": 1.264,
"grad_norm": 4.65625,
"learning_rate": 2.26214513287147e-06,
"loss": 1.510019063949585,
"step": 1896
},
{
"epoch": 1.2653333333333334,
"grad_norm": 9.0625,
"learning_rate": 2.2581331390163364e-06,
"loss": 2.0930213928222656,
"step": 1898
},
{
"epoch": 1.2666666666666666,
"grad_norm": 3.0625,
"learning_rate": 2.254124603755027e-06,
"loss": 0.9632862210273743,
"step": 1900
},
{
"epoch": 1.268,
"grad_norm": 4.84375,
"learning_rate": 2.2501195457753912e-06,
"loss": 1.6332876682281494,
"step": 1902
},
{
"epoch": 1.2693333333333334,
"grad_norm": 8.5625,
"learning_rate": 2.2461179837490648e-06,
"loss": 1.3594850301742554,
"step": 1904
},
{
"epoch": 1.2706666666666666,
"grad_norm": 10.4375,
"learning_rate": 2.242119936331387e-06,
"loss": 2.073132038116455,
"step": 1906
},
{
"epoch": 1.272,
"grad_norm": 9.3125,
"learning_rate": 2.2381254221613122e-06,
"loss": 1.5879173278808594,
"step": 1908
},
{
"epoch": 1.2733333333333334,
"grad_norm": 31.875,
"learning_rate": 2.2341344598613212e-06,
"loss": 0.8240858912467957,
"step": 1910
},
{
"epoch": 1.2746666666666666,
"grad_norm": 2.84375,
"learning_rate": 2.230147068037338e-06,
"loss": 1.0706063508987427,
"step": 1912
},
{
"epoch": 1.276,
"grad_norm": 2.828125,
"learning_rate": 2.226163265278639e-06,
"loss": 1.1408822536468506,
"step": 1914
},
{
"epoch": 1.2773333333333334,
"grad_norm": 27.25,
"learning_rate": 2.2221830701577695e-06,
"loss": 1.6000707149505615,
"step": 1916
},
{
"epoch": 1.2786666666666666,
"grad_norm": 2.640625,
"learning_rate": 2.218206501230455e-06,
"loss": 1.1268792152404785,
"step": 1918
},
{
"epoch": 1.28,
"grad_norm": 3.234375,
"learning_rate": 2.2142335770355166e-06,
"loss": 1.3399468660354614,
"step": 1920
},
{
"epoch": 1.2813333333333334,
"grad_norm": 6.09375,
"learning_rate": 2.2102643160947834e-06,
"loss": 1.5325706005096436,
"step": 1922
},
{
"epoch": 1.2826666666666666,
"grad_norm": 1.640625,
"learning_rate": 2.2062987369130062e-06,
"loss": 1.1318565607070923,
"step": 1924
},
{
"epoch": 1.284,
"grad_norm": 6.0625,
"learning_rate": 2.2023368579777706e-06,
"loss": 1.484031319618225,
"step": 1926
},
{
"epoch": 1.2853333333333334,
"grad_norm": 2.8125,
"learning_rate": 2.198378697759413e-06,
"loss": 1.2130866050720215,
"step": 1928
},
{
"epoch": 1.2866666666666666,
"grad_norm": 9.4375,
"learning_rate": 2.1944242747109333e-06,
"loss": 2.0494606494903564,
"step": 1930
},
{
"epoch": 1.288,
"grad_norm": 5.8125,
"learning_rate": 2.190473607267906e-06,
"loss": 1.8861929178237915,
"step": 1932
},
{
"epoch": 1.2893333333333334,
"grad_norm": 4.90625,
"learning_rate": 2.1865267138484004e-06,
"loss": 1.6522796154022217,
"step": 1934
},
{
"epoch": 1.2906666666666666,
"grad_norm": 5.9375,
"learning_rate": 2.1825836128528884e-06,
"loss": 1.8132810592651367,
"step": 1936
},
{
"epoch": 1.292,
"grad_norm": 4.3125,
"learning_rate": 2.178644322664163e-06,
"loss": 1.5035209655761719,
"step": 1938
},
{
"epoch": 1.2933333333333334,
"grad_norm": 15.1875,
"learning_rate": 2.1747088616472517e-06,
"loss": 1.7719671726226807,
"step": 1940
},
{
"epoch": 1.2946666666666666,
"grad_norm": 4.0625,
"learning_rate": 2.1707772481493286e-06,
"loss": 1.5210639238357544,
"step": 1942
},
{
"epoch": 1.296,
"grad_norm": 6.0625,
"learning_rate": 2.166849500499632e-06,
"loss": 1.6196399927139282,
"step": 1944
},
{
"epoch": 1.2973333333333334,
"grad_norm": 7.4375,
"learning_rate": 2.162925637009377e-06,
"loss": 1.1646780967712402,
"step": 1946
},
{
"epoch": 1.2986666666666666,
"grad_norm": 11.5625,
"learning_rate": 2.1590056759716712e-06,
"loss": 1.9841561317443848,
"step": 1948
},
{
"epoch": 1.3,
"grad_norm": 6.8125,
"learning_rate": 2.1550896356614282e-06,
"loss": 1.5786137580871582,
"step": 1950
},
{
"epoch": 1.3013333333333335,
"grad_norm": 5.375,
"learning_rate": 2.1511775343352835e-06,
"loss": 1.5352140665054321,
"step": 1952
},
{
"epoch": 1.3026666666666666,
"grad_norm": 6.75,
"learning_rate": 2.147269390231509e-06,
"loss": 1.5395886898040771,
"step": 1954
},
{
"epoch": 1.304,
"grad_norm": 6.25,
"learning_rate": 2.143365221569927e-06,
"loss": 1.6343798637390137,
"step": 1956
},
{
"epoch": 1.3053333333333335,
"grad_norm": 6.0,
"learning_rate": 2.139465046551829e-06,
"loss": 1.6449880599975586,
"step": 1958
},
{
"epoch": 1.3066666666666666,
"grad_norm": 11.375,
"learning_rate": 2.135568883359885e-06,
"loss": 1.9318366050720215,
"step": 1960
},
{
"epoch": 1.308,
"grad_norm": 17.875,
"learning_rate": 2.1316767501580636e-06,
"loss": 1.664994478225708,
"step": 1962
},
{
"epoch": 1.3093333333333335,
"grad_norm": 1.9765625,
"learning_rate": 2.127788665091545e-06,
"loss": 1.0485271215438843,
"step": 1964
},
{
"epoch": 1.3106666666666666,
"grad_norm": 15.9375,
"learning_rate": 2.1239046462866358e-06,
"loss": 1.8190348148345947,
"step": 1966
},
{
"epoch": 1.312,
"grad_norm": 1.796875,
"learning_rate": 2.120024711850688e-06,
"loss": 1.0631358623504639,
"step": 1968
},
{
"epoch": 1.3133333333333335,
"grad_norm": 6.71875,
"learning_rate": 2.11614887987201e-06,
"loss": 1.3473261594772339,
"step": 1970
},
{
"epoch": 1.3146666666666667,
"grad_norm": 8.625,
"learning_rate": 2.1122771684197864e-06,
"loss": 1.7255139350891113,
"step": 1972
},
{
"epoch": 1.316,
"grad_norm": 10.5,
"learning_rate": 2.10840959554399e-06,
"loss": 2.001613140106201,
"step": 1974
},
{
"epoch": 1.3173333333333335,
"grad_norm": 5.5,
"learning_rate": 2.104546179275301e-06,
"loss": 1.5933119058609009,
"step": 1976
},
{
"epoch": 1.3186666666666667,
"grad_norm": 5.15625,
"learning_rate": 2.100686937625021e-06,
"loss": 1.5122944116592407,
"step": 1978
},
{
"epoch": 1.32,
"grad_norm": 7.46875,
"learning_rate": 2.0968318885849885e-06,
"loss": 1.4772236347198486,
"step": 1980
},
{
"epoch": 1.3213333333333335,
"grad_norm": 4.8125,
"learning_rate": 2.0929810501274973e-06,
"loss": 1.4999642372131348,
"step": 1982
},
{
"epoch": 1.3226666666666667,
"grad_norm": 14.125,
"learning_rate": 2.089134440205211e-06,
"loss": 2.0060179233551025,
"step": 1984
},
{
"epoch": 1.324,
"grad_norm": 3.34375,
"learning_rate": 2.085292076751079e-06,
"loss": 1.3181127309799194,
"step": 1986
},
{
"epoch": 1.3253333333333333,
"grad_norm": 5.28125,
"learning_rate": 2.081453977678254e-06,
"loss": 1.6507904529571533,
"step": 1988
},
{
"epoch": 1.3266666666666667,
"grad_norm": 7.125,
"learning_rate": 2.07762016088001e-06,
"loss": 1.5215134620666504,
"step": 1990
},
{
"epoch": 1.328,
"grad_norm": 4.6875,
"learning_rate": 2.073790644229654e-06,
"loss": 1.5981347560882568,
"step": 1992
},
{
"epoch": 1.3293333333333333,
"grad_norm": 33.5,
"learning_rate": 2.0699654455804467e-06,
"loss": 1.7263144254684448,
"step": 1994
},
{
"epoch": 1.3306666666666667,
"grad_norm": 7.59375,
"learning_rate": 2.0661445827655193e-06,
"loss": 2.1011343002319336,
"step": 1996
},
{
"epoch": 1.332,
"grad_norm": 2.984375,
"learning_rate": 2.062328073597787e-06,
"loss": 1.034977674484253,
"step": 1998
},
{
"epoch": 1.3333333333333333,
"grad_norm": 8.875,
"learning_rate": 2.0585159358698712e-06,
"loss": 1.8760616779327393,
"step": 2000
},
{
"epoch": 1.3346666666666667,
"grad_norm": 5.65625,
"learning_rate": 2.054708187354012e-06,
"loss": 1.6555390357971191,
"step": 2002
},
{
"epoch": 1.336,
"grad_norm": 1.5703125,
"learning_rate": 2.0509048458019854e-06,
"loss": 1.060708999633789,
"step": 2004
},
{
"epoch": 1.3373333333333333,
"grad_norm": 4.96875,
"learning_rate": 2.0471059289450255e-06,
"loss": 1.4976744651794434,
"step": 2006
},
{
"epoch": 1.3386666666666667,
"grad_norm": 5.53125,
"learning_rate": 2.0433114544937353e-06,
"loss": 1.5674824714660645,
"step": 2008
},
{
"epoch": 1.34,
"grad_norm": 6.09375,
"learning_rate": 2.0395214401380087e-06,
"loss": 1.5714900493621826,
"step": 2010
},
{
"epoch": 1.3413333333333333,
"grad_norm": 5.6875,
"learning_rate": 2.0357359035469467e-06,
"loss": 1.2028818130493164,
"step": 2012
},
{
"epoch": 1.3426666666666667,
"grad_norm": 25.0,
"learning_rate": 2.0319548623687746e-06,
"loss": 1.6153771877288818,
"step": 2014
},
{
"epoch": 1.3439999999999999,
"grad_norm": 6.125,
"learning_rate": 2.0281783342307596e-06,
"loss": 1.6412135362625122,
"step": 2016
},
{
"epoch": 1.3453333333333333,
"grad_norm": 7.125,
"learning_rate": 2.0244063367391296e-06,
"loss": 1.9324005842208862,
"step": 2018
},
{
"epoch": 1.3466666666666667,
"grad_norm": 1.9453125,
"learning_rate": 2.0206388874789907e-06,
"loss": 1.1473610401153564,
"step": 2020
},
{
"epoch": 1.3479999999999999,
"grad_norm": 7.40625,
"learning_rate": 2.0168760040142444e-06,
"loss": 1.558716058731079,
"step": 2022
},
{
"epoch": 1.3493333333333333,
"grad_norm": 4.09375,
"learning_rate": 2.0131177038875065e-06,
"loss": 1.479658842086792,
"step": 2024
},
{
"epoch": 1.3506666666666667,
"grad_norm": 5.25,
"learning_rate": 2.0093640046200256e-06,
"loss": 1.5598819255828857,
"step": 2026
},
{
"epoch": 1.3519999999999999,
"grad_norm": 6.40625,
"learning_rate": 2.0056149237116016e-06,
"loss": 1.6746928691864014,
"step": 2028
},
{
"epoch": 1.3533333333333333,
"grad_norm": 2.46875,
"learning_rate": 2.0018704786405014e-06,
"loss": 1.2208452224731445,
"step": 2030
},
{
"epoch": 1.3546666666666667,
"grad_norm": 22.25,
"learning_rate": 1.9981306868633833e-06,
"loss": 1.6869182586669922,
"step": 2032
},
{
"epoch": 1.3559999999999999,
"grad_norm": 2.203125,
"learning_rate": 1.9943955658152076e-06,
"loss": 1.0717189311981201,
"step": 2034
},
{
"epoch": 1.3573333333333333,
"grad_norm": 4.59375,
"learning_rate": 1.990665132909163e-06,
"loss": 1.4844554662704468,
"step": 2036
},
{
"epoch": 1.3586666666666667,
"grad_norm": 7.4375,
"learning_rate": 1.986939405536579e-06,
"loss": 1.8831037282943726,
"step": 2038
},
{
"epoch": 1.3599999999999999,
"grad_norm": 6.40625,
"learning_rate": 1.983218401066851e-06,
"loss": 1.8292875289916992,
"step": 2040
},
{
"epoch": 1.3613333333333333,
"grad_norm": 3.921875,
"learning_rate": 1.979502136847353e-06,
"loss": 1.5935251712799072,
"step": 2042
},
{
"epoch": 1.3626666666666667,
"grad_norm": 2.6875,
"learning_rate": 1.9757906302033636e-06,
"loss": 1.0542124509811401,
"step": 2044
},
{
"epoch": 1.3639999999999999,
"grad_norm": 5.03125,
"learning_rate": 1.9720838984379774e-06,
"loss": 1.5523146390914917,
"step": 2046
},
{
"epoch": 1.3653333333333333,
"grad_norm": 5.5,
"learning_rate": 1.9683819588320308e-06,
"loss": 1.5258020162582397,
"step": 2048
},
{
"epoch": 1.3666666666666667,
"grad_norm": 6.28125,
"learning_rate": 1.9646848286440195e-06,
"loss": 1.9182220697402954,
"step": 2050
},
{
"epoch": 1.3679999999999999,
"grad_norm": 4.53125,
"learning_rate": 1.960992525110017e-06,
"loss": 1.5669327974319458,
"step": 2052
},
{
"epoch": 1.3693333333333333,
"grad_norm": 4.40625,
"learning_rate": 1.957305065443594e-06,
"loss": 1.4941010475158691,
"step": 2054
},
{
"epoch": 1.3706666666666667,
"grad_norm": 3.203125,
"learning_rate": 1.95362246683574e-06,
"loss": 1.2234654426574707,
"step": 2056
},
{
"epoch": 1.3719999999999999,
"grad_norm": 5.4375,
"learning_rate": 1.949944746454782e-06,
"loss": 1.5590747594833374,
"step": 2058
},
{
"epoch": 1.3733333333333333,
"grad_norm": 13.1875,
"learning_rate": 1.946271921446304e-06,
"loss": 2.0392696857452393,
"step": 2060
},
{
"epoch": 1.3746666666666667,
"grad_norm": 1.8359375,
"learning_rate": 1.94260400893307e-06,
"loss": 1.2967076301574707,
"step": 2062
},
{
"epoch": 1.376,
"grad_norm": 10.4375,
"learning_rate": 1.9389410260149376e-06,
"loss": 1.4139618873596191,
"step": 2064
},
{
"epoch": 1.3773333333333333,
"grad_norm": 6.25,
"learning_rate": 1.935282989768787e-06,
"loss": 1.6094778776168823,
"step": 2066
},
{
"epoch": 1.3786666666666667,
"grad_norm": 7.4375,
"learning_rate": 1.931629917248434e-06,
"loss": 1.943546175956726,
"step": 2068
},
{
"epoch": 1.38,
"grad_norm": 7.46875,
"learning_rate": 1.9279818254845554e-06,
"loss": 1.8869085311889648,
"step": 2070
},
{
"epoch": 1.3813333333333333,
"grad_norm": 1.8984375,
"learning_rate": 1.924338731484606e-06,
"loss": 0.9827399253845215,
"step": 2072
},
{
"epoch": 1.3826666666666667,
"grad_norm": 13.875,
"learning_rate": 1.920700652232742e-06,
"loss": 1.617384910583496,
"step": 2074
},
{
"epoch": 1.384,
"grad_norm": 4.6875,
"learning_rate": 1.9170676046897407e-06,
"loss": 1.644477367401123,
"step": 2076
},
{
"epoch": 1.3853333333333333,
"grad_norm": 20.0,
"learning_rate": 1.9134396057929204e-06,
"loss": 2.099134922027588,
"step": 2078
},
{
"epoch": 1.3866666666666667,
"grad_norm": 5.59375,
"learning_rate": 1.909816672456064e-06,
"loss": 1.6014119386672974,
"step": 2080
},
{
"epoch": 1.388,
"grad_norm": 3.34375,
"learning_rate": 1.906198821569338e-06,
"loss": 1.2930165529251099,
"step": 2082
},
{
"epoch": 1.3893333333333333,
"grad_norm": 3.4375,
"learning_rate": 1.9025860699992149e-06,
"loss": 1.1446359157562256,
"step": 2084
},
{
"epoch": 1.3906666666666667,
"grad_norm": 8.5,
"learning_rate": 1.8989784345883932e-06,
"loss": 1.6573563814163208,
"step": 2086
},
{
"epoch": 1.392,
"grad_norm": 13.6875,
"learning_rate": 1.8953759321557205e-06,
"loss": 1.7369401454925537,
"step": 2088
},
{
"epoch": 1.3933333333333333,
"grad_norm": 5.34375,
"learning_rate": 1.8917785794961143e-06,
"loss": 1.5765206813812256,
"step": 2090
},
{
"epoch": 1.3946666666666667,
"grad_norm": 8.125,
"learning_rate": 1.8881863933804839e-06,
"loss": 1.629734754562378,
"step": 2092
},
{
"epoch": 1.396,
"grad_norm": 7.21875,
"learning_rate": 1.8845993905556515e-06,
"loss": 1.5609703063964844,
"step": 2094
},
{
"epoch": 1.3973333333333333,
"grad_norm": 8.5625,
"learning_rate": 1.8810175877442754e-06,
"loss": 1.5186164379119873,
"step": 2096
},
{
"epoch": 1.3986666666666667,
"grad_norm": 17.375,
"learning_rate": 1.8774410016447708e-06,
"loss": 0.563239574432373,
"step": 2098
},
{
"epoch": 1.4,
"grad_norm": 8.9375,
"learning_rate": 1.8738696489312333e-06,
"loss": 1.5320698022842407,
"step": 2100
},
{
"epoch": 1.4013333333333333,
"grad_norm": 7.59375,
"learning_rate": 1.8703035462533593e-06,
"loss": 1.6705598831176758,
"step": 2102
},
{
"epoch": 1.4026666666666667,
"grad_norm": 2.375,
"learning_rate": 1.8667427102363705e-06,
"loss": 1.0009243488311768,
"step": 2104
},
{
"epoch": 1.404,
"grad_norm": 1.3359375,
"learning_rate": 1.8631871574809346e-06,
"loss": 1.0675292015075684,
"step": 2106
},
{
"epoch": 1.4053333333333333,
"grad_norm": 12.9375,
"learning_rate": 1.859636904563089e-06,
"loss": 0.8650450706481934,
"step": 2108
},
{
"epoch": 1.4066666666666667,
"grad_norm": 12.875,
"learning_rate": 1.8560919680341638e-06,
"loss": 1.9227575063705444,
"step": 2110
},
{
"epoch": 1.408,
"grad_norm": 2.34375,
"learning_rate": 1.8525523644207023e-06,
"loss": 0.9330441951751709,
"step": 2112
},
{
"epoch": 1.4093333333333333,
"grad_norm": 5.875,
"learning_rate": 1.8490181102243873e-06,
"loss": 1.6113357543945312,
"step": 2114
},
{
"epoch": 1.4106666666666667,
"grad_norm": 5.96875,
"learning_rate": 1.845489221921962e-06,
"loss": 1.504434585571289,
"step": 2116
},
{
"epoch": 1.412,
"grad_norm": 8.5,
"learning_rate": 1.8419657159651535e-06,
"loss": 1.9374301433563232,
"step": 2118
},
{
"epoch": 1.4133333333333333,
"grad_norm": 8.625,
"learning_rate": 1.8384476087805967e-06,
"loss": 1.6084973812103271,
"step": 2120
},
{
"epoch": 1.4146666666666667,
"grad_norm": 7.5,
"learning_rate": 1.834934916769756e-06,
"loss": 1.7915997505187988,
"step": 2122
},
{
"epoch": 1.416,
"grad_norm": 4.53125,
"learning_rate": 1.831427656308854e-06,
"loss": 1.4243714809417725,
"step": 2124
},
{
"epoch": 1.4173333333333333,
"grad_norm": 10.0625,
"learning_rate": 1.8279258437487866e-06,
"loss": 1.8718931674957275,
"step": 2126
},
{
"epoch": 1.4186666666666667,
"grad_norm": 6.875,
"learning_rate": 1.8244294954150544e-06,
"loss": 1.1055264472961426,
"step": 2128
},
{
"epoch": 1.42,
"grad_norm": 3.046875,
"learning_rate": 1.8209386276076824e-06,
"loss": 1.1865965127944946,
"step": 2130
},
{
"epoch": 1.4213333333333333,
"grad_norm": 1.84375,
"learning_rate": 1.817453256601146e-06,
"loss": 1.0315593481063843,
"step": 2132
},
{
"epoch": 1.4226666666666667,
"grad_norm": 30.25,
"learning_rate": 1.8139733986442947e-06,
"loss": 1.6489253044128418,
"step": 2134
},
{
"epoch": 1.424,
"grad_norm": 20.0,
"learning_rate": 1.8104990699602753e-06,
"loss": 1.575264811515808,
"step": 2136
},
{
"epoch": 1.4253333333333333,
"grad_norm": 3.234375,
"learning_rate": 1.8070302867464562e-06,
"loss": 1.0482765436172485,
"step": 2138
},
{
"epoch": 1.4266666666666667,
"grad_norm": 5.6875,
"learning_rate": 1.8035670651743565e-06,
"loss": 1.56797456741333,
"step": 2140
},
{
"epoch": 1.428,
"grad_norm": 10.9375,
"learning_rate": 1.800109421389562e-06,
"loss": 1.4143714904785156,
"step": 2142
},
{
"epoch": 1.4293333333333333,
"grad_norm": 9.8125,
"learning_rate": 1.7966573715116587e-06,
"loss": 1.5282375812530518,
"step": 2144
},
{
"epoch": 1.4306666666666668,
"grad_norm": 3.9375,
"learning_rate": 1.793210931634151e-06,
"loss": 1.146159291267395,
"step": 2146
},
{
"epoch": 1.432,
"grad_norm": 7.375,
"learning_rate": 1.7897701178243906e-06,
"loss": 1.529174566268921,
"step": 2148
},
{
"epoch": 1.4333333333333333,
"grad_norm": 16.75,
"learning_rate": 1.7863349461235005e-06,
"loss": 1.9610891342163086,
"step": 2150
},
{
"epoch": 1.4346666666666668,
"grad_norm": 3.375,
"learning_rate": 1.7829054325463e-06,
"loss": 1.559476375579834,
"step": 2152
},
{
"epoch": 1.436,
"grad_norm": 5.4375,
"learning_rate": 1.7794815930812295e-06,
"loss": 1.5697715282440186,
"step": 2154
},
{
"epoch": 1.4373333333333334,
"grad_norm": 6.59375,
"learning_rate": 1.776063443690278e-06,
"loss": 1.6537988185882568,
"step": 2156
},
{
"epoch": 1.4386666666666668,
"grad_norm": 5.4375,
"learning_rate": 1.7726510003089054e-06,
"loss": 1.6215872764587402,
"step": 2158
},
{
"epoch": 1.44,
"grad_norm": 8.125,
"learning_rate": 1.7692442788459719e-06,
"loss": 1.3466334342956543,
"step": 2160
},
{
"epoch": 1.4413333333333334,
"grad_norm": 15.0625,
"learning_rate": 1.7658432951836608e-06,
"loss": 1.5198026895523071,
"step": 2162
},
{
"epoch": 1.4426666666666668,
"grad_norm": 1.8203125,
"learning_rate": 1.7624480651774062e-06,
"loss": 1.1337813138961792,
"step": 2164
},
{
"epoch": 1.444,
"grad_norm": 7.6875,
"learning_rate": 1.7590586046558189e-06,
"loss": 1.928809642791748,
"step": 2166
},
{
"epoch": 1.4453333333333334,
"grad_norm": 4.46875,
"learning_rate": 1.7556749294206116e-06,
"loss": 1.5531928539276123,
"step": 2168
},
{
"epoch": 1.4466666666666668,
"grad_norm": 1.3984375,
"learning_rate": 1.7522970552465263e-06,
"loss": 1.1785309314727783,
"step": 2170
},
{
"epoch": 1.448,
"grad_norm": 4.90625,
"learning_rate": 1.7489249978812595e-06,
"loss": 1.4006869792938232,
"step": 2172
},
{
"epoch": 1.4493333333333334,
"grad_norm": 6.3125,
"learning_rate": 1.7455587730453922e-06,
"loss": 1.6306333541870117,
"step": 2174
},
{
"epoch": 1.4506666666666668,
"grad_norm": 4.875,
"learning_rate": 1.7421983964323111e-06,
"loss": 1.730469822883606,
"step": 2176
},
{
"epoch": 1.452,
"grad_norm": 2.234375,
"learning_rate": 1.7388438837081401e-06,
"loss": 1.0633964538574219,
"step": 2178
},
{
"epoch": 1.4533333333333334,
"grad_norm": 8.5,
"learning_rate": 1.7354952505116645e-06,
"loss": 1.817662000656128,
"step": 2180
},
{
"epoch": 1.4546666666666668,
"grad_norm": 5.03125,
"learning_rate": 1.7321525124542604e-06,
"loss": 1.5825237035751343,
"step": 2182
},
{
"epoch": 1.456,
"grad_norm": 6.375,
"learning_rate": 1.7288156851198195e-06,
"loss": 1.6220369338989258,
"step": 2184
},
{
"epoch": 1.4573333333333334,
"grad_norm": 6.1875,
"learning_rate": 1.7254847840646785e-06,
"loss": 1.4336154460906982,
"step": 2186
},
{
"epoch": 1.4586666666666668,
"grad_norm": 5.09375,
"learning_rate": 1.7221598248175454e-06,
"loss": 1.5189586877822876,
"step": 2188
},
{
"epoch": 1.46,
"grad_norm": 9.0625,
"learning_rate": 1.7188408228794267e-06,
"loss": 1.481834888458252,
"step": 2190
},
{
"epoch": 1.4613333333333334,
"grad_norm": 157.0,
"learning_rate": 1.715527793723557e-06,
"loss": 1.8635661602020264,
"step": 2192
},
{
"epoch": 1.4626666666666668,
"grad_norm": 4.1875,
"learning_rate": 1.7122207527953256e-06,
"loss": 1.7555880546569824,
"step": 2194
},
{
"epoch": 1.464,
"grad_norm": 3.859375,
"learning_rate": 1.7089197155122035e-06,
"loss": 1.4021992683410645,
"step": 2196
},
{
"epoch": 1.4653333333333334,
"grad_norm": 44.75,
"learning_rate": 1.7056246972636737e-06,
"loss": 0.6922065615653992,
"step": 2198
},
{
"epoch": 1.4666666666666668,
"grad_norm": 4.34375,
"learning_rate": 1.7023357134111573e-06,
"loss": 1.5009167194366455,
"step": 2200
},
{
"epoch": 1.468,
"grad_norm": 5.71875,
"learning_rate": 1.6990527792879447e-06,
"loss": 1.750756025314331,
"step": 2202
},
{
"epoch": 1.4693333333333334,
"grad_norm": 7.59375,
"learning_rate": 1.6957759101991205e-06,
"loss": 1.1939451694488525,
"step": 2204
},
{
"epoch": 1.4706666666666668,
"grad_norm": 5.125,
"learning_rate": 1.6925051214214954e-06,
"loss": 1.539292335510254,
"step": 2206
},
{
"epoch": 1.472,
"grad_norm": 4.90625,
"learning_rate": 1.6892404282035335e-06,
"loss": 1.5177375078201294,
"step": 2208
},
{
"epoch": 1.4733333333333334,
"grad_norm": 6.65625,
"learning_rate": 1.6859818457652794e-06,
"loss": 1.5623188018798828,
"step": 2210
},
{
"epoch": 1.4746666666666668,
"grad_norm": 8.25,
"learning_rate": 1.6827293892982915e-06,
"loss": 2.06575870513916,
"step": 2212
},
{
"epoch": 1.476,
"grad_norm": 2.328125,
"learning_rate": 1.6794830739655677e-06,
"loss": 1.0674209594726562,
"step": 2214
},
{
"epoch": 1.4773333333333334,
"grad_norm": 6.71875,
"learning_rate": 1.676242914901477e-06,
"loss": 1.5208603143692017,
"step": 2216
},
{
"epoch": 1.4786666666666668,
"grad_norm": 4.125,
"learning_rate": 1.6730089272116856e-06,
"loss": 1.5469597578048706,
"step": 2218
},
{
"epoch": 1.48,
"grad_norm": 3.703125,
"learning_rate": 1.6697811259730913e-06,
"loss": 1.5321767330169678,
"step": 2220
},
{
"epoch": 1.4813333333333334,
"grad_norm": 15.875,
"learning_rate": 1.666559526233748e-06,
"loss": 1.7308143377304077,
"step": 2222
},
{
"epoch": 1.4826666666666668,
"grad_norm": 2.734375,
"learning_rate": 1.6633441430128001e-06,
"loss": 1.159908413887024,
"step": 2224
},
{
"epoch": 1.484,
"grad_norm": 10.125,
"learning_rate": 1.6601349913004095e-06,
"loss": 1.8157732486724854,
"step": 2226
},
{
"epoch": 1.4853333333333334,
"grad_norm": 4.71875,
"learning_rate": 1.656932086057687e-06,
"loss": 1.50502347946167,
"step": 2228
},
{
"epoch": 1.4866666666666668,
"grad_norm": 8.25,
"learning_rate": 1.6537354422166219e-06,
"loss": 1.9679980278015137,
"step": 2230
},
{
"epoch": 1.488,
"grad_norm": 6.3125,
"learning_rate": 1.6505450746800139e-06,
"loss": 1.5686023235321045,
"step": 2232
},
{
"epoch": 1.4893333333333334,
"grad_norm": 5.28125,
"learning_rate": 1.6473609983214016e-06,
"loss": 1.6479158401489258,
"step": 2234
},
{
"epoch": 1.4906666666666666,
"grad_norm": 5.78125,
"learning_rate": 1.6441832279849938e-06,
"loss": 1.948946237564087,
"step": 2236
},
{
"epoch": 1.492,
"grad_norm": 2.03125,
"learning_rate": 1.6410117784856006e-06,
"loss": 1.118719458580017,
"step": 2238
},
{
"epoch": 1.4933333333333334,
"grad_norm": 3.265625,
"learning_rate": 1.637846664608565e-06,
"loss": 0.9887099266052246,
"step": 2240
},
{
"epoch": 1.4946666666666666,
"grad_norm": 5.625,
"learning_rate": 1.6346879011096927e-06,
"loss": 1.574345588684082,
"step": 2242
},
{
"epoch": 1.496,
"grad_norm": 9.8125,
"learning_rate": 1.6315355027151836e-06,
"loss": 1.878307580947876,
"step": 2244
},
{
"epoch": 1.4973333333333334,
"grad_norm": 2.515625,
"learning_rate": 1.6283894841215642e-06,
"loss": 1.0803532600402832,
"step": 2246
},
{
"epoch": 1.4986666666666666,
"grad_norm": 2.296875,
"learning_rate": 1.6252498599956174e-06,
"loss": 1.1133677959442139,
"step": 2248
},
{
"epoch": 1.5,
"grad_norm": 4.71875,
"learning_rate": 1.6221166449743157e-06,
"loss": 1.5767303705215454,
"step": 2250
},
{
"epoch": 1.5013333333333332,
"grad_norm": 7.0,
"learning_rate": 1.6189898536647513e-06,
"loss": 1.894281029701233,
"step": 2252
},
{
"epoch": 1.5026666666666668,
"grad_norm": 2.921875,
"learning_rate": 1.6158695006440705e-06,
"loss": 1.0772048234939575,
"step": 2254
},
{
"epoch": 1.504,
"grad_norm": 13.5,
"learning_rate": 1.6127556004594028e-06,
"loss": 2.036059856414795,
"step": 2256
},
{
"epoch": 1.5053333333333332,
"grad_norm": 10.125,
"learning_rate": 1.6096481676277953e-06,
"loss": 1.9206452369689941,
"step": 2258
},
{
"epoch": 1.5066666666666668,
"grad_norm": 3.3125,
"learning_rate": 1.6065472166361435e-06,
"loss": 1.1090811491012573,
"step": 2260
},
{
"epoch": 1.508,
"grad_norm": 16.875,
"learning_rate": 1.6034527619411252e-06,
"loss": 1.9479446411132812,
"step": 2262
},
{
"epoch": 1.5093333333333332,
"grad_norm": 2.359375,
"learning_rate": 1.6003648179691312e-06,
"loss": 1.1486694812774658,
"step": 2264
},
{
"epoch": 1.5106666666666668,
"grad_norm": 10.8125,
"learning_rate": 1.5972833991162019e-06,
"loss": 1.6257998943328857,
"step": 2266
},
{
"epoch": 1.512,
"grad_norm": 8.75,
"learning_rate": 1.5942085197479542e-06,
"loss": 1.5967451333999634,
"step": 2268
},
{
"epoch": 1.5133333333333332,
"grad_norm": 8.1875,
"learning_rate": 1.5911401941995203e-06,
"loss": 1.5518248081207275,
"step": 2270
},
{
"epoch": 1.5146666666666668,
"grad_norm": 1.015625,
"learning_rate": 1.5880784367754765e-06,
"loss": 0.9718266725540161,
"step": 2272
},
{
"epoch": 1.516,
"grad_norm": 1.578125,
"learning_rate": 1.5850232617497799e-06,
"loss": 1.0614995956420898,
"step": 2274
},
{
"epoch": 1.5173333333333332,
"grad_norm": 9.0,
"learning_rate": 1.5819746833656995e-06,
"loss": 2.10675048828125,
"step": 2276
},
{
"epoch": 1.5186666666666668,
"grad_norm": 9.875,
"learning_rate": 1.5789327158357511e-06,
"loss": 1.713383674621582,
"step": 2278
},
{
"epoch": 1.52,
"grad_norm": 10.875,
"learning_rate": 1.5758973733416305e-06,
"loss": 2.0925493240356445,
"step": 2280
},
{
"epoch": 1.5213333333333332,
"grad_norm": 1.6640625,
"learning_rate": 1.5728686700341471e-06,
"loss": 1.2812188863754272,
"step": 2282
},
{
"epoch": 1.5226666666666666,
"grad_norm": 1.75,
"learning_rate": 1.5698466200331591e-06,
"loss": 1.0207161903381348,
"step": 2284
},
{
"epoch": 1.524,
"grad_norm": 13.9375,
"learning_rate": 1.5668312374275063e-06,
"loss": 1.8525854349136353,
"step": 2286
},
{
"epoch": 1.5253333333333332,
"grad_norm": 5.125,
"learning_rate": 1.5638225362749452e-06,
"loss": 1.5748333930969238,
"step": 2288
},
{
"epoch": 1.5266666666666666,
"grad_norm": 1.875,
"learning_rate": 1.560820530602083e-06,
"loss": 0.9696911573410034,
"step": 2290
},
{
"epoch": 1.528,
"grad_norm": 1.859375,
"learning_rate": 1.557825234404313e-06,
"loss": 1.1080089807510376,
"step": 2292
},
{
"epoch": 1.5293333333333332,
"grad_norm": 8.625,
"learning_rate": 1.5548366616457483e-06,
"loss": 1.7507381439208984,
"step": 2294
},
{
"epoch": 1.5306666666666666,
"grad_norm": 4.59375,
"learning_rate": 1.5518548262591577e-06,
"loss": 1.5224215984344482,
"step": 2296
},
{
"epoch": 1.532,
"grad_norm": 4.15625,
"learning_rate": 1.5488797421458998e-06,
"loss": 1.1142975091934204,
"step": 2298
},
{
"epoch": 1.5333333333333332,
"grad_norm": 1.78125,
"learning_rate": 1.545911423175859e-06,
"loss": 1.172170877456665,
"step": 2300
},
{
"epoch": 1.5346666666666666,
"grad_norm": 47.0,
"learning_rate": 1.542949883187381e-06,
"loss": 1.7134714126586914,
"step": 2302
},
{
"epoch": 1.536,
"grad_norm": 2.171875,
"learning_rate": 1.5399951359872062e-06,
"loss": 1.122593641281128,
"step": 2304
},
{
"epoch": 1.5373333333333332,
"grad_norm": 15.8125,
"learning_rate": 1.5370471953504078e-06,
"loss": 1.9810711145401,
"step": 2306
},
{
"epoch": 1.5386666666666666,
"grad_norm": 1.1875,
"learning_rate": 1.5341060750203285e-06,
"loss": 1.174625277519226,
"step": 2308
},
{
"epoch": 1.54,
"grad_norm": 6.6875,
"learning_rate": 1.5311717887085117e-06,
"loss": 1.7289341688156128,
"step": 2310
},
{
"epoch": 1.5413333333333332,
"grad_norm": 11.5625,
"learning_rate": 1.528244350094642e-06,
"loss": 1.8983392715454102,
"step": 2312
},
{
"epoch": 1.5426666666666666,
"grad_norm": 7.34375,
"learning_rate": 1.5253237728264802e-06,
"loss": 1.8950591087341309,
"step": 2314
},
{
"epoch": 1.544,
"grad_norm": 4.21875,
"learning_rate": 1.522410070519798e-06,
"loss": 1.6132075786590576,
"step": 2316
},
{
"epoch": 1.5453333333333332,
"grad_norm": 6.375,
"learning_rate": 1.5195032567583179e-06,
"loss": 1.7312850952148438,
"step": 2318
},
{
"epoch": 1.5466666666666666,
"grad_norm": 29.375,
"learning_rate": 1.5166033450936454e-06,
"loss": 0.7591425776481628,
"step": 2320
},
{
"epoch": 1.548,
"grad_norm": 6.1875,
"learning_rate": 1.5137103490452116e-06,
"loss": 1.5598540306091309,
"step": 2322
},
{
"epoch": 1.5493333333333332,
"grad_norm": 6.96875,
"learning_rate": 1.510824282100204e-06,
"loss": 1.9549357891082764,
"step": 2324
},
{
"epoch": 1.5506666666666666,
"grad_norm": 5.8125,
"learning_rate": 1.5079451577135082e-06,
"loss": 2.056565284729004,
"step": 2326
},
{
"epoch": 1.552,
"grad_norm": 65.0,
"learning_rate": 1.5050729893076421e-06,
"loss": 1.716827154159546,
"step": 2328
},
{
"epoch": 1.5533333333333332,
"grad_norm": 5.46875,
"learning_rate": 1.5022077902726964e-06,
"loss": 1.6515603065490723,
"step": 2330
},
{
"epoch": 1.5546666666666666,
"grad_norm": 7.0625,
"learning_rate": 1.4993495739662693e-06,
"loss": 1.8558051586151123,
"step": 2332
},
{
"epoch": 1.556,
"grad_norm": 10.25,
"learning_rate": 1.4964983537134053e-06,
"loss": 1.906949520111084,
"step": 2334
},
{
"epoch": 1.5573333333333332,
"grad_norm": 5.125,
"learning_rate": 1.4936541428065343e-06,
"loss": 1.5600132942199707,
"step": 2336
},
{
"epoch": 1.5586666666666666,
"grad_norm": 2.5625,
"learning_rate": 1.4908169545054077e-06,
"loss": 1.2310209274291992,
"step": 2338
},
{
"epoch": 1.56,
"grad_norm": 22.875,
"learning_rate": 1.4879868020370375e-06,
"loss": 0.6177462935447693,
"step": 2340
},
{
"epoch": 1.5613333333333332,
"grad_norm": 29.875,
"learning_rate": 1.4851636985956344e-06,
"loss": 0.6061275005340576,
"step": 2342
},
{
"epoch": 1.5626666666666666,
"grad_norm": 68.5,
"learning_rate": 1.482347657342547e-06,
"loss": 0.8461488485336304,
"step": 2344
},
{
"epoch": 1.564,
"grad_norm": 3.828125,
"learning_rate": 1.4795386914061996e-06,
"loss": 1.4999845027923584,
"step": 2346
},
{
"epoch": 1.5653333333333332,
"grad_norm": 3.796875,
"learning_rate": 1.4767368138820313e-06,
"loss": 1.50132155418396,
"step": 2348
},
{
"epoch": 1.5666666666666667,
"grad_norm": 6.28125,
"learning_rate": 1.4739420378324342e-06,
"loss": 1.525911569595337,
"step": 2350
},
{
"epoch": 1.568,
"grad_norm": 12.75,
"learning_rate": 1.4711543762866943e-06,
"loss": 2.013495445251465,
"step": 2352
},
{
"epoch": 1.5693333333333332,
"grad_norm": 2.90625,
"learning_rate": 1.4683738422409294e-06,
"loss": 1.0588361024856567,
"step": 2354
},
{
"epoch": 1.5706666666666667,
"grad_norm": 5.375,
"learning_rate": 1.4656004486580278e-06,
"loss": 1.5528647899627686,
"step": 2356
},
{
"epoch": 1.572,
"grad_norm": 3.84375,
"learning_rate": 1.4628342084675912e-06,
"loss": 1.523222804069519,
"step": 2358
},
{
"epoch": 1.5733333333333333,
"grad_norm": 5.4375,
"learning_rate": 1.4600751345658695e-06,
"loss": 1.581688642501831,
"step": 2360
},
{
"epoch": 1.5746666666666667,
"grad_norm": 5.90625,
"learning_rate": 1.4573232398157047e-06,
"loss": 1.5545933246612549,
"step": 2362
},
{
"epoch": 1.576,
"grad_norm": 5.0,
"learning_rate": 1.4545785370464693e-06,
"loss": 1.620265245437622,
"step": 2364
},
{
"epoch": 1.5773333333333333,
"grad_norm": 4.84375,
"learning_rate": 1.451841039054006e-06,
"loss": 1.459843397140503,
"step": 2366
},
{
"epoch": 1.5786666666666667,
"grad_norm": 7.1875,
"learning_rate": 1.4491107586005702e-06,
"loss": 1.4685808420181274,
"step": 2368
},
{
"epoch": 1.58,
"grad_norm": 15.75,
"learning_rate": 1.4463877084147667e-06,
"loss": 1.824225664138794,
"step": 2370
},
{
"epoch": 1.5813333333333333,
"grad_norm": 4.25,
"learning_rate": 1.4436719011914952e-06,
"loss": 1.5579168796539307,
"step": 2372
},
{
"epoch": 1.5826666666666667,
"grad_norm": 5.9375,
"learning_rate": 1.4409633495918871e-06,
"loss": 1.678511381149292,
"step": 2374
},
{
"epoch": 1.584,
"grad_norm": 1.4609375,
"learning_rate": 1.438262066243248e-06,
"loss": 0.9821925163269043,
"step": 2376
},
{
"epoch": 1.5853333333333333,
"grad_norm": 8.125,
"learning_rate": 1.4355680637390002e-06,
"loss": 1.4981456995010376,
"step": 2378
},
{
"epoch": 1.5866666666666667,
"grad_norm": 12.0,
"learning_rate": 1.4328813546386203e-06,
"loss": 1.8860352039337158,
"step": 2380
},
{
"epoch": 1.588,
"grad_norm": 4.9375,
"learning_rate": 1.4302019514675851e-06,
"loss": 1.470839023590088,
"step": 2382
},
{
"epoch": 1.5893333333333333,
"grad_norm": 20.875,
"learning_rate": 1.4275298667173099e-06,
"loss": 1.8443596363067627,
"step": 2384
},
{
"epoch": 1.5906666666666667,
"grad_norm": 9.5625,
"learning_rate": 1.424865112845092e-06,
"loss": 2.1072330474853516,
"step": 2386
},
{
"epoch": 1.592,
"grad_norm": 1.3515625,
"learning_rate": 1.422207702274051e-06,
"loss": 1.0557342767715454,
"step": 2388
},
{
"epoch": 1.5933333333333333,
"grad_norm": 6.375,
"learning_rate": 1.419557647393073e-06,
"loss": 1.6008689403533936,
"step": 2390
},
{
"epoch": 1.5946666666666667,
"grad_norm": 5.5625,
"learning_rate": 1.416914960556752e-06,
"loss": 1.618016242980957,
"step": 2392
},
{
"epoch": 1.596,
"grad_norm": 4.8125,
"learning_rate": 1.4142796540853308e-06,
"loss": 1.5180994272232056,
"step": 2394
},
{
"epoch": 1.5973333333333333,
"grad_norm": 10.375,
"learning_rate": 1.4116517402646457e-06,
"loss": 1.7874457836151123,
"step": 2396
},
{
"epoch": 1.5986666666666667,
"grad_norm": 4.21875,
"learning_rate": 1.4090312313460677e-06,
"loss": 1.2136869430541992,
"step": 2398
},
{
"epoch": 1.6,
"grad_norm": 6.03125,
"learning_rate": 1.4064181395464477e-06,
"loss": 1.5290756225585938,
"step": 2400
},
{
"epoch": 1.6013333333333333,
"grad_norm": 11.5,
"learning_rate": 1.403812477048056e-06,
"loss": 2.132098913192749,
"step": 2402
},
{
"epoch": 1.6026666666666667,
"grad_norm": 16.5,
"learning_rate": 1.4012142559985284e-06,
"loss": 1.031418800354004,
"step": 2404
},
{
"epoch": 1.604,
"grad_norm": 2.96875,
"learning_rate": 1.398623488510808e-06,
"loss": 1.2537906169891357,
"step": 2406
},
{
"epoch": 1.6053333333333333,
"grad_norm": 3.515625,
"learning_rate": 1.3960401866630895e-06,
"loss": 1.501905083656311,
"step": 2408
},
{
"epoch": 1.6066666666666667,
"grad_norm": 7.125,
"learning_rate": 1.3934643624987628e-06,
"loss": 1.5386528968811035,
"step": 2410
},
{
"epoch": 1.608,
"grad_norm": 4.5,
"learning_rate": 1.390896028026357e-06,
"loss": 1.5996134281158447,
"step": 2412
},
{
"epoch": 1.6093333333333333,
"grad_norm": 2.03125,
"learning_rate": 1.3883351952194834e-06,
"loss": 1.073486089706421,
"step": 2414
},
{
"epoch": 1.6106666666666667,
"grad_norm": 4.65625,
"learning_rate": 1.3857818760167815e-06,
"loss": 1.541170358657837,
"step": 2416
},
{
"epoch": 1.612,
"grad_norm": 6.625,
"learning_rate": 1.383236082321861e-06,
"loss": 1.6134498119354248,
"step": 2418
},
{
"epoch": 1.6133333333333333,
"grad_norm": 10.75,
"learning_rate": 1.3806978260032483e-06,
"loss": 1.8399434089660645,
"step": 2420
},
{
"epoch": 1.6146666666666667,
"grad_norm": 8.25,
"learning_rate": 1.3781671188943306e-06,
"loss": 1.7731807231903076,
"step": 2422
},
{
"epoch": 1.616,
"grad_norm": 6.71875,
"learning_rate": 1.3756439727933e-06,
"loss": 1.5749328136444092,
"step": 2424
},
{
"epoch": 1.6173333333333333,
"grad_norm": 6.34375,
"learning_rate": 1.3731283994630994e-06,
"loss": 1.8089914321899414,
"step": 2426
},
{
"epoch": 1.6186666666666667,
"grad_norm": 11.5625,
"learning_rate": 1.3706204106313677e-06,
"loss": 1.8553075790405273,
"step": 2428
},
{
"epoch": 1.62,
"grad_norm": 5.65625,
"learning_rate": 1.3681200179903841e-06,
"loss": 1.5557477474212646,
"step": 2430
},
{
"epoch": 1.6213333333333333,
"grad_norm": 9.5,
"learning_rate": 1.3656272331970147e-06,
"loss": 2.0387516021728516,
"step": 2432
},
{
"epoch": 1.6226666666666667,
"grad_norm": 7.53125,
"learning_rate": 1.3631420678726575e-06,
"loss": 1.1420713663101196,
"step": 2434
},
{
"epoch": 1.624,
"grad_norm": 15.125,
"learning_rate": 1.3606645336031884e-06,
"loss": 0.822184681892395,
"step": 2436
},
{
"epoch": 1.6253333333333333,
"grad_norm": 4.40625,
"learning_rate": 1.3581946419389071e-06,
"loss": 1.5058057308197021,
"step": 2438
},
{
"epoch": 1.6266666666666667,
"grad_norm": 11.0625,
"learning_rate": 1.3557324043944842e-06,
"loss": 1.9923133850097656,
"step": 2440
},
{
"epoch": 1.6280000000000001,
"grad_norm": 6.6875,
"learning_rate": 1.3532778324489057e-06,
"loss": 1.6043286323547363,
"step": 2442
},
{
"epoch": 1.6293333333333333,
"grad_norm": 12.25,
"learning_rate": 1.3508309375454203e-06,
"loss": 1.7089390754699707,
"step": 2444
},
{
"epoch": 1.6306666666666667,
"grad_norm": 10.375,
"learning_rate": 1.3483917310914874e-06,
"loss": 1.5101563930511475,
"step": 2446
},
{
"epoch": 1.6320000000000001,
"grad_norm": 4.3125,
"learning_rate": 1.3459602244587213e-06,
"loss": 1.580566644668579,
"step": 2448
},
{
"epoch": 1.6333333333333333,
"grad_norm": 1.8515625,
"learning_rate": 1.3435364289828417e-06,
"loss": 1.1323513984680176,
"step": 2450
},
{
"epoch": 1.6346666666666667,
"grad_norm": 2.78125,
"learning_rate": 1.3411203559636167e-06,
"loss": 1.149007797241211,
"step": 2452
},
{
"epoch": 1.6360000000000001,
"grad_norm": 11.875,
"learning_rate": 1.338712016664813e-06,
"loss": 1.757912278175354,
"step": 2454
},
{
"epoch": 1.6373333333333333,
"grad_norm": 1.8984375,
"learning_rate": 1.3363114223141424e-06,
"loss": 1.1383402347564697,
"step": 2456
},
{
"epoch": 1.6386666666666667,
"grad_norm": 8.25,
"learning_rate": 1.3339185841032098e-06,
"loss": 1.2369120121002197,
"step": 2458
},
{
"epoch": 1.6400000000000001,
"grad_norm": 10.5,
"learning_rate": 1.3315335131874615e-06,
"loss": 1.1226749420166016,
"step": 2460
},
{
"epoch": 1.6413333333333333,
"grad_norm": 6.65625,
"learning_rate": 1.3291562206861313e-06,
"loss": 2.066049814224243,
"step": 2462
},
{
"epoch": 1.6426666666666667,
"grad_norm": 6.21875,
"learning_rate": 1.3267867176821905e-06,
"loss": 1.8269095420837402,
"step": 2464
},
{
"epoch": 1.6440000000000001,
"grad_norm": 13.75,
"learning_rate": 1.3244250152222962e-06,
"loss": 1.9400553703308105,
"step": 2466
},
{
"epoch": 1.6453333333333333,
"grad_norm": 10.125,
"learning_rate": 1.3220711243167383e-06,
"loss": 1.5360229015350342,
"step": 2468
},
{
"epoch": 1.6466666666666665,
"grad_norm": 5.3125,
"learning_rate": 1.3197250559393898e-06,
"loss": 1.47464919090271,
"step": 2470
},
{
"epoch": 1.6480000000000001,
"grad_norm": 47.0,
"learning_rate": 1.3173868210276546e-06,
"loss": 1.0298049449920654,
"step": 2472
},
{
"epoch": 1.6493333333333333,
"grad_norm": 10.625,
"learning_rate": 1.3150564304824173e-06,
"loss": 1.9129880666732788,
"step": 2474
},
{
"epoch": 1.6506666666666665,
"grad_norm": 10.6875,
"learning_rate": 1.3127338951679914e-06,
"loss": 1.8743722438812256,
"step": 2476
},
{
"epoch": 1.6520000000000001,
"grad_norm": 20.125,
"learning_rate": 1.3104192259120696e-06,
"loss": 1.9373652935028076,
"step": 2478
},
{
"epoch": 1.6533333333333333,
"grad_norm": 3.34375,
"learning_rate": 1.3081124335056724e-06,
"loss": 1.0924056768417358,
"step": 2480
},
{
"epoch": 1.6546666666666665,
"grad_norm": 3.5625,
"learning_rate": 1.3058135287030994e-06,
"loss": 1.5548295974731445,
"step": 2482
},
{
"epoch": 1.6560000000000001,
"grad_norm": 3.296875,
"learning_rate": 1.3035225222218763e-06,
"loss": 1.1189805269241333,
"step": 2484
},
{
"epoch": 1.6573333333333333,
"grad_norm": 6.96875,
"learning_rate": 1.3012394247427094e-06,
"loss": 1.9380686283111572,
"step": 2486
},
{
"epoch": 1.6586666666666665,
"grad_norm": 1.953125,
"learning_rate": 1.29896424690943e-06,
"loss": 0.9920519590377808,
"step": 2488
},
{
"epoch": 1.6600000000000001,
"grad_norm": 4.0,
"learning_rate": 1.29669699932895e-06,
"loss": 1.6043567657470703,
"step": 2490
},
{
"epoch": 1.6613333333333333,
"grad_norm": 55.5,
"learning_rate": 1.2944376925712098e-06,
"loss": 1.60878324508667,
"step": 2492
},
{
"epoch": 1.6626666666666665,
"grad_norm": 10.5,
"learning_rate": 1.29218633716913e-06,
"loss": 1.898872971534729,
"step": 2494
},
{
"epoch": 1.6640000000000001,
"grad_norm": 8.625,
"learning_rate": 1.2899429436185606e-06,
"loss": 1.1359686851501465,
"step": 2496
},
{
"epoch": 1.6653333333333333,
"grad_norm": 7.0,
"learning_rate": 1.2877075223782349e-06,
"loss": 1.8120665550231934,
"step": 2498
},
{
"epoch": 1.6666666666666665,
"grad_norm": 5.5,
"learning_rate": 1.2854800838697178e-06,
"loss": 1.6861441135406494,
"step": 2500
},
{
"epoch": 1.6680000000000001,
"grad_norm": 9.4375,
"learning_rate": 1.2832606384773588e-06,
"loss": 1.9833118915557861,
"step": 2502
},
{
"epoch": 1.6693333333333333,
"grad_norm": 2.15625,
"learning_rate": 1.2810491965482453e-06,
"loss": 1.1113640069961548,
"step": 2504
},
{
"epoch": 1.6706666666666665,
"grad_norm": 5.125,
"learning_rate": 1.2788457683921495e-06,
"loss": 1.5374150276184082,
"step": 2506
},
{
"epoch": 1.6720000000000002,
"grad_norm": 8.75,
"learning_rate": 1.2766503642814853e-06,
"loss": 1.532484769821167,
"step": 2508
},
{
"epoch": 1.6733333333333333,
"grad_norm": 9.25,
"learning_rate": 1.2744629944512581e-06,
"loss": 1.9680659770965576,
"step": 2510
},
{
"epoch": 1.6746666666666665,
"grad_norm": 4.90625,
"learning_rate": 1.2722836690990167e-06,
"loss": 1.4476611614227295,
"step": 2512
},
{
"epoch": 1.6760000000000002,
"grad_norm": 10.3125,
"learning_rate": 1.2701123983848066e-06,
"loss": 2.006901264190674,
"step": 2514
},
{
"epoch": 1.6773333333333333,
"grad_norm": 15.0,
"learning_rate": 1.2679491924311227e-06,
"loss": 1.826201319694519,
"step": 2516
},
{
"epoch": 1.6786666666666665,
"grad_norm": 9.75,
"learning_rate": 1.2657940613228625e-06,
"loss": 2.085049629211426,
"step": 2518
},
{
"epoch": 1.6800000000000002,
"grad_norm": 2.921875,
"learning_rate": 1.2636470151072766e-06,
"loss": 1.2014029026031494,
"step": 2520
},
{
"epoch": 1.6813333333333333,
"grad_norm": 13.4375,
"learning_rate": 1.261508063793926e-06,
"loss": 1.615051031112671,
"step": 2522
},
{
"epoch": 1.6826666666666665,
"grad_norm": 4.5625,
"learning_rate": 1.2593772173546315e-06,
"loss": 1.611379861831665,
"step": 2524
},
{
"epoch": 1.6840000000000002,
"grad_norm": 1.921875,
"learning_rate": 1.2572544857234294e-06,
"loss": 1.1507315635681152,
"step": 2526
},
{
"epoch": 1.6853333333333333,
"grad_norm": 2.484375,
"learning_rate": 1.2551398787965249e-06,
"loss": 1.275776982307434,
"step": 2528
},
{
"epoch": 1.6866666666666665,
"grad_norm": 13.1875,
"learning_rate": 1.2530334064322455e-06,
"loss": 1.2164192199707031,
"step": 2530
},
{
"epoch": 1.688,
"grad_norm": 5.53125,
"learning_rate": 1.250935078450995e-06,
"loss": 1.5331335067749023,
"step": 2532
},
{
"epoch": 1.6893333333333334,
"grad_norm": 13.0,
"learning_rate": 1.248844904635208e-06,
"loss": 1.6550445556640625,
"step": 2534
},
{
"epoch": 1.6906666666666665,
"grad_norm": 6.96875,
"learning_rate": 1.2467628947293048e-06,
"loss": 1.9799119234085083,
"step": 2536
},
{
"epoch": 1.692,
"grad_norm": 4.65625,
"learning_rate": 1.2446890584396453e-06,
"loss": 1.5746979713439941,
"step": 2538
},
{
"epoch": 1.6933333333333334,
"grad_norm": 11.125,
"learning_rate": 1.242623405434483e-06,
"loss": 1.7918205261230469,
"step": 2540
},
{
"epoch": 1.6946666666666665,
"grad_norm": 13.375,
"learning_rate": 1.2405659453439223e-06,
"loss": 1.6811120510101318,
"step": 2542
},
{
"epoch": 1.696,
"grad_norm": 4.84375,
"learning_rate": 1.2385166877598709e-06,
"loss": 1.591151475906372,
"step": 2544
},
{
"epoch": 1.6973333333333334,
"grad_norm": 29.125,
"learning_rate": 1.236475642235997e-06,
"loss": 0.6545977592468262,
"step": 2546
},
{
"epoch": 1.6986666666666665,
"grad_norm": 5.53125,
"learning_rate": 1.2344428182876834e-06,
"loss": 1.7109073400497437,
"step": 2548
},
{
"epoch": 1.7,
"grad_norm": 2.234375,
"learning_rate": 1.2324182253919842e-06,
"loss": 1.4369351863861084,
"step": 2550
},
{
"epoch": 1.7013333333333334,
"grad_norm": 40.5,
"learning_rate": 1.2304018729875806e-06,
"loss": 1.494368076324463,
"step": 2552
},
{
"epoch": 1.7026666666666666,
"grad_norm": 1.84375,
"learning_rate": 1.2283937704747353e-06,
"loss": 1.085021734237671,
"step": 2554
},
{
"epoch": 1.704,
"grad_norm": 4.3125,
"learning_rate": 1.2263939272152513e-06,
"loss": 1.5085113048553467,
"step": 2556
},
{
"epoch": 1.7053333333333334,
"grad_norm": 11.4375,
"learning_rate": 1.2244023525324266e-06,
"loss": 2.0440781116485596,
"step": 2558
},
{
"epoch": 1.7066666666666666,
"grad_norm": 9.875,
"learning_rate": 1.2224190557110097e-06,
"loss": 1.5847303867340088,
"step": 2560
},
{
"epoch": 1.708,
"grad_norm": 3.375,
"learning_rate": 1.220444045997159e-06,
"loss": 1.0622501373291016,
"step": 2562
},
{
"epoch": 1.7093333333333334,
"grad_norm": 1.6484375,
"learning_rate": 1.2184773325983976e-06,
"loss": 1.0417931079864502,
"step": 2564
},
{
"epoch": 1.7106666666666666,
"grad_norm": 18.375,
"learning_rate": 1.2165189246835716e-06,
"loss": 1.0322291851043701,
"step": 2566
},
{
"epoch": 1.712,
"grad_norm": 16.625,
"learning_rate": 1.2145688313828058e-06,
"loss": 1.9865806102752686,
"step": 2568
},
{
"epoch": 1.7133333333333334,
"grad_norm": 5.59375,
"learning_rate": 1.212627061787464e-06,
"loss": 1.5734801292419434,
"step": 2570
},
{
"epoch": 1.7146666666666666,
"grad_norm": 20.5,
"learning_rate": 1.2106936249501023e-06,
"loss": 1.7474571466445923,
"step": 2572
},
{
"epoch": 1.716,
"grad_norm": 11.5625,
"learning_rate": 1.2087685298844312e-06,
"loss": 1.8723552227020264,
"step": 2574
},
{
"epoch": 1.7173333333333334,
"grad_norm": 35.0,
"learning_rate": 1.2068517855652712e-06,
"loss": 1.7286386489868164,
"step": 2576
},
{
"epoch": 1.7186666666666666,
"grad_norm": 6.40625,
"learning_rate": 1.2049434009285116e-06,
"loss": 1.5056369304656982,
"step": 2578
},
{
"epoch": 1.72,
"grad_norm": 7.0,
"learning_rate": 1.2030433848710684e-06,
"loss": 1.538612961769104,
"step": 2580
},
{
"epoch": 1.7213333333333334,
"grad_norm": 5.9375,
"learning_rate": 1.2011517462508432e-06,
"loss": 1.5303728580474854,
"step": 2582
},
{
"epoch": 1.7226666666666666,
"grad_norm": 6.15625,
"learning_rate": 1.1992684938866826e-06,
"loss": 2.1096715927124023,
"step": 2584
},
{
"epoch": 1.724,
"grad_norm": 8.125,
"learning_rate": 1.1973936365583357e-06,
"loss": 1.557473063468933,
"step": 2586
},
{
"epoch": 1.7253333333333334,
"grad_norm": 3.765625,
"learning_rate": 1.1955271830064138e-06,
"loss": 1.5712800025939941,
"step": 2588
},
{
"epoch": 1.7266666666666666,
"grad_norm": 6.5,
"learning_rate": 1.1936691419323498e-06,
"loss": 1.5366168022155762,
"step": 2590
},
{
"epoch": 1.728,
"grad_norm": 30.625,
"learning_rate": 1.1918195219983574e-06,
"loss": 0.6057420969009399,
"step": 2592
},
{
"epoch": 1.7293333333333334,
"grad_norm": 4.125,
"learning_rate": 1.1899783318273914e-06,
"loss": 1.158643126487732,
"step": 2594
},
{
"epoch": 1.7306666666666666,
"grad_norm": 10.625,
"learning_rate": 1.1881455800031064e-06,
"loss": 1.5761902332305908,
"step": 2596
},
{
"epoch": 1.732,
"grad_norm": 5.40625,
"learning_rate": 1.186321275069817e-06,
"loss": 1.595426082611084,
"step": 2598
},
{
"epoch": 1.7333333333333334,
"grad_norm": 1.1796875,
"learning_rate": 1.184505425532459e-06,
"loss": 1.0814518928527832,
"step": 2600
},
{
"epoch": 1.7346666666666666,
"grad_norm": 6.25,
"learning_rate": 1.1826980398565486e-06,
"loss": 1.4769387245178223,
"step": 2602
},
{
"epoch": 1.736,
"grad_norm": 12.625,
"learning_rate": 1.1808991264681435e-06,
"loss": 1.9360644817352295,
"step": 2604
},
{
"epoch": 1.7373333333333334,
"grad_norm": 1.59375,
"learning_rate": 1.1791086937538032e-06,
"loss": 1.1510602235794067,
"step": 2606
},
{
"epoch": 1.7386666666666666,
"grad_norm": 4.875,
"learning_rate": 1.1773267500605506e-06,
"loss": 1.640676736831665,
"step": 2608
},
{
"epoch": 1.74,
"grad_norm": 5.4375,
"learning_rate": 1.1755533036958324e-06,
"loss": 1.586723804473877,
"step": 2610
},
{
"epoch": 1.7413333333333334,
"grad_norm": 2.1875,
"learning_rate": 1.173788362927481e-06,
"loss": 1.03817617893219,
"step": 2612
},
{
"epoch": 1.7426666666666666,
"grad_norm": 15.875,
"learning_rate": 1.1720319359836747e-06,
"loss": 1.5527381896972656,
"step": 2614
},
{
"epoch": 1.744,
"grad_norm": 7.375,
"learning_rate": 1.1702840310529013e-06,
"loss": 1.6147454977035522,
"step": 2616
},
{
"epoch": 1.7453333333333334,
"grad_norm": 8.0,
"learning_rate": 1.168544656283918e-06,
"loss": 1.6725919246673584,
"step": 2618
},
{
"epoch": 1.7466666666666666,
"grad_norm": 7.53125,
"learning_rate": 1.1668138197857148e-06,
"loss": 1.081732988357544,
"step": 2620
},
{
"epoch": 1.748,
"grad_norm": 4.5625,
"learning_rate": 1.1650915296274762e-06,
"loss": 1.1363911628723145,
"step": 2622
},
{
"epoch": 1.7493333333333334,
"grad_norm": 4.875,
"learning_rate": 1.1633777938385429e-06,
"loss": 1.5501255989074707,
"step": 2624
},
{
"epoch": 1.7506666666666666,
"grad_norm": 2.484375,
"learning_rate": 1.161672620408376e-06,
"loss": 1.2060632705688477,
"step": 2626
},
{
"epoch": 1.752,
"grad_norm": 5.0625,
"learning_rate": 1.1599760172865176e-06,
"loss": 1.5151984691619873,
"step": 2628
},
{
"epoch": 1.7533333333333334,
"grad_norm": 2.765625,
"learning_rate": 1.1582879923825561e-06,
"loss": 1.1503922939300537,
"step": 2630
},
{
"epoch": 1.7546666666666666,
"grad_norm": 7.21875,
"learning_rate": 1.1566085535660872e-06,
"loss": 1.9271504878997803,
"step": 2632
},
{
"epoch": 1.756,
"grad_norm": 2.25,
"learning_rate": 1.154937708666678e-06,
"loss": 1.130241870880127,
"step": 2634
},
{
"epoch": 1.7573333333333334,
"grad_norm": 5.0625,
"learning_rate": 1.153275465473832e-06,
"loss": 1.7080326080322266,
"step": 2636
},
{
"epoch": 1.7586666666666666,
"grad_norm": 4.5,
"learning_rate": 1.1516218317369506e-06,
"loss": 1.5953943729400635,
"step": 2638
},
{
"epoch": 1.76,
"grad_norm": 7.1875,
"learning_rate": 1.149976815165297e-06,
"loss": 1.6334452629089355,
"step": 2640
},
{
"epoch": 1.7613333333333334,
"grad_norm": 4.6875,
"learning_rate": 1.1483404234279622e-06,
"loss": 1.616743564605713,
"step": 2642
},
{
"epoch": 1.7626666666666666,
"grad_norm": 2.6875,
"learning_rate": 1.1467126641538273e-06,
"loss": 1.1109144687652588,
"step": 2644
},
{
"epoch": 1.764,
"grad_norm": 15.6875,
"learning_rate": 1.1450935449315295e-06,
"loss": 2.251559019088745,
"step": 2646
},
{
"epoch": 1.7653333333333334,
"grad_norm": 11.25,
"learning_rate": 1.1434830733094256e-06,
"loss": 1.9472830295562744,
"step": 2648
},
{
"epoch": 1.7666666666666666,
"grad_norm": 1.625,
"learning_rate": 1.1418812567955569e-06,
"loss": 1.1540098190307617,
"step": 2650
},
{
"epoch": 1.768,
"grad_norm": 11.125,
"learning_rate": 1.1402881028576147e-06,
"loss": 2.0404562950134277,
"step": 2652
},
{
"epoch": 1.7693333333333334,
"grad_norm": 7.5625,
"learning_rate": 1.1387036189229055e-06,
"loss": 1.558046579360962,
"step": 2654
},
{
"epoch": 1.7706666666666666,
"grad_norm": 8.5625,
"learning_rate": 1.1371278123783156e-06,
"loss": 1.9174463748931885,
"step": 2656
},
{
"epoch": 1.772,
"grad_norm": 11.1875,
"learning_rate": 1.1355606905702775e-06,
"loss": 1.5161430835723877,
"step": 2658
},
{
"epoch": 1.7733333333333334,
"grad_norm": 6.625,
"learning_rate": 1.1340022608047357e-06,
"loss": 1.64548659324646,
"step": 2660
},
{
"epoch": 1.7746666666666666,
"grad_norm": 7.0,
"learning_rate": 1.1324525303471113e-06,
"loss": 1.71232271194458,
"step": 2662
},
{
"epoch": 1.776,
"grad_norm": 10.625,
"learning_rate": 1.1309115064222697e-06,
"loss": 1.7835891246795654,
"step": 2664
},
{
"epoch": 1.7773333333333334,
"grad_norm": 7.8125,
"learning_rate": 1.1293791962144868e-06,
"loss": 2.010854721069336,
"step": 2666
},
{
"epoch": 1.7786666666666666,
"grad_norm": 6.375,
"learning_rate": 1.127855606867414e-06,
"loss": 1.7522506713867188,
"step": 2668
},
{
"epoch": 1.78,
"grad_norm": 1.7734375,
"learning_rate": 1.1263407454840465e-06,
"loss": 1.1171356439590454,
"step": 2670
},
{
"epoch": 1.7813333333333334,
"grad_norm": 3.765625,
"learning_rate": 1.12483461912669e-06,
"loss": 1.498163104057312,
"step": 2672
},
{
"epoch": 1.7826666666666666,
"grad_norm": 2.046875,
"learning_rate": 1.123337234816926e-06,
"loss": 1.2884820699691772,
"step": 2674
},
{
"epoch": 1.784,
"grad_norm": 6.59375,
"learning_rate": 1.1218485995355823e-06,
"loss": 1.5873327255249023,
"step": 2676
},
{
"epoch": 1.7853333333333334,
"grad_norm": 10.625,
"learning_rate": 1.1203687202226976e-06,
"loss": 1.5103931427001953,
"step": 2678
},
{
"epoch": 1.7866666666666666,
"grad_norm": 4.71875,
"learning_rate": 1.1188976037774897e-06,
"loss": 1.0384002923965454,
"step": 2680
},
{
"epoch": 1.788,
"grad_norm": 4.9375,
"learning_rate": 1.117435257058325e-06,
"loss": 1.5868349075317383,
"step": 2682
},
{
"epoch": 1.7893333333333334,
"grad_norm": 5.09375,
"learning_rate": 1.1159816868826838e-06,
"loss": 1.6466984748840332,
"step": 2684
},
{
"epoch": 1.7906666666666666,
"grad_norm": 10.25,
"learning_rate": 1.1145369000271316e-06,
"loss": 2.061450719833374,
"step": 2686
},
{
"epoch": 1.792,
"grad_norm": 24.75,
"learning_rate": 1.113100903227285e-06,
"loss": 1.8428632020950317,
"step": 2688
},
{
"epoch": 1.7933333333333334,
"grad_norm": 3.4375,
"learning_rate": 1.1116737031777813e-06,
"loss": 1.237999439239502,
"step": 2690
},
{
"epoch": 1.7946666666666666,
"grad_norm": 12.875,
"learning_rate": 1.1102553065322478e-06,
"loss": 1.7113702297210693,
"step": 2692
},
{
"epoch": 1.796,
"grad_norm": 5.09375,
"learning_rate": 1.108845719903269e-06,
"loss": 1.8466413021087646,
"step": 2694
},
{
"epoch": 1.7973333333333334,
"grad_norm": 9.875,
"learning_rate": 1.1074449498623586e-06,
"loss": 1.71107816696167,
"step": 2696
},
{
"epoch": 1.7986666666666666,
"grad_norm": 8.4375,
"learning_rate": 1.1060530029399259e-06,
"loss": 1.8808412551879883,
"step": 2698
},
{
"epoch": 1.8,
"grad_norm": 2.90625,
"learning_rate": 1.1046698856252468e-06,
"loss": 1.0465705394744873,
"step": 2700
},
{
"epoch": 1.8013333333333335,
"grad_norm": 2.65625,
"learning_rate": 1.1032956043664347e-06,
"loss": 1.0618107318878174,
"step": 2702
},
{
"epoch": 1.8026666666666666,
"grad_norm": 8.0625,
"learning_rate": 1.101930165570408e-06,
"loss": 1.6237022876739502,
"step": 2704
},
{
"epoch": 1.804,
"grad_norm": 7.59375,
"learning_rate": 1.1005735756028614e-06,
"loss": 1.8877501487731934,
"step": 2706
},
{
"epoch": 1.8053333333333335,
"grad_norm": 8.1875,
"learning_rate": 1.099225840788237e-06,
"loss": 1.4899542331695557,
"step": 2708
},
{
"epoch": 1.8066666666666666,
"grad_norm": 3.609375,
"learning_rate": 1.097886967409693e-06,
"loss": 1.4635686874389648,
"step": 2710
},
{
"epoch": 1.808,
"grad_norm": 35.25,
"learning_rate": 1.0965569617090768e-06,
"loss": 1.7736328840255737,
"step": 2712
},
{
"epoch": 1.8093333333333335,
"grad_norm": 4.09375,
"learning_rate": 1.0952358298868936e-06,
"loss": 1.506758451461792,
"step": 2714
},
{
"epoch": 1.8106666666666666,
"grad_norm": 4.8125,
"learning_rate": 1.0939235781022784e-06,
"loss": 1.5824058055877686,
"step": 2716
},
{
"epoch": 1.812,
"grad_norm": 4.59375,
"learning_rate": 1.092620212472968e-06,
"loss": 1.6231698989868164,
"step": 2718
},
{
"epoch": 1.8133333333333335,
"grad_norm": 6.375,
"learning_rate": 1.0913257390752713e-06,
"loss": 1.5913381576538086,
"step": 2720
},
{
"epoch": 1.8146666666666667,
"grad_norm": 9.75,
"learning_rate": 1.0900401639440416e-06,
"loss": 1.8220431804656982,
"step": 2722
},
{
"epoch": 1.8159999999999998,
"grad_norm": 16.625,
"learning_rate": 1.0887634930726484e-06,
"loss": 1.6188863515853882,
"step": 2724
},
{
"epoch": 1.8173333333333335,
"grad_norm": 4.4375,
"learning_rate": 1.087495732412949e-06,
"loss": 1.551790714263916,
"step": 2726
},
{
"epoch": 1.8186666666666667,
"grad_norm": 5.21875,
"learning_rate": 1.0862368878752624e-06,
"loss": 1.6060757637023926,
"step": 2728
},
{
"epoch": 1.8199999999999998,
"grad_norm": 6.9375,
"learning_rate": 1.0849869653283392e-06,
"loss": 1.3745307922363281,
"step": 2730
},
{
"epoch": 1.8213333333333335,
"grad_norm": 5.5625,
"learning_rate": 1.0837459705993362e-06,
"loss": 1.1677099466323853,
"step": 2732
},
{
"epoch": 1.8226666666666667,
"grad_norm": 3.8125,
"learning_rate": 1.0825139094737883e-06,
"loss": 1.1494688987731934,
"step": 2734
},
{
"epoch": 1.8239999999999998,
"grad_norm": 1.7890625,
"learning_rate": 1.081290787695582e-06,
"loss": 1.2367225885391235,
"step": 2736
},
{
"epoch": 1.8253333333333335,
"grad_norm": 6.5,
"learning_rate": 1.080076610966928e-06,
"loss": 1.8836338520050049,
"step": 2738
},
{
"epoch": 1.8266666666666667,
"grad_norm": 7.53125,
"learning_rate": 1.0788713849483363e-06,
"loss": 2.0381829738616943,
"step": 2740
},
{
"epoch": 1.8279999999999998,
"grad_norm": 5.9375,
"learning_rate": 1.0776751152585866e-06,
"loss": 1.1025861501693726,
"step": 2742
},
{
"epoch": 1.8293333333333335,
"grad_norm": 4.71875,
"learning_rate": 1.076487807474706e-06,
"loss": 1.677769422531128,
"step": 2744
},
{
"epoch": 1.8306666666666667,
"grad_norm": 15.375,
"learning_rate": 1.0753094671319398e-06,
"loss": 1.6080399751663208,
"step": 2746
},
{
"epoch": 1.8319999999999999,
"grad_norm": 6.46875,
"learning_rate": 1.0741400997237275e-06,
"loss": 1.648935317993164,
"step": 2748
},
{
"epoch": 1.8333333333333335,
"grad_norm": 7.9375,
"learning_rate": 1.0729797107016766e-06,
"loss": 1.6360926628112793,
"step": 2750
},
{
"epoch": 1.8346666666666667,
"grad_norm": 6.8125,
"learning_rate": 1.0718283054755373e-06,
"loss": 1.93143630027771,
"step": 2752
},
{
"epoch": 1.8359999999999999,
"grad_norm": 11.3125,
"learning_rate": 1.0706858894131767e-06,
"loss": 1.8639891147613525,
"step": 2754
},
{
"epoch": 1.8373333333333335,
"grad_norm": 4.15625,
"learning_rate": 1.069552467840555e-06,
"loss": 1.6008312702178955,
"step": 2756
},
{
"epoch": 1.8386666666666667,
"grad_norm": 4.34375,
"learning_rate": 1.0684280460416991e-06,
"loss": 1.6185994148254395,
"step": 2758
},
{
"epoch": 1.8399999999999999,
"grad_norm": 5.65625,
"learning_rate": 1.0673126292586806e-06,
"loss": 2.011725902557373,
"step": 2760
},
{
"epoch": 1.8413333333333335,
"grad_norm": 4.15625,
"learning_rate": 1.066206222691587e-06,
"loss": 1.4604053497314453,
"step": 2762
},
{
"epoch": 1.8426666666666667,
"grad_norm": 5.40625,
"learning_rate": 1.065108831498502e-06,
"loss": 1.4645023345947266,
"step": 2764
},
{
"epoch": 1.8439999999999999,
"grad_norm": 3.625,
"learning_rate": 1.0640204607954785e-06,
"loss": 1.495434045791626,
"step": 2766
},
{
"epoch": 1.8453333333333335,
"grad_norm": 5.40625,
"learning_rate": 1.062941115656517e-06,
"loss": 1.0852596759796143,
"step": 2768
},
{
"epoch": 1.8466666666666667,
"grad_norm": 2.703125,
"learning_rate": 1.0618708011135393e-06,
"loss": 1.0549116134643555,
"step": 2770
},
{
"epoch": 1.8479999999999999,
"grad_norm": 3.515625,
"learning_rate": 1.060809522156367e-06,
"loss": 1.0271042585372925,
"step": 2772
},
{
"epoch": 1.8493333333333335,
"grad_norm": 5.9375,
"learning_rate": 1.0597572837326978e-06,
"loss": 1.6348028182983398,
"step": 2774
},
{
"epoch": 1.8506666666666667,
"grad_norm": 4.3125,
"learning_rate": 1.058714090748082e-06,
"loss": 1.5930371284484863,
"step": 2776
},
{
"epoch": 1.8519999999999999,
"grad_norm": 5.5625,
"learning_rate": 1.0576799480658997e-06,
"loss": 1.5753302574157715,
"step": 2778
},
{
"epoch": 1.8533333333333335,
"grad_norm": 5.5625,
"learning_rate": 1.0566548605073396e-06,
"loss": 1.590511679649353,
"step": 2780
},
{
"epoch": 1.8546666666666667,
"grad_norm": 12.5,
"learning_rate": 1.055638832851374e-06,
"loss": 0.809339165687561,
"step": 2782
},
{
"epoch": 1.8559999999999999,
"grad_norm": 5.0,
"learning_rate": 1.054631869834738e-06,
"loss": 1.6788489818572998,
"step": 2784
},
{
"epoch": 1.8573333333333333,
"grad_norm": 2.03125,
"learning_rate": 1.0536339761519077e-06,
"loss": 1.0987229347229004,
"step": 2786
},
{
"epoch": 1.8586666666666667,
"grad_norm": 6.625,
"learning_rate": 1.0526451564550778e-06,
"loss": 1.648554801940918,
"step": 2788
},
{
"epoch": 1.8599999999999999,
"grad_norm": 1.46875,
"learning_rate": 1.0516654153541392e-06,
"loss": 1.1031792163848877,
"step": 2790
},
{
"epoch": 1.8613333333333333,
"grad_norm": 6.34375,
"learning_rate": 1.0506947574166596e-06,
"loss": 1.8444862365722656,
"step": 2792
},
{
"epoch": 1.8626666666666667,
"grad_norm": 9.875,
"learning_rate": 1.0497331871678592e-06,
"loss": 1.3348501920700073,
"step": 2794
},
{
"epoch": 1.8639999999999999,
"grad_norm": 6.46875,
"learning_rate": 1.0487807090905927e-06,
"loss": 1.156570315361023,
"step": 2796
},
{
"epoch": 1.8653333333333333,
"grad_norm": 2.625,
"learning_rate": 1.0478373276253262e-06,
"loss": 1.2651017904281616,
"step": 2798
},
{
"epoch": 1.8666666666666667,
"grad_norm": 3.421875,
"learning_rate": 1.0469030471701177e-06,
"loss": 1.0961531400680542,
"step": 2800
},
{
"epoch": 1.8679999999999999,
"grad_norm": 2.75,
"learning_rate": 1.0459778720805956e-06,
"loss": 1.1647145748138428,
"step": 2802
},
{
"epoch": 1.8693333333333333,
"grad_norm": 9.0625,
"learning_rate": 1.0450618066699392e-06,
"loss": 2.051912784576416,
"step": 2804
},
{
"epoch": 1.8706666666666667,
"grad_norm": 5.25,
"learning_rate": 1.044154855208859e-06,
"loss": 1.5181958675384521,
"step": 2806
},
{
"epoch": 1.8719999999999999,
"grad_norm": 6.1875,
"learning_rate": 1.043257021925575e-06,
"loss": 1.5700154304504395,
"step": 2808
},
{
"epoch": 1.8733333333333333,
"grad_norm": 8.0625,
"learning_rate": 1.042368311005799e-06,
"loss": 1.986337423324585,
"step": 2810
},
{
"epoch": 1.8746666666666667,
"grad_norm": 10.8125,
"learning_rate": 1.041488726592714e-06,
"loss": 1.1347825527191162,
"step": 2812
},
{
"epoch": 1.876,
"grad_norm": 7.90625,
"learning_rate": 1.0406182727869546e-06,
"loss": 1.611783504486084,
"step": 2814
},
{
"epoch": 1.8773333333333333,
"grad_norm": 8.9375,
"learning_rate": 1.039756953646589e-06,
"loss": 1.8373312950134277,
"step": 2816
},
{
"epoch": 1.8786666666666667,
"grad_norm": 14.9375,
"learning_rate": 1.0389047731870992e-06,
"loss": 1.55556058883667,
"step": 2818
},
{
"epoch": 1.88,
"grad_norm": 3.84375,
"learning_rate": 1.0380617353813627e-06,
"loss": 1.0587745904922485,
"step": 2820
},
{
"epoch": 1.8813333333333333,
"grad_norm": 2.671875,
"learning_rate": 1.0372278441596337e-06,
"loss": 1.1342324018478394,
"step": 2822
},
{
"epoch": 1.8826666666666667,
"grad_norm": 4.96875,
"learning_rate": 1.036403103409525e-06,
"loss": 1.688795804977417,
"step": 2824
},
{
"epoch": 1.884,
"grad_norm": 2.25,
"learning_rate": 1.0355875169759896e-06,
"loss": 1.1600544452667236,
"step": 2826
},
{
"epoch": 1.8853333333333333,
"grad_norm": 111.5,
"learning_rate": 1.0347810886613026e-06,
"loss": 1.9772312641143799,
"step": 2828
},
{
"epoch": 1.8866666666666667,
"grad_norm": 5.0,
"learning_rate": 1.033983822225045e-06,
"loss": 1.5392059087753296,
"step": 2830
},
{
"epoch": 1.888,
"grad_norm": 5.46875,
"learning_rate": 1.0331957213840832e-06,
"loss": 1.646643877029419,
"step": 2832
},
{
"epoch": 1.8893333333333333,
"grad_norm": 2.34375,
"learning_rate": 1.0324167898125558e-06,
"loss": 0.9575203657150269,
"step": 2834
},
{
"epoch": 1.8906666666666667,
"grad_norm": 9.9375,
"learning_rate": 1.0316470311418516e-06,
"loss": 1.3466911315917969,
"step": 2836
},
{
"epoch": 1.892,
"grad_norm": 5.6875,
"learning_rate": 1.0308864489605973e-06,
"loss": 1.5627878904342651,
"step": 2838
},
{
"epoch": 1.8933333333333333,
"grad_norm": 5.875,
"learning_rate": 1.0301350468146375e-06,
"loss": 1.72072434425354,
"step": 2840
},
{
"epoch": 1.8946666666666667,
"grad_norm": 7.8125,
"learning_rate": 1.0293928282070194e-06,
"loss": 1.5522115230560303,
"step": 2842
},
{
"epoch": 1.896,
"grad_norm": 1.9921875,
"learning_rate": 1.0286597965979772e-06,
"loss": 1.1265590190887451,
"step": 2844
},
{
"epoch": 1.8973333333333333,
"grad_norm": 5.625,
"learning_rate": 1.027935955404914e-06,
"loss": 1.7390642166137695,
"step": 2846
},
{
"epoch": 1.8986666666666667,
"grad_norm": 1.8984375,
"learning_rate": 1.027221308002388e-06,
"loss": 1.1018836498260498,
"step": 2848
},
{
"epoch": 1.9,
"grad_norm": 11.625,
"learning_rate": 1.026515857722096e-06,
"loss": 1.848306655883789,
"step": 2850
},
{
"epoch": 1.9013333333333333,
"grad_norm": 3.953125,
"learning_rate": 1.0258196078528566e-06,
"loss": 1.251272201538086,
"step": 2852
},
{
"epoch": 1.9026666666666667,
"grad_norm": 5.71875,
"learning_rate": 1.025132561640597e-06,
"loss": 1.4891345500946045,
"step": 2854
},
{
"epoch": 1.904,
"grad_norm": 6.53125,
"learning_rate": 1.024454722288336e-06,
"loss": 1.540061354637146,
"step": 2856
},
{
"epoch": 1.9053333333333333,
"grad_norm": 5.71875,
"learning_rate": 1.0237860929561704e-06,
"loss": 1.8440475463867188,
"step": 2858
},
{
"epoch": 1.9066666666666667,
"grad_norm": 2.625,
"learning_rate": 1.0231266767612594e-06,
"loss": 1.0713839530944824,
"step": 2860
},
{
"epoch": 1.908,
"grad_norm": 3.65625,
"learning_rate": 1.0224764767778113e-06,
"loss": 1.6007473468780518,
"step": 2862
},
{
"epoch": 1.9093333333333333,
"grad_norm": 1.7265625,
"learning_rate": 1.021835496037067e-06,
"loss": 1.0999369621276855,
"step": 2864
},
{
"epoch": 1.9106666666666667,
"grad_norm": 3.3125,
"learning_rate": 1.0212037375272881e-06,
"loss": 1.103971242904663,
"step": 2866
},
{
"epoch": 1.912,
"grad_norm": 5.4375,
"learning_rate": 1.0205812041937417e-06,
"loss": 1.1634551286697388,
"step": 2868
},
{
"epoch": 1.9133333333333333,
"grad_norm": 6.71875,
"learning_rate": 1.019967898938687e-06,
"loss": 1.581654667854309,
"step": 2870
},
{
"epoch": 1.9146666666666667,
"grad_norm": 9.8125,
"learning_rate": 1.0193638246213618e-06,
"loss": 1.8337488174438477,
"step": 2872
},
{
"epoch": 1.916,
"grad_norm": 8.375,
"learning_rate": 1.018768984057969e-06,
"loss": 1.8890583515167236,
"step": 2874
},
{
"epoch": 1.9173333333333333,
"grad_norm": 5.21875,
"learning_rate": 1.018183380021664e-06,
"loss": 1.5187124013900757,
"step": 2876
},
{
"epoch": 1.9186666666666667,
"grad_norm": 4.6875,
"learning_rate": 1.0176070152425413e-06,
"loss": 1.6645336151123047,
"step": 2878
},
{
"epoch": 1.92,
"grad_norm": 8.75,
"learning_rate": 1.017039892407621e-06,
"loss": 1.8335323333740234,
"step": 2880
},
{
"epoch": 1.9213333333333333,
"grad_norm": 7.21875,
"learning_rate": 1.0164820141608383e-06,
"loss": 1.634657621383667,
"step": 2882
},
{
"epoch": 1.9226666666666667,
"grad_norm": 27.5,
"learning_rate": 1.0159333831030292e-06,
"loss": 1.8966856002807617,
"step": 2884
},
{
"epoch": 1.924,
"grad_norm": 2.390625,
"learning_rate": 1.0153940017919197e-06,
"loss": 1.0390410423278809,
"step": 2886
},
{
"epoch": 1.9253333333333333,
"grad_norm": 9.875,
"learning_rate": 1.014863872742113e-06,
"loss": 2.089475154876709,
"step": 2888
},
{
"epoch": 1.9266666666666667,
"grad_norm": 12.4375,
"learning_rate": 1.0143429984250785e-06,
"loss": 1.8373076915740967,
"step": 2890
},
{
"epoch": 1.928,
"grad_norm": 9.375,
"learning_rate": 1.0138313812691392e-06,
"loss": 1.692418098449707,
"step": 2892
},
{
"epoch": 1.9293333333333333,
"grad_norm": 6.28125,
"learning_rate": 1.013329023659462e-06,
"loss": 1.9604231119155884,
"step": 2894
},
{
"epoch": 1.9306666666666668,
"grad_norm": 5.125,
"learning_rate": 1.012835927938045e-06,
"loss": 1.1355175971984863,
"step": 2896
},
{
"epoch": 1.932,
"grad_norm": 8.3125,
"learning_rate": 1.012352096403707e-06,
"loss": 1.9712469577789307,
"step": 2898
},
{
"epoch": 1.9333333333333333,
"grad_norm": 5.84375,
"learning_rate": 1.0118775313120784e-06,
"loss": 1.6969237327575684,
"step": 2900
},
{
"epoch": 1.9346666666666668,
"grad_norm": 4.84375,
"learning_rate": 1.0114122348755876e-06,
"loss": 0.9692869186401367,
"step": 2902
},
{
"epoch": 1.936,
"grad_norm": 6.0625,
"learning_rate": 1.0109562092634535e-06,
"loss": 1.644775629043579,
"step": 2904
},
{
"epoch": 1.9373333333333334,
"grad_norm": 4.46875,
"learning_rate": 1.010509456601674e-06,
"loss": 1.5736973285675049,
"step": 2906
},
{
"epoch": 1.9386666666666668,
"grad_norm": 2.4375,
"learning_rate": 1.0100719789730163e-06,
"loss": 1.3084485530853271,
"step": 2908
},
{
"epoch": 1.94,
"grad_norm": 17.25,
"learning_rate": 1.009643778417007e-06,
"loss": 2.2242865562438965,
"step": 2910
},
{
"epoch": 1.9413333333333334,
"grad_norm": 5.0,
"learning_rate": 1.0092248569299238e-06,
"loss": 1.4924943447113037,
"step": 2912
},
{
"epoch": 1.9426666666666668,
"grad_norm": 2.96875,
"learning_rate": 1.0088152164647842e-06,
"loss": 1.2267329692840576,
"step": 2914
},
{
"epoch": 1.944,
"grad_norm": 13.875,
"learning_rate": 1.008414858931338e-06,
"loss": 1.8327943086624146,
"step": 2916
},
{
"epoch": 1.9453333333333334,
"grad_norm": 2.890625,
"learning_rate": 1.0080237861960574e-06,
"loss": 1.055860996246338,
"step": 2918
},
{
"epoch": 1.9466666666666668,
"grad_norm": 8.25,
"learning_rate": 1.0076420000821292e-06,
"loss": 1.1839380264282227,
"step": 2920
},
{
"epoch": 1.948,
"grad_norm": 5.0,
"learning_rate": 1.0072695023694461e-06,
"loss": 1.640027403831482,
"step": 2922
},
{
"epoch": 1.9493333333333334,
"grad_norm": 2.5625,
"learning_rate": 1.0069062947945972e-06,
"loss": 1.1517518758773804,
"step": 2924
},
{
"epoch": 1.9506666666666668,
"grad_norm": 8.1875,
"learning_rate": 1.0065523790508613e-06,
"loss": 1.9767742156982422,
"step": 2926
},
{
"epoch": 1.952,
"grad_norm": 4.03125,
"learning_rate": 1.0062077567881989e-06,
"loss": 1.4458882808685303,
"step": 2928
},
{
"epoch": 1.9533333333333334,
"grad_norm": 7.96875,
"learning_rate": 1.005872429613244e-06,
"loss": 1.592308759689331,
"step": 2930
},
{
"epoch": 1.9546666666666668,
"grad_norm": 7.375,
"learning_rate": 1.0055463990892966e-06,
"loss": 1.8392659425735474,
"step": 2932
},
{
"epoch": 1.956,
"grad_norm": 3.96875,
"learning_rate": 1.005229666736315e-06,
"loss": 1.507871389389038,
"step": 2934
},
{
"epoch": 1.9573333333333334,
"grad_norm": 2.453125,
"learning_rate": 1.0049222340309106e-06,
"loss": 1.244297742843628,
"step": 2936
},
{
"epoch": 1.9586666666666668,
"grad_norm": 7.6875,
"learning_rate": 1.004624102406339e-06,
"loss": 1.6086117029190063,
"step": 2938
},
{
"epoch": 1.96,
"grad_norm": 7.15625,
"learning_rate": 1.0043352732524935e-06,
"loss": 1.6359131336212158,
"step": 2940
},
{
"epoch": 1.9613333333333334,
"grad_norm": 1.875,
"learning_rate": 1.0040557479159003e-06,
"loss": 1.2712523937225342,
"step": 2942
},
{
"epoch": 1.9626666666666668,
"grad_norm": 24.875,
"learning_rate": 1.0037855276997106e-06,
"loss": 0.6201294660568237,
"step": 2944
},
{
"epoch": 1.964,
"grad_norm": 3.015625,
"learning_rate": 1.0035246138636941e-06,
"loss": 1.2836215496063232,
"step": 2946
},
{
"epoch": 1.9653333333333334,
"grad_norm": 5.1875,
"learning_rate": 1.0032730076242353e-06,
"loss": 1.6064057350158691,
"step": 2948
},
{
"epoch": 1.9666666666666668,
"grad_norm": 2.984375,
"learning_rate": 1.0030307101543262e-06,
"loss": 1.145121455192566,
"step": 2950
},
{
"epoch": 1.968,
"grad_norm": 2.296875,
"learning_rate": 1.0027977225835608e-06,
"loss": 1.3030688762664795,
"step": 2952
},
{
"epoch": 1.9693333333333334,
"grad_norm": 3.328125,
"learning_rate": 1.0025740459981304e-06,
"loss": 1.0687862634658813,
"step": 2954
},
{
"epoch": 1.9706666666666668,
"grad_norm": 1.640625,
"learning_rate": 1.0023596814408187e-06,
"loss": 1.2677333354949951,
"step": 2956
},
{
"epoch": 1.972,
"grad_norm": 4.3125,
"learning_rate": 1.0021546299109962e-06,
"loss": 1.583560585975647,
"step": 2958
},
{
"epoch": 1.9733333333333334,
"grad_norm": 6.25,
"learning_rate": 1.0019588923646156e-06,
"loss": 1.6230509281158447,
"step": 2960
},
{
"epoch": 1.9746666666666668,
"grad_norm": 6.875,
"learning_rate": 1.001772469714209e-06,
"loss": 1.819795846939087,
"step": 2962
},
{
"epoch": 1.976,
"grad_norm": 12.1875,
"learning_rate": 1.0015953628288804e-06,
"loss": 1.8233575820922852,
"step": 2964
},
{
"epoch": 1.9773333333333334,
"grad_norm": 4.09375,
"learning_rate": 1.0014275725343055e-06,
"loss": 1.4905637502670288,
"step": 2966
},
{
"epoch": 1.9786666666666668,
"grad_norm": 11.875,
"learning_rate": 1.0012690996127247e-06,
"loss": 2.1141586303710938,
"step": 2968
},
{
"epoch": 1.98,
"grad_norm": 5.375,
"learning_rate": 1.0011199448029408e-06,
"loss": 1.5464224815368652,
"step": 2970
},
{
"epoch": 1.9813333333333332,
"grad_norm": 9.5625,
"learning_rate": 1.0009801088003158e-06,
"loss": 1.8328592777252197,
"step": 2972
},
{
"epoch": 1.9826666666666668,
"grad_norm": 3.09375,
"learning_rate": 1.0008495922567672e-06,
"loss": 0.9700523614883423,
"step": 2974
},
{
"epoch": 1.984,
"grad_norm": 10.6875,
"learning_rate": 1.000728395780765e-06,
"loss": 2.0305562019348145,
"step": 2976
},
{
"epoch": 1.9853333333333332,
"grad_norm": 8.4375,
"learning_rate": 1.0006165199373289e-06,
"loss": 1.8336513042449951,
"step": 2978
},
{
"epoch": 1.9866666666666668,
"grad_norm": 21.25,
"learning_rate": 1.0005139652480254e-06,
"loss": 1.7808666229248047,
"step": 2980
},
{
"epoch": 1.988,
"grad_norm": 6.25,
"learning_rate": 1.0004207321909661e-06,
"loss": 1.5985544919967651,
"step": 2982
},
{
"epoch": 1.9893333333333332,
"grad_norm": 2.84375,
"learning_rate": 1.0003368212008047e-06,
"loss": 1.156212568283081,
"step": 2984
},
{
"epoch": 1.9906666666666668,
"grad_norm": 14.375,
"learning_rate": 1.0002622326687357e-06,
"loss": 1.836974859237671,
"step": 2986
},
{
"epoch": 1.992,
"grad_norm": 11.0,
"learning_rate": 1.0001969669424918e-06,
"loss": 1.831178903579712,
"step": 2988
},
{
"epoch": 1.9933333333333332,
"grad_norm": 5.59375,
"learning_rate": 1.0001410243263429e-06,
"loss": 1.6922175884246826,
"step": 2990
},
{
"epoch": 1.9946666666666668,
"grad_norm": 6.3125,
"learning_rate": 1.0000944050810938e-06,
"loss": 1.612062931060791,
"step": 2992
},
{
"epoch": 1.996,
"grad_norm": 3.03125,
"learning_rate": 1.0000571094240841e-06,
"loss": 1.1941561698913574,
"step": 2994
},
{
"epoch": 1.9973333333333332,
"grad_norm": 9.625,
"learning_rate": 1.0000291375291873e-06,
"loss": 1.7619390487670898,
"step": 2996
},
{
"epoch": 1.9986666666666668,
"grad_norm": 4.5625,
"learning_rate": 1.0000104895268083e-06,
"loss": 1.4703645706176758,
"step": 2998
},
{
"epoch": 2.0,
"grad_norm": 2.875,
"learning_rate": 1.0000011655038843e-06,
"loss": 1.0833406448364258,
"step": 3000
},
{
"epoch": 2.0,
"step": 3000,
"total_flos": 2.464576238203699e+18,
"train_loss": 1.5581154376665751,
"train_runtime": 27376.1224,
"train_samples_per_second": 0.877,
"train_steps_per_second": 0.11
}
],
"logging_steps": 2,
"max_steps": 3000,
"num_input_tokens_seen": 0,
"num_train_epochs": 2,
"save_steps": 9999999,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 2.464576238203699e+18,
"train_batch_size": 1,
"trial_name": null,
"trial_params": null
}