| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 2.0, |
| "eval_steps": 500, |
| "global_step": 3000, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.0013333333333333333, |
| "grad_norm": 2.65625, |
| "learning_rate": 1.1111111111111112e-07, |
| "loss": 1.426961898803711, |
| "step": 2 |
| }, |
| { |
| "epoch": 0.0026666666666666666, |
| "grad_norm": 2.671875, |
| "learning_rate": 3.3333333333333335e-07, |
| "loss": 1.0916433334350586, |
| "step": 4 |
| }, |
| { |
| "epoch": 0.004, |
| "grad_norm": 20.625, |
| "learning_rate": 5.555555555555555e-07, |
| "loss": 2.423888683319092, |
| "step": 6 |
| }, |
| { |
| "epoch": 0.005333333333333333, |
| "grad_norm": 8.6875, |
| "learning_rate": 7.777777777777779e-07, |
| "loss": 2.0880517959594727, |
| "step": 8 |
| }, |
| { |
| "epoch": 0.006666666666666667, |
| "grad_norm": 12.8125, |
| "learning_rate": 1.0000000000000002e-06, |
| "loss": 2.239799976348877, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.008, |
| "grad_norm": 8.625, |
| "learning_rate": 1.2222222222222223e-06, |
| "loss": 1.9201855659484863, |
| "step": 12 |
| }, |
| { |
| "epoch": 0.009333333333333334, |
| "grad_norm": 7.0, |
| "learning_rate": 1.4444444444444445e-06, |
| "loss": 1.9083274602890015, |
| "step": 14 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 11.0625, |
| "learning_rate": 1.6666666666666667e-06, |
| "loss": 2.2220070362091064, |
| "step": 16 |
| }, |
| { |
| "epoch": 0.012, |
| "grad_norm": 14.6875, |
| "learning_rate": 1.888888888888889e-06, |
| "loss": 2.5249276161193848, |
| "step": 18 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "grad_norm": 6.09375, |
| "learning_rate": 2.1111111111111114e-06, |
| "loss": 1.8995552062988281, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.014666666666666666, |
| "grad_norm": 30.625, |
| "learning_rate": 2.3333333333333336e-06, |
| "loss": 1.7150570154190063, |
| "step": 22 |
| }, |
| { |
| "epoch": 0.016, |
| "grad_norm": 12.5, |
| "learning_rate": 2.5555555555555557e-06, |
| "loss": 1.7441375255584717, |
| "step": 24 |
| }, |
| { |
| "epoch": 0.017333333333333333, |
| "grad_norm": 4.09375, |
| "learning_rate": 2.7777777777777783e-06, |
| "loss": 1.1571142673492432, |
| "step": 26 |
| }, |
| { |
| "epoch": 0.018666666666666668, |
| "grad_norm": 9.75, |
| "learning_rate": 3e-06, |
| "loss": 1.8743200302124023, |
| "step": 28 |
| }, |
| { |
| "epoch": 0.02, |
| "grad_norm": 4.90625, |
| "learning_rate": 3.2222222222222227e-06, |
| "loss": 1.9281845092773438, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "grad_norm": 6.40625, |
| "learning_rate": 3.444444444444445e-06, |
| "loss": 1.9411826133728027, |
| "step": 32 |
| }, |
| { |
| "epoch": 0.02266666666666667, |
| "grad_norm": 14.9375, |
| "learning_rate": 3.6666666666666666e-06, |
| "loss": 1.7532334327697754, |
| "step": 34 |
| }, |
| { |
| "epoch": 0.024, |
| "grad_norm": 6.53125, |
| "learning_rate": 3.88888888888889e-06, |
| "loss": 2.0853347778320312, |
| "step": 36 |
| }, |
| { |
| "epoch": 0.025333333333333333, |
| "grad_norm": 1.2578125, |
| "learning_rate": 4.111111111111111e-06, |
| "loss": 1.3436920642852783, |
| "step": 38 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 10.125, |
| "learning_rate": 4.333333333333334e-06, |
| "loss": 1.9322056770324707, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.028, |
| "grad_norm": 17.5, |
| "learning_rate": 4.555555555555556e-06, |
| "loss": 2.2416582107543945, |
| "step": 42 |
| }, |
| { |
| "epoch": 0.029333333333333333, |
| "grad_norm": 13.5, |
| "learning_rate": 4.777777777777778e-06, |
| "loss": 2.0358848571777344, |
| "step": 44 |
| }, |
| { |
| "epoch": 0.030666666666666665, |
| "grad_norm": 9.625, |
| "learning_rate": 5e-06, |
| "loss": 2.0231871604919434, |
| "step": 46 |
| }, |
| { |
| "epoch": 0.032, |
| "grad_norm": 8.6875, |
| "learning_rate": 5.2222222222222226e-06, |
| "loss": 2.0352306365966797, |
| "step": 48 |
| }, |
| { |
| "epoch": 0.03333333333333333, |
| "grad_norm": 4.1875, |
| "learning_rate": 5.444444444444445e-06, |
| "loss": 1.1770884990692139, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.034666666666666665, |
| "grad_norm": 10.4375, |
| "learning_rate": 5.666666666666667e-06, |
| "loss": 2.528522491455078, |
| "step": 52 |
| }, |
| { |
| "epoch": 0.036, |
| "grad_norm": 9.125, |
| "learning_rate": 5.88888888888889e-06, |
| "loss": 2.0782127380371094, |
| "step": 54 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "grad_norm": 14.25, |
| "learning_rate": 6.111111111111112e-06, |
| "loss": 2.3558883666992188, |
| "step": 56 |
| }, |
| { |
| "epoch": 0.03866666666666667, |
| "grad_norm": 10.0625, |
| "learning_rate": 6.333333333333333e-06, |
| "loss": 2.3600592613220215, |
| "step": 58 |
| }, |
| { |
| "epoch": 0.04, |
| "grad_norm": 2.15625, |
| "learning_rate": 6.555555555555556e-06, |
| "loss": 1.1547472476959229, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.04133333333333333, |
| "grad_norm": 12.625, |
| "learning_rate": 6.777777777777779e-06, |
| "loss": 2.318289279937744, |
| "step": 62 |
| }, |
| { |
| "epoch": 0.042666666666666665, |
| "grad_norm": 8.6875, |
| "learning_rate": 7e-06, |
| "loss": 1.987494707107544, |
| "step": 64 |
| }, |
| { |
| "epoch": 0.044, |
| "grad_norm": 5.59375, |
| "learning_rate": 7.222222222222223e-06, |
| "loss": 1.0594491958618164, |
| "step": 66 |
| }, |
| { |
| "epoch": 0.04533333333333334, |
| "grad_norm": 2.03125, |
| "learning_rate": 7.444444444444445e-06, |
| "loss": 1.0497875213623047, |
| "step": 68 |
| }, |
| { |
| "epoch": 0.04666666666666667, |
| "grad_norm": 7.46875, |
| "learning_rate": 7.666666666666667e-06, |
| "loss": 1.9007290601730347, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.048, |
| "grad_norm": 13.4375, |
| "learning_rate": 7.88888888888889e-06, |
| "loss": 1.7056117057800293, |
| "step": 72 |
| }, |
| { |
| "epoch": 0.04933333333333333, |
| "grad_norm": 2.25, |
| "learning_rate": 8.111111111111112e-06, |
| "loss": 1.1812058687210083, |
| "step": 74 |
| }, |
| { |
| "epoch": 0.050666666666666665, |
| "grad_norm": 10.1875, |
| "learning_rate": 8.333333333333334e-06, |
| "loss": 2.21980357170105, |
| "step": 76 |
| }, |
| { |
| "epoch": 0.052, |
| "grad_norm": 5.125, |
| "learning_rate": 8.555555555555556e-06, |
| "loss": 1.8565629720687866, |
| "step": 78 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 2.21875, |
| "learning_rate": 8.777777777777778e-06, |
| "loss": 1.2600555419921875, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.05466666666666667, |
| "grad_norm": 13.3125, |
| "learning_rate": 9e-06, |
| "loss": 2.3689146041870117, |
| "step": 82 |
| }, |
| { |
| "epoch": 0.056, |
| "grad_norm": 5.5, |
| "learning_rate": 9.222222222222224e-06, |
| "loss": 1.7448933124542236, |
| "step": 84 |
| }, |
| { |
| "epoch": 0.05733333333333333, |
| "grad_norm": 13.8125, |
| "learning_rate": 9.444444444444445e-06, |
| "loss": 1.8399966955184937, |
| "step": 86 |
| }, |
| { |
| "epoch": 0.058666666666666666, |
| "grad_norm": 4.875, |
| "learning_rate": 9.666666666666667e-06, |
| "loss": 1.6913926601409912, |
| "step": 88 |
| }, |
| { |
| "epoch": 0.06, |
| "grad_norm": 2.609375, |
| "learning_rate": 9.88888888888889e-06, |
| "loss": 1.218923807144165, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.06133333333333333, |
| "grad_norm": 3.359375, |
| "learning_rate": 9.99999757186691e-06, |
| "loss": 0.9948500394821167, |
| "step": 92 |
| }, |
| { |
| "epoch": 0.06266666666666666, |
| "grad_norm": 5.25, |
| "learning_rate": 9.999978146819149e-06, |
| "loss": 1.7063817977905273, |
| "step": 94 |
| }, |
| { |
| "epoch": 0.064, |
| "grad_norm": 6.4375, |
| "learning_rate": 9.999939296814194e-06, |
| "loss": 1.944851279258728, |
| "step": 96 |
| }, |
| { |
| "epoch": 0.06533333333333333, |
| "grad_norm": 24.0, |
| "learning_rate": 9.999881022033159e-06, |
| "loss": 1.8162541389465332, |
| "step": 98 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 4.0625, |
| "learning_rate": 9.99980332274772e-06, |
| "loss": 1.777747392654419, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.068, |
| "grad_norm": 4.34375, |
| "learning_rate": 9.999706199320119e-06, |
| "loss": 1.6522843837738037, |
| "step": 102 |
| }, |
| { |
| "epoch": 0.06933333333333333, |
| "grad_norm": 5.0, |
| "learning_rate": 9.999589652203143e-06, |
| "loss": 1.89161217212677, |
| "step": 104 |
| }, |
| { |
| "epoch": 0.07066666666666667, |
| "grad_norm": 4.5, |
| "learning_rate": 9.999453681940135e-06, |
| "loss": 1.8623158931732178, |
| "step": 106 |
| }, |
| { |
| "epoch": 0.072, |
| "grad_norm": 5.8125, |
| "learning_rate": 9.999298289164992e-06, |
| "loss": 1.7459262609481812, |
| "step": 108 |
| }, |
| { |
| "epoch": 0.07333333333333333, |
| "grad_norm": 25.875, |
| "learning_rate": 9.999123474602156e-06, |
| "loss": 2.047550916671753, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.07466666666666667, |
| "grad_norm": 10.5, |
| "learning_rate": 9.998929239066614e-06, |
| "loss": 2.235140323638916, |
| "step": 112 |
| }, |
| { |
| "epoch": 0.076, |
| "grad_norm": 2.34375, |
| "learning_rate": 9.998715583463898e-06, |
| "loss": 1.2381446361541748, |
| "step": 114 |
| }, |
| { |
| "epoch": 0.07733333333333334, |
| "grad_norm": 5.3125, |
| "learning_rate": 9.998482508790072e-06, |
| "loss": 1.7317302227020264, |
| "step": 116 |
| }, |
| { |
| "epoch": 0.07866666666666666, |
| "grad_norm": 10.0, |
| "learning_rate": 9.998230016131736e-06, |
| "loss": 1.3054664134979248, |
| "step": 118 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 8.1875, |
| "learning_rate": 9.99795810666601e-06, |
| "loss": 1.6727921962738037, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.08133333333333333, |
| "grad_norm": 8.0625, |
| "learning_rate": 9.99766678166054e-06, |
| "loss": 1.8442578315734863, |
| "step": 122 |
| }, |
| { |
| "epoch": 0.08266666666666667, |
| "grad_norm": 3.625, |
| "learning_rate": 9.997356042473491e-06, |
| "loss": 1.2996498346328735, |
| "step": 124 |
| }, |
| { |
| "epoch": 0.084, |
| "grad_norm": 19.5, |
| "learning_rate": 9.997025890553532e-06, |
| "loss": 1.3131730556488037, |
| "step": 126 |
| }, |
| { |
| "epoch": 0.08533333333333333, |
| "grad_norm": 2.609375, |
| "learning_rate": 9.996676327439833e-06, |
| "loss": 1.1626245975494385, |
| "step": 128 |
| }, |
| { |
| "epoch": 0.08666666666666667, |
| "grad_norm": 2.75, |
| "learning_rate": 9.996307354762064e-06, |
| "loss": 1.3802151679992676, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.088, |
| "grad_norm": 7.75, |
| "learning_rate": 9.995918974240384e-06, |
| "loss": 1.9702292680740356, |
| "step": 132 |
| }, |
| { |
| "epoch": 0.08933333333333333, |
| "grad_norm": 7.71875, |
| "learning_rate": 9.995511187685424e-06, |
| "loss": 2.1353108882904053, |
| "step": 134 |
| }, |
| { |
| "epoch": 0.09066666666666667, |
| "grad_norm": 4.9375, |
| "learning_rate": 9.995083996998295e-06, |
| "loss": 1.7128398418426514, |
| "step": 136 |
| }, |
| { |
| "epoch": 0.092, |
| "grad_norm": 9.4375, |
| "learning_rate": 9.994637404170562e-06, |
| "loss": 2.146682024002075, |
| "step": 138 |
| }, |
| { |
| "epoch": 0.09333333333333334, |
| "grad_norm": 14.1875, |
| "learning_rate": 9.994171411284248e-06, |
| "loss": 1.4107303619384766, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.09466666666666666, |
| "grad_norm": 7.21875, |
| "learning_rate": 9.993686020511822e-06, |
| "loss": 1.8499665260314941, |
| "step": 142 |
| }, |
| { |
| "epoch": 0.096, |
| "grad_norm": 2.484375, |
| "learning_rate": 9.993181234116179e-06, |
| "loss": 1.0920655727386475, |
| "step": 144 |
| }, |
| { |
| "epoch": 0.09733333333333333, |
| "grad_norm": 22.25, |
| "learning_rate": 9.992657054450638e-06, |
| "loss": 1.8085236549377441, |
| "step": 146 |
| }, |
| { |
| "epoch": 0.09866666666666667, |
| "grad_norm": 9.75, |
| "learning_rate": 9.992113483958936e-06, |
| "loss": 1.6384665966033936, |
| "step": 148 |
| }, |
| { |
| "epoch": 0.1, |
| "grad_norm": 6.65625, |
| "learning_rate": 9.991550525175209e-06, |
| "loss": 1.6129257678985596, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.10133333333333333, |
| "grad_norm": 8.1875, |
| "learning_rate": 9.990968180723972e-06, |
| "loss": 1.9638266563415527, |
| "step": 152 |
| }, |
| { |
| "epoch": 0.10266666666666667, |
| "grad_norm": 5.0625, |
| "learning_rate": 9.990366453320128e-06, |
| "loss": 1.8066442012786865, |
| "step": 154 |
| }, |
| { |
| "epoch": 0.104, |
| "grad_norm": 3.671875, |
| "learning_rate": 9.989745345768936e-06, |
| "loss": 1.6543402671813965, |
| "step": 156 |
| }, |
| { |
| "epoch": 0.10533333333333333, |
| "grad_norm": 3.78125, |
| "learning_rate": 9.98910486096601e-06, |
| "loss": 1.08891761302948, |
| "step": 158 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 8.4375, |
| "learning_rate": 9.9884450018973e-06, |
| "loss": 1.6041430234909058, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.108, |
| "grad_norm": 5.125, |
| "learning_rate": 9.987765771639075e-06, |
| "loss": 1.6626205444335938, |
| "step": 162 |
| }, |
| { |
| "epoch": 0.10933333333333334, |
| "grad_norm": 8.5, |
| "learning_rate": 9.987067173357918e-06, |
| "loss": 1.7176623344421387, |
| "step": 164 |
| }, |
| { |
| "epoch": 0.11066666666666666, |
| "grad_norm": 1.796875, |
| "learning_rate": 9.986349210310707e-06, |
| "loss": 1.1125199794769287, |
| "step": 166 |
| }, |
| { |
| "epoch": 0.112, |
| "grad_norm": 21.875, |
| "learning_rate": 9.985611885844591e-06, |
| "loss": 1.8107001781463623, |
| "step": 168 |
| }, |
| { |
| "epoch": 0.11333333333333333, |
| "grad_norm": 4.125, |
| "learning_rate": 9.984855203396988e-06, |
| "loss": 1.684809923171997, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.11466666666666667, |
| "grad_norm": 5.40625, |
| "learning_rate": 9.984079166495563e-06, |
| "loss": 1.624544620513916, |
| "step": 172 |
| }, |
| { |
| "epoch": 0.116, |
| "grad_norm": 2.53125, |
| "learning_rate": 9.983283778758216e-06, |
| "loss": 1.1144016981124878, |
| "step": 174 |
| }, |
| { |
| "epoch": 0.11733333333333333, |
| "grad_norm": 3.46875, |
| "learning_rate": 9.982469043893046e-06, |
| "loss": 1.2474544048309326, |
| "step": 176 |
| }, |
| { |
| "epoch": 0.11866666666666667, |
| "grad_norm": 6.9375, |
| "learning_rate": 9.981634965698366e-06, |
| "loss": 1.864957332611084, |
| "step": 178 |
| }, |
| { |
| "epoch": 0.12, |
| "grad_norm": 15.8125, |
| "learning_rate": 9.980781548062659e-06, |
| "loss": 1.8649969100952148, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.12133333333333333, |
| "grad_norm": 10.875, |
| "learning_rate": 9.979908794964571e-06, |
| "loss": 1.6164734363555908, |
| "step": 182 |
| }, |
| { |
| "epoch": 0.12266666666666666, |
| "grad_norm": 3.96875, |
| "learning_rate": 9.979016710472882e-06, |
| "loss": 1.6327316761016846, |
| "step": 184 |
| }, |
| { |
| "epoch": 0.124, |
| "grad_norm": 5.09375, |
| "learning_rate": 9.978105298746514e-06, |
| "loss": 1.5323165655136108, |
| "step": 186 |
| }, |
| { |
| "epoch": 0.12533333333333332, |
| "grad_norm": 9.4375, |
| "learning_rate": 9.977174564034473e-06, |
| "loss": 1.6481460332870483, |
| "step": 188 |
| }, |
| { |
| "epoch": 0.12666666666666668, |
| "grad_norm": 5.4375, |
| "learning_rate": 9.97622451067586e-06, |
| "loss": 1.7201898097991943, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.128, |
| "grad_norm": 4.125, |
| "learning_rate": 9.975255143099838e-06, |
| "loss": 1.567455768585205, |
| "step": 192 |
| }, |
| { |
| "epoch": 0.12933333333333333, |
| "grad_norm": 2.796875, |
| "learning_rate": 9.97426646582561e-06, |
| "loss": 1.070652723312378, |
| "step": 194 |
| }, |
| { |
| "epoch": 0.13066666666666665, |
| "grad_norm": 6.0625, |
| "learning_rate": 9.973258483462406e-06, |
| "loss": 2.008556365966797, |
| "step": 196 |
| }, |
| { |
| "epoch": 0.132, |
| "grad_norm": 5.625, |
| "learning_rate": 9.972231200709455e-06, |
| "loss": 1.6150736808776855, |
| "step": 198 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 4.0625, |
| "learning_rate": 9.97118462235596e-06, |
| "loss": 1.167098045349121, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.13466666666666666, |
| "grad_norm": 5.65625, |
| "learning_rate": 9.970118753281088e-06, |
| "loss": 1.6983978748321533, |
| "step": 202 |
| }, |
| { |
| "epoch": 0.136, |
| "grad_norm": 11.125, |
| "learning_rate": 9.969033598453932e-06, |
| "loss": 2.083345651626587, |
| "step": 204 |
| }, |
| { |
| "epoch": 0.13733333333333334, |
| "grad_norm": 3.578125, |
| "learning_rate": 9.9679291629335e-06, |
| "loss": 1.5576822757720947, |
| "step": 206 |
| }, |
| { |
| "epoch": 0.13866666666666666, |
| "grad_norm": 6.25, |
| "learning_rate": 9.96680545186869e-06, |
| "loss": 1.6733722686767578, |
| "step": 208 |
| }, |
| { |
| "epoch": 0.14, |
| "grad_norm": 1.6171875, |
| "learning_rate": 9.965662470498253e-06, |
| "loss": 1.0353288650512695, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.14133333333333334, |
| "grad_norm": 4.125, |
| "learning_rate": 9.96450022415079e-06, |
| "loss": 1.5584754943847656, |
| "step": 212 |
| }, |
| { |
| "epoch": 0.14266666666666666, |
| "grad_norm": 10.625, |
| "learning_rate": 9.963318718244706e-06, |
| "loss": 1.9951732158660889, |
| "step": 214 |
| }, |
| { |
| "epoch": 0.144, |
| "grad_norm": 3.25, |
| "learning_rate": 9.9621179582882e-06, |
| "loss": 1.2333295345306396, |
| "step": 216 |
| }, |
| { |
| "epoch": 0.14533333333333334, |
| "grad_norm": 7.25, |
| "learning_rate": 9.960897949879232e-06, |
| "loss": 1.8798540830612183, |
| "step": 218 |
| }, |
| { |
| "epoch": 0.14666666666666667, |
| "grad_norm": 5.25, |
| "learning_rate": 9.959658698705497e-06, |
| "loss": 1.6423976421356201, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.148, |
| "grad_norm": 18.25, |
| "learning_rate": 9.958400210544404e-06, |
| "loss": 1.7932629585266113, |
| "step": 222 |
| }, |
| { |
| "epoch": 0.14933333333333335, |
| "grad_norm": 7.90625, |
| "learning_rate": 9.957122491263038e-06, |
| "loss": 1.6173839569091797, |
| "step": 224 |
| }, |
| { |
| "epoch": 0.15066666666666667, |
| "grad_norm": 8.0, |
| "learning_rate": 9.95582554681815e-06, |
| "loss": 2.040992259979248, |
| "step": 226 |
| }, |
| { |
| "epoch": 0.152, |
| "grad_norm": 17.875, |
| "learning_rate": 9.95450938325611e-06, |
| "loss": 1.217178225517273, |
| "step": 228 |
| }, |
| { |
| "epoch": 0.15333333333333332, |
| "grad_norm": 3.25, |
| "learning_rate": 9.953174006712894e-06, |
| "loss": 1.5595924854278564, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.15466666666666667, |
| "grad_norm": 5.6875, |
| "learning_rate": 9.951819423414044e-06, |
| "loss": 1.7298460006713867, |
| "step": 232 |
| }, |
| { |
| "epoch": 0.156, |
| "grad_norm": 39.5, |
| "learning_rate": 9.950445639674647e-06, |
| "loss": 1.4321881532669067, |
| "step": 234 |
| }, |
| { |
| "epoch": 0.15733333333333333, |
| "grad_norm": 8.0, |
| "learning_rate": 9.9490526618993e-06, |
| "loss": 1.7013092041015625, |
| "step": 236 |
| }, |
| { |
| "epoch": 0.15866666666666668, |
| "grad_norm": 17.625, |
| "learning_rate": 9.947640496582092e-06, |
| "loss": 2.0311379432678223, |
| "step": 238 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 3.46875, |
| "learning_rate": 9.94620915030655e-06, |
| "loss": 1.2982442378997803, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.16133333333333333, |
| "grad_norm": 4.90625, |
| "learning_rate": 9.944758629745635e-06, |
| "loss": 1.5099470615386963, |
| "step": 242 |
| }, |
| { |
| "epoch": 0.16266666666666665, |
| "grad_norm": 5.90625, |
| "learning_rate": 9.943288941661693e-06, |
| "loss": 1.9453644752502441, |
| "step": 244 |
| }, |
| { |
| "epoch": 0.164, |
| "grad_norm": 5.125, |
| "learning_rate": 9.941800092906431e-06, |
| "loss": 1.4081361293792725, |
| "step": 246 |
| }, |
| { |
| "epoch": 0.16533333333333333, |
| "grad_norm": 6.09375, |
| "learning_rate": 9.940292090420882e-06, |
| "loss": 1.5031116008758545, |
| "step": 248 |
| }, |
| { |
| "epoch": 0.16666666666666666, |
| "grad_norm": 6.25, |
| "learning_rate": 9.938764941235376e-06, |
| "loss": 1.620882272720337, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.168, |
| "grad_norm": 4.09375, |
| "learning_rate": 9.937218652469508e-06, |
| "loss": 1.623213291168213, |
| "step": 252 |
| }, |
| { |
| "epoch": 0.16933333333333334, |
| "grad_norm": 6.28125, |
| "learning_rate": 9.93565323133209e-06, |
| "loss": 1.0710468292236328, |
| "step": 254 |
| }, |
| { |
| "epoch": 0.17066666666666666, |
| "grad_norm": 3.609375, |
| "learning_rate": 9.934068685121144e-06, |
| "loss": 1.6882750988006592, |
| "step": 256 |
| }, |
| { |
| "epoch": 0.172, |
| "grad_norm": 3.171875, |
| "learning_rate": 9.932465021223843e-06, |
| "loss": 1.2838215827941895, |
| "step": 258 |
| }, |
| { |
| "epoch": 0.17333333333333334, |
| "grad_norm": 7.78125, |
| "learning_rate": 9.930842247116495e-06, |
| "loss": 1.9634010791778564, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.17466666666666666, |
| "grad_norm": 4.96875, |
| "learning_rate": 9.929200370364492e-06, |
| "loss": 1.5601741075515747, |
| "step": 262 |
| }, |
| { |
| "epoch": 0.176, |
| "grad_norm": 1.46875, |
| "learning_rate": 9.927539398622288e-06, |
| "loss": 1.2826993465423584, |
| "step": 264 |
| }, |
| { |
| "epoch": 0.17733333333333334, |
| "grad_norm": 7.6875, |
| "learning_rate": 9.925859339633355e-06, |
| "loss": 1.7858996391296387, |
| "step": 266 |
| }, |
| { |
| "epoch": 0.17866666666666667, |
| "grad_norm": 4.65625, |
| "learning_rate": 9.924160201230157e-06, |
| "loss": 1.612287163734436, |
| "step": 268 |
| }, |
| { |
| "epoch": 0.18, |
| "grad_norm": 4.0, |
| "learning_rate": 9.922441991334097e-06, |
| "loss": 1.0408704280853271, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.18133333333333335, |
| "grad_norm": 2.546875, |
| "learning_rate": 9.920704717955494e-06, |
| "loss": 1.4308617115020752, |
| "step": 272 |
| }, |
| { |
| "epoch": 0.18266666666666667, |
| "grad_norm": 4.53125, |
| "learning_rate": 9.918948389193544e-06, |
| "loss": 1.5153369903564453, |
| "step": 274 |
| }, |
| { |
| "epoch": 0.184, |
| "grad_norm": 4.75, |
| "learning_rate": 9.917173013236274e-06, |
| "loss": 1.577946662902832, |
| "step": 276 |
| }, |
| { |
| "epoch": 0.18533333333333332, |
| "grad_norm": 9.25, |
| "learning_rate": 9.915378598360513e-06, |
| "loss": 1.7744827270507812, |
| "step": 278 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 1.78125, |
| "learning_rate": 9.913565152931848e-06, |
| "loss": 1.1672523021697998, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.188, |
| "grad_norm": 6.6875, |
| "learning_rate": 9.911732685404586e-06, |
| "loss": 1.0714428424835205, |
| "step": 282 |
| }, |
| { |
| "epoch": 0.18933333333333333, |
| "grad_norm": 13.6875, |
| "learning_rate": 9.909881204321719e-06, |
| "loss": 1.6007957458496094, |
| "step": 284 |
| }, |
| { |
| "epoch": 0.19066666666666668, |
| "grad_norm": 3.515625, |
| "learning_rate": 9.908010718314878e-06, |
| "loss": 1.1711657047271729, |
| "step": 286 |
| }, |
| { |
| "epoch": 0.192, |
| "grad_norm": 1.90625, |
| "learning_rate": 9.906121236104294e-06, |
| "loss": 0.9995139837265015, |
| "step": 288 |
| }, |
| { |
| "epoch": 0.19333333333333333, |
| "grad_norm": 2.53125, |
| "learning_rate": 9.90421276649876e-06, |
| "loss": 1.2077773809432983, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.19466666666666665, |
| "grad_norm": 4.625, |
| "learning_rate": 9.902285318395588e-06, |
| "loss": 1.6521837711334229, |
| "step": 292 |
| }, |
| { |
| "epoch": 0.196, |
| "grad_norm": 3.921875, |
| "learning_rate": 9.90033890078057e-06, |
| "loss": 1.549246072769165, |
| "step": 294 |
| }, |
| { |
| "epoch": 0.19733333333333333, |
| "grad_norm": 6.0, |
| "learning_rate": 9.898373522727933e-06, |
| "loss": 1.6926743984222412, |
| "step": 296 |
| }, |
| { |
| "epoch": 0.19866666666666666, |
| "grad_norm": 4.09375, |
| "learning_rate": 9.896389193400296e-06, |
| "loss": 1.424901008605957, |
| "step": 298 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 6.4375, |
| "learning_rate": 9.894385922048627e-06, |
| "loss": 1.5778025388717651, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.20133333333333334, |
| "grad_norm": 10.5, |
| "learning_rate": 9.89236371801221e-06, |
| "loss": 1.8592967987060547, |
| "step": 302 |
| }, |
| { |
| "epoch": 0.20266666666666666, |
| "grad_norm": 4.875, |
| "learning_rate": 9.890322590718588e-06, |
| "loss": 1.5442957878112793, |
| "step": 304 |
| }, |
| { |
| "epoch": 0.204, |
| "grad_norm": 3.15625, |
| "learning_rate": 9.888262549683528e-06, |
| "loss": 1.1914174556732178, |
| "step": 306 |
| }, |
| { |
| "epoch": 0.20533333333333334, |
| "grad_norm": 5.78125, |
| "learning_rate": 9.886183604510962e-06, |
| "loss": 1.9909839630126953, |
| "step": 308 |
| }, |
| { |
| "epoch": 0.20666666666666667, |
| "grad_norm": 5.34375, |
| "learning_rate": 9.884085764892972e-06, |
| "loss": 1.573006510734558, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.208, |
| "grad_norm": 2.703125, |
| "learning_rate": 9.881969040609709e-06, |
| "loss": 1.158943772315979, |
| "step": 312 |
| }, |
| { |
| "epoch": 0.20933333333333334, |
| "grad_norm": 2.125, |
| "learning_rate": 9.879833441529376e-06, |
| "loss": 1.1194008588790894, |
| "step": 314 |
| }, |
| { |
| "epoch": 0.21066666666666667, |
| "grad_norm": 8.4375, |
| "learning_rate": 9.877678977608163e-06, |
| "loss": 1.5121419429779053, |
| "step": 316 |
| }, |
| { |
| "epoch": 0.212, |
| "grad_norm": 7.1875, |
| "learning_rate": 9.875505658890214e-06, |
| "loss": 1.510066032409668, |
| "step": 318 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 11.1875, |
| "learning_rate": 9.873313495507569e-06, |
| "loss": 0.9876103401184082, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.21466666666666667, |
| "grad_norm": 4.875, |
| "learning_rate": 9.871102497680127e-06, |
| "loss": 1.8244948387145996, |
| "step": 322 |
| }, |
| { |
| "epoch": 0.216, |
| "grad_norm": 4.78125, |
| "learning_rate": 9.86887267571559e-06, |
| "loss": 1.1998775005340576, |
| "step": 324 |
| }, |
| { |
| "epoch": 0.21733333333333332, |
| "grad_norm": 4.25, |
| "learning_rate": 9.86662404000942e-06, |
| "loss": 1.5374467372894287, |
| "step": 326 |
| }, |
| { |
| "epoch": 0.21866666666666668, |
| "grad_norm": 2.328125, |
| "learning_rate": 9.864356601044789e-06, |
| "loss": 1.1450176239013672, |
| "step": 328 |
| }, |
| { |
| "epoch": 0.22, |
| "grad_norm": 4.46875, |
| "learning_rate": 9.86207036939253e-06, |
| "loss": 1.261959195137024, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.22133333333333333, |
| "grad_norm": 3.421875, |
| "learning_rate": 9.859765355711084e-06, |
| "loss": 1.1870423555374146, |
| "step": 332 |
| }, |
| { |
| "epoch": 0.22266666666666668, |
| "grad_norm": 3.359375, |
| "learning_rate": 9.85744157074646e-06, |
| "loss": 1.5192539691925049, |
| "step": 334 |
| }, |
| { |
| "epoch": 0.224, |
| "grad_norm": 2.5, |
| "learning_rate": 9.855099025332178e-06, |
| "loss": 1.0173918008804321, |
| "step": 336 |
| }, |
| { |
| "epoch": 0.22533333333333333, |
| "grad_norm": 1.4375, |
| "learning_rate": 9.852737730389217e-06, |
| "loss": 1.1494295597076416, |
| "step": 338 |
| }, |
| { |
| "epoch": 0.22666666666666666, |
| "grad_norm": 4.65625, |
| "learning_rate": 9.850357696925965e-06, |
| "loss": 1.9026292562484741, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.228, |
| "grad_norm": 4.71875, |
| "learning_rate": 9.847958936038176e-06, |
| "loss": 1.59890878200531, |
| "step": 342 |
| }, |
| { |
| "epoch": 0.22933333333333333, |
| "grad_norm": 1.8203125, |
| "learning_rate": 9.845541458908903e-06, |
| "loss": 1.1450040340423584, |
| "step": 344 |
| }, |
| { |
| "epoch": 0.23066666666666666, |
| "grad_norm": 5.9375, |
| "learning_rate": 9.84310527680846e-06, |
| "loss": 1.528599739074707, |
| "step": 346 |
| }, |
| { |
| "epoch": 0.232, |
| "grad_norm": 7.6875, |
| "learning_rate": 9.840650401094363e-06, |
| "loss": 1.938246488571167, |
| "step": 348 |
| }, |
| { |
| "epoch": 0.23333333333333334, |
| "grad_norm": 2.0625, |
| "learning_rate": 9.838176843211278e-06, |
| "loss": 1.1424744129180908, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.23466666666666666, |
| "grad_norm": 4.21875, |
| "learning_rate": 9.835684614690967e-06, |
| "loss": 1.617881178855896, |
| "step": 352 |
| }, |
| { |
| "epoch": 0.236, |
| "grad_norm": 11.4375, |
| "learning_rate": 9.833173727152234e-06, |
| "loss": 1.0590524673461914, |
| "step": 354 |
| }, |
| { |
| "epoch": 0.23733333333333334, |
| "grad_norm": 4.6875, |
| "learning_rate": 9.830644192300871e-06, |
| "loss": 1.597219467163086, |
| "step": 356 |
| }, |
| { |
| "epoch": 0.23866666666666667, |
| "grad_norm": 5.6875, |
| "learning_rate": 9.828096021929607e-06, |
| "loss": 2.0535879135131836, |
| "step": 358 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 5.03125, |
| "learning_rate": 9.825529227918052e-06, |
| "loss": 1.5197744369506836, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.24133333333333334, |
| "grad_norm": 7.0, |
| "learning_rate": 9.822943822232627e-06, |
| "loss": 1.502641201019287, |
| "step": 362 |
| }, |
| { |
| "epoch": 0.24266666666666667, |
| "grad_norm": 5.40625, |
| "learning_rate": 9.820339816926538e-06, |
| "loss": 1.582297682762146, |
| "step": 364 |
| }, |
| { |
| "epoch": 0.244, |
| "grad_norm": 7.34375, |
| "learning_rate": 9.817717224139689e-06, |
| "loss": 1.879384994506836, |
| "step": 366 |
| }, |
| { |
| "epoch": 0.24533333333333332, |
| "grad_norm": 3.84375, |
| "learning_rate": 9.815076056098651e-06, |
| "loss": 1.1634621620178223, |
| "step": 368 |
| }, |
| { |
| "epoch": 0.24666666666666667, |
| "grad_norm": 4.1875, |
| "learning_rate": 9.81241632511658e-06, |
| "loss": 1.5249799489974976, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.248, |
| "grad_norm": 2.84375, |
| "learning_rate": 9.809738043593187e-06, |
| "loss": 1.0248550176620483, |
| "step": 372 |
| }, |
| { |
| "epoch": 0.24933333333333332, |
| "grad_norm": 3.28125, |
| "learning_rate": 9.807041224014651e-06, |
| "loss": 1.5375021696090698, |
| "step": 374 |
| }, |
| { |
| "epoch": 0.25066666666666665, |
| "grad_norm": 4.0, |
| "learning_rate": 9.804325878953588e-06, |
| "loss": 1.4876121282577515, |
| "step": 376 |
| }, |
| { |
| "epoch": 0.252, |
| "grad_norm": 4.71875, |
| "learning_rate": 9.801592021068973e-06, |
| "loss": 1.5311915874481201, |
| "step": 378 |
| }, |
| { |
| "epoch": 0.25333333333333335, |
| "grad_norm": 1.8671875, |
| "learning_rate": 9.79883966310609e-06, |
| "loss": 1.199878215789795, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.25466666666666665, |
| "grad_norm": 1.7890625, |
| "learning_rate": 9.796068817896474e-06, |
| "loss": 1.1104457378387451, |
| "step": 382 |
| }, |
| { |
| "epoch": 0.256, |
| "grad_norm": 1.046875, |
| "learning_rate": 9.793279498357842e-06, |
| "loss": 1.2461895942687988, |
| "step": 384 |
| }, |
| { |
| "epoch": 0.25733333333333336, |
| "grad_norm": 1.6875, |
| "learning_rate": 9.790471717494038e-06, |
| "loss": 1.0979530811309814, |
| "step": 386 |
| }, |
| { |
| "epoch": 0.25866666666666666, |
| "grad_norm": 9.5, |
| "learning_rate": 9.787645488394985e-06, |
| "loss": 1.9058414697647095, |
| "step": 388 |
| }, |
| { |
| "epoch": 0.26, |
| "grad_norm": 6.6875, |
| "learning_rate": 9.784800824236595e-06, |
| "loss": 1.4592888355255127, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.2613333333333333, |
| "grad_norm": 12.0, |
| "learning_rate": 9.781937738280735e-06, |
| "loss": 1.8315216302871704, |
| "step": 392 |
| }, |
| { |
| "epoch": 0.26266666666666666, |
| "grad_norm": 5.75, |
| "learning_rate": 9.779056243875155e-06, |
| "loss": 1.5205374956130981, |
| "step": 394 |
| }, |
| { |
| "epoch": 0.264, |
| "grad_norm": 10.75, |
| "learning_rate": 9.77615635445342e-06, |
| "loss": 1.4809885025024414, |
| "step": 396 |
| }, |
| { |
| "epoch": 0.2653333333333333, |
| "grad_norm": 8.75, |
| "learning_rate": 9.773238083534857e-06, |
| "loss": 2.0717709064483643, |
| "step": 398 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 2.15625, |
| "learning_rate": 9.770301444724484e-06, |
| "loss": 0.9559568762779236, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.268, |
| "grad_norm": 7.46875, |
| "learning_rate": 9.767346451712955e-06, |
| "loss": 1.602325439453125, |
| "step": 402 |
| }, |
| { |
| "epoch": 0.2693333333333333, |
| "grad_norm": 1.890625, |
| "learning_rate": 9.76437311827649e-06, |
| "loss": 1.3470821380615234, |
| "step": 404 |
| }, |
| { |
| "epoch": 0.27066666666666667, |
| "grad_norm": 7.6875, |
| "learning_rate": 9.76138145827681e-06, |
| "loss": 2.051486015319824, |
| "step": 406 |
| }, |
| { |
| "epoch": 0.272, |
| "grad_norm": 9.3125, |
| "learning_rate": 9.758371485661076e-06, |
| "loss": 1.547593116760254, |
| "step": 408 |
| }, |
| { |
| "epoch": 0.2733333333333333, |
| "grad_norm": 12.1875, |
| "learning_rate": 9.755343214461826e-06, |
| "loss": 0.7995688915252686, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.27466666666666667, |
| "grad_norm": 2.609375, |
| "learning_rate": 9.752296658796896e-06, |
| "loss": 1.067533254623413, |
| "step": 412 |
| }, |
| { |
| "epoch": 0.276, |
| "grad_norm": 2.609375, |
| "learning_rate": 9.749231832869382e-06, |
| "loss": 1.1320441961288452, |
| "step": 414 |
| }, |
| { |
| "epoch": 0.2773333333333333, |
| "grad_norm": 5.53125, |
| "learning_rate": 9.746148750967537e-06, |
| "loss": 1.570180058479309, |
| "step": 416 |
| }, |
| { |
| "epoch": 0.2786666666666667, |
| "grad_norm": 2.59375, |
| "learning_rate": 9.743047427464738e-06, |
| "loss": 1.1230032444000244, |
| "step": 418 |
| }, |
| { |
| "epoch": 0.28, |
| "grad_norm": 1.65625, |
| "learning_rate": 9.739927876819396e-06, |
| "loss": 1.3301358222961426, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.2813333333333333, |
| "grad_norm": 4.78125, |
| "learning_rate": 9.736790113574905e-06, |
| "loss": 1.5038044452667236, |
| "step": 422 |
| }, |
| { |
| "epoch": 0.2826666666666667, |
| "grad_norm": 1.34375, |
| "learning_rate": 9.733634152359554e-06, |
| "loss": 1.1231873035430908, |
| "step": 424 |
| }, |
| { |
| "epoch": 0.284, |
| "grad_norm": 5.46875, |
| "learning_rate": 9.730460007886487e-06, |
| "loss": 1.4550846815109253, |
| "step": 426 |
| }, |
| { |
| "epoch": 0.2853333333333333, |
| "grad_norm": 2.828125, |
| "learning_rate": 9.727267694953607e-06, |
| "loss": 1.2031742334365845, |
| "step": 428 |
| }, |
| { |
| "epoch": 0.2866666666666667, |
| "grad_norm": 7.625, |
| "learning_rate": 9.72405722844352e-06, |
| "loss": 2.016512870788574, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.288, |
| "grad_norm": 10.9375, |
| "learning_rate": 9.720828623323469e-06, |
| "loss": 1.8591995239257812, |
| "step": 432 |
| }, |
| { |
| "epoch": 0.28933333333333333, |
| "grad_norm": 5.34375, |
| "learning_rate": 9.717581894645257e-06, |
| "loss": 1.607204556465149, |
| "step": 434 |
| }, |
| { |
| "epoch": 0.2906666666666667, |
| "grad_norm": 6.5625, |
| "learning_rate": 9.714317057545176e-06, |
| "loss": 1.7864959239959717, |
| "step": 436 |
| }, |
| { |
| "epoch": 0.292, |
| "grad_norm": 60.25, |
| "learning_rate": 9.711034127243948e-06, |
| "loss": 1.471695899963379, |
| "step": 438 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 12.375, |
| "learning_rate": 9.707733119046636e-06, |
| "loss": 1.7200267314910889, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.2946666666666667, |
| "grad_norm": 4.15625, |
| "learning_rate": 9.70441404834259e-06, |
| "loss": 1.4870445728302002, |
| "step": 442 |
| }, |
| { |
| "epoch": 0.296, |
| "grad_norm": 8.8125, |
| "learning_rate": 9.701076930605364e-06, |
| "loss": 1.579514503479004, |
| "step": 444 |
| }, |
| { |
| "epoch": 0.29733333333333334, |
| "grad_norm": 11.25, |
| "learning_rate": 9.697721781392649e-06, |
| "loss": 1.1523479223251343, |
| "step": 446 |
| }, |
| { |
| "epoch": 0.2986666666666667, |
| "grad_norm": 11.375, |
| "learning_rate": 9.694348616346195e-06, |
| "loss": 1.970068097114563, |
| "step": 448 |
| }, |
| { |
| "epoch": 0.3, |
| "grad_norm": 5.0, |
| "learning_rate": 9.690957451191745e-06, |
| "loss": 1.5304884910583496, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.30133333333333334, |
| "grad_norm": 12.625, |
| "learning_rate": 9.687548301738965e-06, |
| "loss": 1.4972553253173828, |
| "step": 452 |
| }, |
| { |
| "epoch": 0.30266666666666664, |
| "grad_norm": 8.1875, |
| "learning_rate": 9.684121183881354e-06, |
| "loss": 1.4987800121307373, |
| "step": 454 |
| }, |
| { |
| "epoch": 0.304, |
| "grad_norm": 3.984375, |
| "learning_rate": 9.680676113596183e-06, |
| "loss": 1.607285499572754, |
| "step": 456 |
| }, |
| { |
| "epoch": 0.30533333333333335, |
| "grad_norm": 5.09375, |
| "learning_rate": 9.677213106944422e-06, |
| "loss": 1.5995099544525146, |
| "step": 458 |
| }, |
| { |
| "epoch": 0.30666666666666664, |
| "grad_norm": 16.0, |
| "learning_rate": 9.673732180070654e-06, |
| "loss": 1.8780418634414673, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.308, |
| "grad_norm": 17.625, |
| "learning_rate": 9.670233349203008e-06, |
| "loss": 1.6614197492599487, |
| "step": 462 |
| }, |
| { |
| "epoch": 0.30933333333333335, |
| "grad_norm": 1.9375, |
| "learning_rate": 9.666716630653087e-06, |
| "loss": 1.0368998050689697, |
| "step": 464 |
| }, |
| { |
| "epoch": 0.31066666666666665, |
| "grad_norm": 14.875, |
| "learning_rate": 9.663182040815883e-06, |
| "loss": 1.773169755935669, |
| "step": 466 |
| }, |
| { |
| "epoch": 0.312, |
| "grad_norm": 1.921875, |
| "learning_rate": 9.659629596169704e-06, |
| "loss": 1.0493347644805908, |
| "step": 468 |
| }, |
| { |
| "epoch": 0.31333333333333335, |
| "grad_norm": 4.40625, |
| "learning_rate": 9.656059313276094e-06, |
| "loss": 1.3263812065124512, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.31466666666666665, |
| "grad_norm": 16.25, |
| "learning_rate": 9.65247120877976e-06, |
| "loss": 1.6804672479629517, |
| "step": 472 |
| }, |
| { |
| "epoch": 0.316, |
| "grad_norm": 9.375, |
| "learning_rate": 9.648865299408506e-06, |
| "loss": 1.946678638458252, |
| "step": 474 |
| }, |
| { |
| "epoch": 0.31733333333333336, |
| "grad_norm": 5.09375, |
| "learning_rate": 9.645241601973123e-06, |
| "loss": 1.5437986850738525, |
| "step": 476 |
| }, |
| { |
| "epoch": 0.31866666666666665, |
| "grad_norm": 4.8125, |
| "learning_rate": 9.641600133367346e-06, |
| "loss": 1.4694257974624634, |
| "step": 478 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 8.4375, |
| "learning_rate": 9.63794091056775e-06, |
| "loss": 1.4415161609649658, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.32133333333333336, |
| "grad_norm": 7.0, |
| "learning_rate": 9.634263950633682e-06, |
| "loss": 1.4647676944732666, |
| "step": 482 |
| }, |
| { |
| "epoch": 0.32266666666666666, |
| "grad_norm": 10.4375, |
| "learning_rate": 9.630569270707186e-06, |
| "loss": 1.9553511142730713, |
| "step": 484 |
| }, |
| { |
| "epoch": 0.324, |
| "grad_norm": 1.8828125, |
| "learning_rate": 9.62685688801291e-06, |
| "loss": 1.3038352727890015, |
| "step": 486 |
| }, |
| { |
| "epoch": 0.3253333333333333, |
| "grad_norm": 5.09375, |
| "learning_rate": 9.623126819858035e-06, |
| "loss": 1.6100306510925293, |
| "step": 488 |
| }, |
| { |
| "epoch": 0.32666666666666666, |
| "grad_norm": 6.125, |
| "learning_rate": 9.61937908363219e-06, |
| "loss": 1.477756381034851, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.328, |
| "grad_norm": 6.4375, |
| "learning_rate": 9.615613696807377e-06, |
| "loss": 1.5422775745391846, |
| "step": 492 |
| }, |
| { |
| "epoch": 0.3293333333333333, |
| "grad_norm": 11.1875, |
| "learning_rate": 9.611830676937881e-06, |
| "loss": 1.6656134128570557, |
| "step": 494 |
| }, |
| { |
| "epoch": 0.33066666666666666, |
| "grad_norm": 8.5625, |
| "learning_rate": 9.608030041660195e-06, |
| "loss": 2.0399422645568848, |
| "step": 496 |
| }, |
| { |
| "epoch": 0.332, |
| "grad_norm": 7.78125, |
| "learning_rate": 9.604211808692936e-06, |
| "loss": 1.023806095123291, |
| "step": 498 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 5.21875, |
| "learning_rate": 9.600375995836757e-06, |
| "loss": 1.828716516494751, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.33466666666666667, |
| "grad_norm": 5.3125, |
| "learning_rate": 9.596522620974274e-06, |
| "loss": 1.6109929084777832, |
| "step": 502 |
| }, |
| { |
| "epoch": 0.336, |
| "grad_norm": 1.8828125, |
| "learning_rate": 9.59265170206997e-06, |
| "loss": 1.0516669750213623, |
| "step": 504 |
| }, |
| { |
| "epoch": 0.3373333333333333, |
| "grad_norm": 4.6875, |
| "learning_rate": 9.588763257170135e-06, |
| "loss": 1.4694746732711792, |
| "step": 506 |
| }, |
| { |
| "epoch": 0.33866666666666667, |
| "grad_norm": 7.6875, |
| "learning_rate": 9.584857304402746e-06, |
| "loss": 1.5151875019073486, |
| "step": 508 |
| }, |
| { |
| "epoch": 0.34, |
| "grad_norm": 12.9375, |
| "learning_rate": 9.58093386197741e-06, |
| "loss": 1.5199638605117798, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.3413333333333333, |
| "grad_norm": 1.6953125, |
| "learning_rate": 9.576992948185276e-06, |
| "loss": 1.1889758110046387, |
| "step": 512 |
| }, |
| { |
| "epoch": 0.3426666666666667, |
| "grad_norm": 9.875, |
| "learning_rate": 9.573034581398937e-06, |
| "loss": 1.5682647228240967, |
| "step": 514 |
| }, |
| { |
| "epoch": 0.344, |
| "grad_norm": 3.875, |
| "learning_rate": 9.569058780072353e-06, |
| "loss": 1.5848019123077393, |
| "step": 516 |
| }, |
| { |
| "epoch": 0.3453333333333333, |
| "grad_norm": 9.25, |
| "learning_rate": 9.565065562740769e-06, |
| "loss": 1.883324146270752, |
| "step": 518 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 4.03125, |
| "learning_rate": 9.561054948020623e-06, |
| "loss": 1.1338858604431152, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.348, |
| "grad_norm": 4.5, |
| "learning_rate": 9.557026954609452e-06, |
| "loss": 1.504443883895874, |
| "step": 522 |
| }, |
| { |
| "epoch": 0.34933333333333333, |
| "grad_norm": 13.375, |
| "learning_rate": 9.552981601285822e-06, |
| "loss": 1.4343321323394775, |
| "step": 524 |
| }, |
| { |
| "epoch": 0.3506666666666667, |
| "grad_norm": 4.4375, |
| "learning_rate": 9.548918906909225e-06, |
| "loss": 1.5061818361282349, |
| "step": 526 |
| }, |
| { |
| "epoch": 0.352, |
| "grad_norm": 4.96875, |
| "learning_rate": 9.544838890420005e-06, |
| "loss": 1.6417787075042725, |
| "step": 528 |
| }, |
| { |
| "epoch": 0.35333333333333333, |
| "grad_norm": 2.46875, |
| "learning_rate": 9.540741570839254e-06, |
| "loss": 1.2109320163726807, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.3546666666666667, |
| "grad_norm": 12.8125, |
| "learning_rate": 9.53662696726873e-06, |
| "loss": 1.592550277709961, |
| "step": 532 |
| }, |
| { |
| "epoch": 0.356, |
| "grad_norm": 2.25, |
| "learning_rate": 9.53249509889078e-06, |
| "loss": 1.0606516599655151, |
| "step": 534 |
| }, |
| { |
| "epoch": 0.35733333333333334, |
| "grad_norm": 4.25, |
| "learning_rate": 9.528345984968229e-06, |
| "loss": 1.4385344982147217, |
| "step": 536 |
| }, |
| { |
| "epoch": 0.3586666666666667, |
| "grad_norm": 7.71875, |
| "learning_rate": 9.524179644844303e-06, |
| "loss": 1.8518590927124023, |
| "step": 538 |
| }, |
| { |
| "epoch": 0.36, |
| "grad_norm": 4.6875, |
| "learning_rate": 9.519996097942541e-06, |
| "loss": 1.7862706184387207, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.36133333333333334, |
| "grad_norm": 4.65625, |
| "learning_rate": 9.5157953637667e-06, |
| "loss": 1.541890263557434, |
| "step": 542 |
| }, |
| { |
| "epoch": 0.3626666666666667, |
| "grad_norm": 4.28125, |
| "learning_rate": 9.51157746190066e-06, |
| "loss": 1.0391428470611572, |
| "step": 544 |
| }, |
| { |
| "epoch": 0.364, |
| "grad_norm": 5.53125, |
| "learning_rate": 9.50734241200834e-06, |
| "loss": 1.4924867153167725, |
| "step": 546 |
| }, |
| { |
| "epoch": 0.36533333333333334, |
| "grad_norm": 3.859375, |
| "learning_rate": 9.503090233833603e-06, |
| "loss": 1.4717371463775635, |
| "step": 548 |
| }, |
| { |
| "epoch": 0.36666666666666664, |
| "grad_norm": 7.5, |
| "learning_rate": 9.498820947200163e-06, |
| "loss": 1.8459192514419556, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.368, |
| "grad_norm": 4.6875, |
| "learning_rate": 9.494534572011493e-06, |
| "loss": 1.5080983638763428, |
| "step": 552 |
| }, |
| { |
| "epoch": 0.36933333333333335, |
| "grad_norm": 4.375, |
| "learning_rate": 9.49023112825074e-06, |
| "loss": 1.432806372642517, |
| "step": 554 |
| }, |
| { |
| "epoch": 0.37066666666666664, |
| "grad_norm": 2.1875, |
| "learning_rate": 9.485910635980615e-06, |
| "loss": 1.2087211608886719, |
| "step": 556 |
| }, |
| { |
| "epoch": 0.372, |
| "grad_norm": 3.453125, |
| "learning_rate": 9.481573115343316e-06, |
| "loss": 1.5064131021499634, |
| "step": 558 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 8.125, |
| "learning_rate": 9.477218586560428e-06, |
| "loss": 1.9642555713653564, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.37466666666666665, |
| "grad_norm": 1.6328125, |
| "learning_rate": 9.472847069932823e-06, |
| "loss": 1.278930425643921, |
| "step": 562 |
| }, |
| { |
| "epoch": 0.376, |
| "grad_norm": 5.71875, |
| "learning_rate": 9.468458585840574e-06, |
| "loss": 1.361438512802124, |
| "step": 564 |
| }, |
| { |
| "epoch": 0.37733333333333335, |
| "grad_norm": 4.8125, |
| "learning_rate": 9.464053154742856e-06, |
| "loss": 1.5573828220367432, |
| "step": 566 |
| }, |
| { |
| "epoch": 0.37866666666666665, |
| "grad_norm": 7.3125, |
| "learning_rate": 9.459630797177852e-06, |
| "loss": 1.8953866958618164, |
| "step": 568 |
| }, |
| { |
| "epoch": 0.38, |
| "grad_norm": 8.3125, |
| "learning_rate": 9.455191533762656e-06, |
| "loss": 1.8274908065795898, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.38133333333333336, |
| "grad_norm": 3.484375, |
| "learning_rate": 9.450735385193174e-06, |
| "loss": 0.9719834327697754, |
| "step": 572 |
| }, |
| { |
| "epoch": 0.38266666666666665, |
| "grad_norm": 4.59375, |
| "learning_rate": 9.446262372244037e-06, |
| "loss": 1.5405220985412598, |
| "step": 574 |
| }, |
| { |
| "epoch": 0.384, |
| "grad_norm": 4.4375, |
| "learning_rate": 9.441772515768496e-06, |
| "loss": 1.5655242204666138, |
| "step": 576 |
| }, |
| { |
| "epoch": 0.38533333333333336, |
| "grad_norm": 10.5625, |
| "learning_rate": 9.437265836698321e-06, |
| "loss": 2.027954578399658, |
| "step": 578 |
| }, |
| { |
| "epoch": 0.38666666666666666, |
| "grad_norm": 6.40625, |
| "learning_rate": 9.432742356043716e-06, |
| "loss": 1.5380610227584839, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.388, |
| "grad_norm": 3.875, |
| "learning_rate": 9.428202094893212e-06, |
| "loss": 1.251591682434082, |
| "step": 582 |
| }, |
| { |
| "epoch": 0.3893333333333333, |
| "grad_norm": 2.984375, |
| "learning_rate": 9.423645074413573e-06, |
| "loss": 1.127235770225525, |
| "step": 584 |
| }, |
| { |
| "epoch": 0.39066666666666666, |
| "grad_norm": 11.1875, |
| "learning_rate": 9.419071315849689e-06, |
| "loss": 1.574254035949707, |
| "step": 586 |
| }, |
| { |
| "epoch": 0.392, |
| "grad_norm": 6.65625, |
| "learning_rate": 9.41448084052449e-06, |
| "loss": 1.6922552585601807, |
| "step": 588 |
| }, |
| { |
| "epoch": 0.3933333333333333, |
| "grad_norm": 6.53125, |
| "learning_rate": 9.409873669838836e-06, |
| "loss": 1.503310203552246, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.39466666666666667, |
| "grad_norm": 4.75, |
| "learning_rate": 9.405249825271422e-06, |
| "loss": 1.559074878692627, |
| "step": 592 |
| }, |
| { |
| "epoch": 0.396, |
| "grad_norm": 4.25, |
| "learning_rate": 9.400609328378677e-06, |
| "loss": 1.4986786842346191, |
| "step": 594 |
| }, |
| { |
| "epoch": 0.3973333333333333, |
| "grad_norm": 6.21875, |
| "learning_rate": 9.395952200794667e-06, |
| "loss": 1.4592822790145874, |
| "step": 596 |
| }, |
| { |
| "epoch": 0.39866666666666667, |
| "grad_norm": 15.1875, |
| "learning_rate": 9.39127846423098e-06, |
| "loss": 0.4564563035964966, |
| "step": 598 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 3.96875, |
| "learning_rate": 9.386588140476646e-06, |
| "loss": 1.4600090980529785, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.4013333333333333, |
| "grad_norm": 5.78125, |
| "learning_rate": 9.381881251398022e-06, |
| "loss": 1.618513822555542, |
| "step": 602 |
| }, |
| { |
| "epoch": 0.4026666666666667, |
| "grad_norm": 2.6875, |
| "learning_rate": 9.377157818938689e-06, |
| "loss": 0.9879556894302368, |
| "step": 604 |
| }, |
| { |
| "epoch": 0.404, |
| "grad_norm": 1.5703125, |
| "learning_rate": 9.372417865119359e-06, |
| "loss": 1.0576777458190918, |
| "step": 606 |
| }, |
| { |
| "epoch": 0.4053333333333333, |
| "grad_norm": 8.5, |
| "learning_rate": 9.367661412037758e-06, |
| "loss": 0.7936822175979614, |
| "step": 608 |
| }, |
| { |
| "epoch": 0.4066666666666667, |
| "grad_norm": 7.25, |
| "learning_rate": 9.362888481868543e-06, |
| "loss": 1.8808355331420898, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.408, |
| "grad_norm": 2.25, |
| "learning_rate": 9.358099096863185e-06, |
| "loss": 0.9202804565429688, |
| "step": 612 |
| }, |
| { |
| "epoch": 0.4093333333333333, |
| "grad_norm": 4.90625, |
| "learning_rate": 9.353293279349855e-06, |
| "loss": 1.534444808959961, |
| "step": 614 |
| }, |
| { |
| "epoch": 0.4106666666666667, |
| "grad_norm": 4.0, |
| "learning_rate": 9.348471051733351e-06, |
| "loss": 1.4413414001464844, |
| "step": 616 |
| }, |
| { |
| "epoch": 0.412, |
| "grad_norm": 9.375, |
| "learning_rate": 9.343632436494966e-06, |
| "loss": 1.8454234600067139, |
| "step": 618 |
| }, |
| { |
| "epoch": 0.41333333333333333, |
| "grad_norm": 5.65625, |
| "learning_rate": 9.338777456192387e-06, |
| "loss": 1.5563803911209106, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.4146666666666667, |
| "grad_norm": 7.40625, |
| "learning_rate": 9.333906133459608e-06, |
| "loss": 1.7403740882873535, |
| "step": 622 |
| }, |
| { |
| "epoch": 0.416, |
| "grad_norm": 6.40625, |
| "learning_rate": 9.329018491006796e-06, |
| "loss": 1.380486249923706, |
| "step": 624 |
| }, |
| { |
| "epoch": 0.41733333333333333, |
| "grad_norm": 10.25, |
| "learning_rate": 9.324114551620216e-06, |
| "loss": 1.8002688884735107, |
| "step": 626 |
| }, |
| { |
| "epoch": 0.4186666666666667, |
| "grad_norm": 2.15625, |
| "learning_rate": 9.319194338162103e-06, |
| "loss": 1.0972381830215454, |
| "step": 628 |
| }, |
| { |
| "epoch": 0.42, |
| "grad_norm": 8.375, |
| "learning_rate": 9.31425787357056e-06, |
| "loss": 1.166933536529541, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.42133333333333334, |
| "grad_norm": 4.90625, |
| "learning_rate": 9.309305180859455e-06, |
| "loss": 1.0162211656570435, |
| "step": 632 |
| }, |
| { |
| "epoch": 0.4226666666666667, |
| "grad_norm": 11.3125, |
| "learning_rate": 9.304336283118313e-06, |
| "loss": 1.5658559799194336, |
| "step": 634 |
| }, |
| { |
| "epoch": 0.424, |
| "grad_norm": 4.625, |
| "learning_rate": 9.299351203512204e-06, |
| "loss": 1.5108516216278076, |
| "step": 636 |
| }, |
| { |
| "epoch": 0.42533333333333334, |
| "grad_norm": 1.78125, |
| "learning_rate": 9.29434996528164e-06, |
| "loss": 1.030600905418396, |
| "step": 638 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 6.4375, |
| "learning_rate": 9.289332591742465e-06, |
| "loss": 1.501643419265747, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.428, |
| "grad_norm": 5.8125, |
| "learning_rate": 9.284299106285748e-06, |
| "loss": 1.3692076206207275, |
| "step": 642 |
| }, |
| { |
| "epoch": 0.42933333333333334, |
| "grad_norm": 4.21875, |
| "learning_rate": 9.279249532377663e-06, |
| "loss": 1.4648946523666382, |
| "step": 644 |
| }, |
| { |
| "epoch": 0.43066666666666664, |
| "grad_norm": 5.0, |
| "learning_rate": 9.2741838935594e-06, |
| "loss": 1.129237174987793, |
| "step": 646 |
| }, |
| { |
| "epoch": 0.432, |
| "grad_norm": 3.84375, |
| "learning_rate": 9.26910221344704e-06, |
| "loss": 1.4659708738327026, |
| "step": 648 |
| }, |
| { |
| "epoch": 0.43333333333333335, |
| "grad_norm": 7.34375, |
| "learning_rate": 9.264004515731449e-06, |
| "loss": 1.9087955951690674, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.43466666666666665, |
| "grad_norm": 6.3125, |
| "learning_rate": 9.25889082417816e-06, |
| "loss": 1.4802827835083008, |
| "step": 652 |
| }, |
| { |
| "epoch": 0.436, |
| "grad_norm": 4.15625, |
| "learning_rate": 9.253761162627278e-06, |
| "loss": 1.500867247581482, |
| "step": 654 |
| }, |
| { |
| "epoch": 0.43733333333333335, |
| "grad_norm": 5.625, |
| "learning_rate": 9.248615554993359e-06, |
| "loss": 1.6107925176620483, |
| "step": 656 |
| }, |
| { |
| "epoch": 0.43866666666666665, |
| "grad_norm": 5.25, |
| "learning_rate": 9.243454025265297e-06, |
| "loss": 1.5453171730041504, |
| "step": 658 |
| }, |
| { |
| "epoch": 0.44, |
| "grad_norm": 6.21875, |
| "learning_rate": 9.23827659750622e-06, |
| "loss": 1.2661125659942627, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.44133333333333336, |
| "grad_norm": 13.375, |
| "learning_rate": 9.233083295853367e-06, |
| "loss": 1.44877290725708, |
| "step": 662 |
| }, |
| { |
| "epoch": 0.44266666666666665, |
| "grad_norm": 1.5234375, |
| "learning_rate": 9.227874144517984e-06, |
| "loss": 1.1241137981414795, |
| "step": 664 |
| }, |
| { |
| "epoch": 0.444, |
| "grad_norm": 5.40625, |
| "learning_rate": 9.222649167785209e-06, |
| "loss": 1.8743245601654053, |
| "step": 666 |
| }, |
| { |
| "epoch": 0.44533333333333336, |
| "grad_norm": 6.40625, |
| "learning_rate": 9.21740839001396e-06, |
| "loss": 1.4891200065612793, |
| "step": 668 |
| }, |
| { |
| "epoch": 0.44666666666666666, |
| "grad_norm": 2.4375, |
| "learning_rate": 9.21215183563681e-06, |
| "loss": 1.1671557426452637, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.448, |
| "grad_norm": 3.65625, |
| "learning_rate": 9.2068795291599e-06, |
| "loss": 1.3477826118469238, |
| "step": 672 |
| }, |
| { |
| "epoch": 0.4493333333333333, |
| "grad_norm": 4.84375, |
| "learning_rate": 9.201591495162792e-06, |
| "loss": 1.5511021614074707, |
| "step": 674 |
| }, |
| { |
| "epoch": 0.45066666666666666, |
| "grad_norm": 10.8125, |
| "learning_rate": 9.196287758298372e-06, |
| "loss": 1.676473617553711, |
| "step": 676 |
| }, |
| { |
| "epoch": 0.452, |
| "grad_norm": 2.515625, |
| "learning_rate": 9.190968343292743e-06, |
| "loss": 1.0571801662445068, |
| "step": 678 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 6.375, |
| "learning_rate": 9.18563327494509e-06, |
| "loss": 1.7745697498321533, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.45466666666666666, |
| "grad_norm": 9.625, |
| "learning_rate": 9.180282578127578e-06, |
| "loss": 1.5120433568954468, |
| "step": 682 |
| }, |
| { |
| "epoch": 0.456, |
| "grad_norm": 4.84375, |
| "learning_rate": 9.17491627778523e-06, |
| "loss": 1.5437407493591309, |
| "step": 684 |
| }, |
| { |
| "epoch": 0.4573333333333333, |
| "grad_norm": 4.8125, |
| "learning_rate": 9.169534398935817e-06, |
| "loss": 1.3872923851013184, |
| "step": 686 |
| }, |
| { |
| "epoch": 0.45866666666666667, |
| "grad_norm": 4.375, |
| "learning_rate": 9.164136966669735e-06, |
| "loss": 1.4649873971939087, |
| "step": 688 |
| }, |
| { |
| "epoch": 0.46, |
| "grad_norm": 6.40625, |
| "learning_rate": 9.158724006149884e-06, |
| "loss": 1.4206476211547852, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.4613333333333333, |
| "grad_norm": 19.125, |
| "learning_rate": 9.153295542611568e-06, |
| "loss": 1.798445463180542, |
| "step": 692 |
| }, |
| { |
| "epoch": 0.46266666666666667, |
| "grad_norm": 4.09375, |
| "learning_rate": 9.147851601362361e-06, |
| "loss": 1.6945797204971313, |
| "step": 694 |
| }, |
| { |
| "epoch": 0.464, |
| "grad_norm": 3.6875, |
| "learning_rate": 9.142392207781989e-06, |
| "loss": 1.3889479637145996, |
| "step": 696 |
| }, |
| { |
| "epoch": 0.4653333333333333, |
| "grad_norm": 11.0625, |
| "learning_rate": 9.136917387322231e-06, |
| "loss": 0.5246891975402832, |
| "step": 698 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 8.25, |
| "learning_rate": 9.131427165506768e-06, |
| "loss": 1.4431519508361816, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.468, |
| "grad_norm": 5.125, |
| "learning_rate": 9.1259215679311e-06, |
| "loss": 1.6847102642059326, |
| "step": 702 |
| }, |
| { |
| "epoch": 0.4693333333333333, |
| "grad_norm": 3.328125, |
| "learning_rate": 9.120400620262395e-06, |
| "loss": 1.1731724739074707, |
| "step": 704 |
| }, |
| { |
| "epoch": 0.4706666666666667, |
| "grad_norm": 5.03125, |
| "learning_rate": 9.114864348239393e-06, |
| "loss": 1.4725532531738281, |
| "step": 706 |
| }, |
| { |
| "epoch": 0.472, |
| "grad_norm": 12.75, |
| "learning_rate": 9.109312777672273e-06, |
| "loss": 1.4579191207885742, |
| "step": 708 |
| }, |
| { |
| "epoch": 0.47333333333333333, |
| "grad_norm": 5.9375, |
| "learning_rate": 9.103745934442531e-06, |
| "loss": 1.4855751991271973, |
| "step": 710 |
| }, |
| { |
| "epoch": 0.4746666666666667, |
| "grad_norm": 7.0625, |
| "learning_rate": 9.098163844502876e-06, |
| "loss": 2.031588077545166, |
| "step": 712 |
| }, |
| { |
| "epoch": 0.476, |
| "grad_norm": 6.3125, |
| "learning_rate": 9.092566533877083e-06, |
| "loss": 1.0525641441345215, |
| "step": 714 |
| }, |
| { |
| "epoch": 0.47733333333333333, |
| "grad_norm": 5.21875, |
| "learning_rate": 9.0869540286599e-06, |
| "loss": 1.4468775987625122, |
| "step": 716 |
| }, |
| { |
| "epoch": 0.4786666666666667, |
| "grad_norm": 5.6875, |
| "learning_rate": 9.081326355016904e-06, |
| "loss": 1.4774446487426758, |
| "step": 718 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 4.375, |
| "learning_rate": 9.075683539184386e-06, |
| "loss": 1.4556554555892944, |
| "step": 720 |
| }, |
| { |
| "epoch": 0.48133333333333334, |
| "grad_norm": 5.875, |
| "learning_rate": 9.070025607469237e-06, |
| "loss": 1.673704743385315, |
| "step": 722 |
| }, |
| { |
| "epoch": 0.4826666666666667, |
| "grad_norm": 2.046875, |
| "learning_rate": 9.064352586248812e-06, |
| "loss": 1.1458492279052734, |
| "step": 724 |
| }, |
| { |
| "epoch": 0.484, |
| "grad_norm": 10.5, |
| "learning_rate": 9.05866450197082e-06, |
| "loss": 1.717451810836792, |
| "step": 726 |
| }, |
| { |
| "epoch": 0.48533333333333334, |
| "grad_norm": 3.90625, |
| "learning_rate": 9.05296138115319e-06, |
| "loss": 1.434446096420288, |
| "step": 728 |
| }, |
| { |
| "epoch": 0.4866666666666667, |
| "grad_norm": 7.28125, |
| "learning_rate": 9.047243250383949e-06, |
| "loss": 1.9059016704559326, |
| "step": 730 |
| }, |
| { |
| "epoch": 0.488, |
| "grad_norm": 4.875, |
| "learning_rate": 9.041510136321105e-06, |
| "loss": 1.4807331562042236, |
| "step": 732 |
| }, |
| { |
| "epoch": 0.48933333333333334, |
| "grad_norm": 5.34375, |
| "learning_rate": 9.03576206569252e-06, |
| "loss": 1.560255765914917, |
| "step": 734 |
| }, |
| { |
| "epoch": 0.49066666666666664, |
| "grad_norm": 7.90625, |
| "learning_rate": 9.029999065295777e-06, |
| "loss": 1.9080533981323242, |
| "step": 736 |
| }, |
| { |
| "epoch": 0.492, |
| "grad_norm": 2.8125, |
| "learning_rate": 9.024221161998066e-06, |
| "loss": 1.1071043014526367, |
| "step": 738 |
| }, |
| { |
| "epoch": 0.49333333333333335, |
| "grad_norm": 2.984375, |
| "learning_rate": 9.018428382736055e-06, |
| "loss": 0.9837844371795654, |
| "step": 740 |
| }, |
| { |
| "epoch": 0.49466666666666664, |
| "grad_norm": 5.6875, |
| "learning_rate": 9.012620754515764e-06, |
| "loss": 1.493727207183838, |
| "step": 742 |
| }, |
| { |
| "epoch": 0.496, |
| "grad_norm": 7.71875, |
| "learning_rate": 9.006798304412436e-06, |
| "loss": 1.7983622550964355, |
| "step": 744 |
| }, |
| { |
| "epoch": 0.49733333333333335, |
| "grad_norm": 2.015625, |
| "learning_rate": 9.000961059570418e-06, |
| "loss": 1.0712119340896606, |
| "step": 746 |
| }, |
| { |
| "epoch": 0.49866666666666665, |
| "grad_norm": 1.3984375, |
| "learning_rate": 8.995109047203028e-06, |
| "loss": 1.1010278463363647, |
| "step": 748 |
| }, |
| { |
| "epoch": 0.5, |
| "grad_norm": 3.78125, |
| "learning_rate": 8.989242294592432e-06, |
| "loss": 1.5035382509231567, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.5013333333333333, |
| "grad_norm": 5.46875, |
| "learning_rate": 8.983360829089506e-06, |
| "loss": 1.836085557937622, |
| "step": 752 |
| }, |
| { |
| "epoch": 0.5026666666666667, |
| "grad_norm": 3.71875, |
| "learning_rate": 8.977464678113734e-06, |
| "loss": 1.0614256858825684, |
| "step": 754 |
| }, |
| { |
| "epoch": 0.504, |
| "grad_norm": 19.75, |
| "learning_rate": 8.971553869153054e-06, |
| "loss": 1.9808733463287354, |
| "step": 756 |
| }, |
| { |
| "epoch": 0.5053333333333333, |
| "grad_norm": 8.875, |
| "learning_rate": 8.965628429763739e-06, |
| "loss": 1.838444471359253, |
| "step": 758 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 5.5625, |
| "learning_rate": 8.959688387570273e-06, |
| "loss": 1.0896308422088623, |
| "step": 760 |
| }, |
| { |
| "epoch": 0.508, |
| "grad_norm": 14.25, |
| "learning_rate": 8.953733770265217e-06, |
| "loss": 1.8753701448440552, |
| "step": 762 |
| }, |
| { |
| "epoch": 0.5093333333333333, |
| "grad_norm": 1.828125, |
| "learning_rate": 8.94776460560908e-06, |
| "loss": 1.1300835609436035, |
| "step": 764 |
| }, |
| { |
| "epoch": 0.5106666666666667, |
| "grad_norm": 6.53125, |
| "learning_rate": 8.941780921430192e-06, |
| "loss": 1.5389584302902222, |
| "step": 766 |
| }, |
| { |
| "epoch": 0.512, |
| "grad_norm": 6.53125, |
| "learning_rate": 8.935782745624575e-06, |
| "loss": 1.5212798118591309, |
| "step": 768 |
| }, |
| { |
| "epoch": 0.5133333333333333, |
| "grad_norm": 5.15625, |
| "learning_rate": 8.92977010615581e-06, |
| "loss": 1.4728401899337769, |
| "step": 770 |
| }, |
| { |
| "epoch": 0.5146666666666667, |
| "grad_norm": 1.0859375, |
| "learning_rate": 8.923743031054906e-06, |
| "loss": 0.9624325037002563, |
| "step": 772 |
| }, |
| { |
| "epoch": 0.516, |
| "grad_norm": 1.2578125, |
| "learning_rate": 8.917701548420173e-06, |
| "loss": 1.0515624284744263, |
| "step": 774 |
| }, |
| { |
| "epoch": 0.5173333333333333, |
| "grad_norm": 11.6875, |
| "learning_rate": 8.911645686417087e-06, |
| "loss": 2.039482593536377, |
| "step": 776 |
| }, |
| { |
| "epoch": 0.5186666666666667, |
| "grad_norm": 7.40625, |
| "learning_rate": 8.905575473278167e-06, |
| "loss": 1.6416807174682617, |
| "step": 778 |
| }, |
| { |
| "epoch": 0.52, |
| "grad_norm": 7.71875, |
| "learning_rate": 8.899490937302828e-06, |
| "loss": 2.006240129470825, |
| "step": 780 |
| }, |
| { |
| "epoch": 0.5213333333333333, |
| "grad_norm": 2.734375, |
| "learning_rate": 8.893392106857269e-06, |
| "loss": 1.2567050457000732, |
| "step": 782 |
| }, |
| { |
| "epoch": 0.5226666666666666, |
| "grad_norm": 29.5, |
| "learning_rate": 8.887279010374317e-06, |
| "loss": 1.0010839700698853, |
| "step": 784 |
| }, |
| { |
| "epoch": 0.524, |
| "grad_norm": 7.65625, |
| "learning_rate": 8.881151676353316e-06, |
| "loss": 1.7621567249298096, |
| "step": 786 |
| }, |
| { |
| "epoch": 0.5253333333333333, |
| "grad_norm": 9.0, |
| "learning_rate": 8.875010133359989e-06, |
| "loss": 1.4890618324279785, |
| "step": 788 |
| }, |
| { |
| "epoch": 0.5266666666666666, |
| "grad_norm": 1.140625, |
| "learning_rate": 8.868854410026291e-06, |
| "loss": 0.954632043838501, |
| "step": 790 |
| }, |
| { |
| "epoch": 0.528, |
| "grad_norm": 4.5, |
| "learning_rate": 8.862684535050296e-06, |
| "loss": 1.0927908420562744, |
| "step": 792 |
| }, |
| { |
| "epoch": 0.5293333333333333, |
| "grad_norm": 5.375, |
| "learning_rate": 8.856500537196044e-06, |
| "loss": 1.6923635005950928, |
| "step": 794 |
| }, |
| { |
| "epoch": 0.5306666666666666, |
| "grad_norm": 7.03125, |
| "learning_rate": 8.850302445293424e-06, |
| "loss": 1.4436423778533936, |
| "step": 796 |
| }, |
| { |
| "epoch": 0.532, |
| "grad_norm": 2.1875, |
| "learning_rate": 8.844090288238026e-06, |
| "loss": 1.0953271389007568, |
| "step": 798 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 3.078125, |
| "learning_rate": 8.837864094991015e-06, |
| "loss": 1.1574478149414062, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.5346666666666666, |
| "grad_norm": 7.0, |
| "learning_rate": 8.831623894578995e-06, |
| "loss": 1.6270692348480225, |
| "step": 802 |
| }, |
| { |
| "epoch": 0.536, |
| "grad_norm": 2.6875, |
| "learning_rate": 8.825369716093865e-06, |
| "loss": 1.1011627912521362, |
| "step": 804 |
| }, |
| { |
| "epoch": 0.5373333333333333, |
| "grad_norm": 10.4375, |
| "learning_rate": 8.819101588692695e-06, |
| "loss": 1.896059513092041, |
| "step": 806 |
| }, |
| { |
| "epoch": 0.5386666666666666, |
| "grad_norm": 1.0078125, |
| "learning_rate": 8.812819541597586e-06, |
| "loss": 1.1611248254776, |
| "step": 808 |
| }, |
| { |
| "epoch": 0.54, |
| "grad_norm": 4.84375, |
| "learning_rate": 8.806523604095527e-06, |
| "loss": 1.676903247833252, |
| "step": 810 |
| }, |
| { |
| "epoch": 0.5413333333333333, |
| "grad_norm": 9.125, |
| "learning_rate": 8.800213805538272e-06, |
| "loss": 1.8192381858825684, |
| "step": 812 |
| }, |
| { |
| "epoch": 0.5426666666666666, |
| "grad_norm": 5.125, |
| "learning_rate": 8.793890175342186e-06, |
| "loss": 1.8401235342025757, |
| "step": 814 |
| }, |
| { |
| "epoch": 0.544, |
| "grad_norm": 5.84375, |
| "learning_rate": 8.787552742988125e-06, |
| "loss": 1.5326521396636963, |
| "step": 816 |
| }, |
| { |
| "epoch": 0.5453333333333333, |
| "grad_norm": 7.40625, |
| "learning_rate": 8.781201538021294e-06, |
| "loss": 1.659316062927246, |
| "step": 818 |
| }, |
| { |
| "epoch": 0.5466666666666666, |
| "grad_norm": 20.75, |
| "learning_rate": 8.77483659005109e-06, |
| "loss": 0.5096349716186523, |
| "step": 820 |
| }, |
| { |
| "epoch": 0.548, |
| "grad_norm": 13.25, |
| "learning_rate": 8.768457928751e-06, |
| "loss": 1.4871480464935303, |
| "step": 822 |
| }, |
| { |
| "epoch": 0.5493333333333333, |
| "grad_norm": 18.375, |
| "learning_rate": 8.76206558385843e-06, |
| "loss": 1.8885602951049805, |
| "step": 824 |
| }, |
| { |
| "epoch": 0.5506666666666666, |
| "grad_norm": 5.65625, |
| "learning_rate": 8.755659585174581e-06, |
| "loss": 1.979843258857727, |
| "step": 826 |
| }, |
| { |
| "epoch": 0.552, |
| "grad_norm": 6.375, |
| "learning_rate": 8.749239962564309e-06, |
| "loss": 1.6709187030792236, |
| "step": 828 |
| }, |
| { |
| "epoch": 0.5533333333333333, |
| "grad_norm": 5.3125, |
| "learning_rate": 8.742806745955992e-06, |
| "loss": 1.5816951990127563, |
| "step": 830 |
| }, |
| { |
| "epoch": 0.5546666666666666, |
| "grad_norm": 6.15625, |
| "learning_rate": 8.73635996534137e-06, |
| "loss": 1.7703216075897217, |
| "step": 832 |
| }, |
| { |
| "epoch": 0.556, |
| "grad_norm": 6.84375, |
| "learning_rate": 8.729899650775428e-06, |
| "loss": 1.8280192613601685, |
| "step": 834 |
| }, |
| { |
| "epoch": 0.5573333333333333, |
| "grad_norm": 4.28125, |
| "learning_rate": 8.723425832376247e-06, |
| "loss": 1.4863190650939941, |
| "step": 836 |
| }, |
| { |
| "epoch": 0.5586666666666666, |
| "grad_norm": 3.625, |
| "learning_rate": 8.716938540324853e-06, |
| "loss": 1.2123053073883057, |
| "step": 838 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 16.25, |
| "learning_rate": 8.710437804865101e-06, |
| "loss": 0.41149356961250305, |
| "step": 840 |
| }, |
| { |
| "epoch": 0.5613333333333334, |
| "grad_norm": 8.9375, |
| "learning_rate": 8.70392365630351e-06, |
| "loss": 0.36364132165908813, |
| "step": 842 |
| }, |
| { |
| "epoch": 0.5626666666666666, |
| "grad_norm": 8.125, |
| "learning_rate": 8.697396125009132e-06, |
| "loss": 0.7439370155334473, |
| "step": 844 |
| }, |
| { |
| "epoch": 0.564, |
| "grad_norm": 4.625, |
| "learning_rate": 8.69085524141341e-06, |
| "loss": 1.428462266921997, |
| "step": 846 |
| }, |
| { |
| "epoch": 0.5653333333333334, |
| "grad_norm": 7.875, |
| "learning_rate": 8.684301036010034e-06, |
| "loss": 1.4296550750732422, |
| "step": 848 |
| }, |
| { |
| "epoch": 0.5666666666666667, |
| "grad_norm": 4.78125, |
| "learning_rate": 8.677733539354807e-06, |
| "loss": 1.4440577030181885, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.568, |
| "grad_norm": 7.53125, |
| "learning_rate": 8.671152782065488e-06, |
| "loss": 1.9406943321228027, |
| "step": 852 |
| }, |
| { |
| "epoch": 0.5693333333333334, |
| "grad_norm": 4.15625, |
| "learning_rate": 8.664558794821665e-06, |
| "loss": 1.0483615398406982, |
| "step": 854 |
| }, |
| { |
| "epoch": 0.5706666666666667, |
| "grad_norm": 4.5, |
| "learning_rate": 8.657951608364596e-06, |
| "loss": 1.4695384502410889, |
| "step": 856 |
| }, |
| { |
| "epoch": 0.572, |
| "grad_norm": 4.5, |
| "learning_rate": 8.651331253497079e-06, |
| "loss": 1.4279370307922363, |
| "step": 858 |
| }, |
| { |
| "epoch": 0.5733333333333334, |
| "grad_norm": 7.6875, |
| "learning_rate": 8.644697761083303e-06, |
| "loss": 1.5009353160858154, |
| "step": 860 |
| }, |
| { |
| "epoch": 0.5746666666666667, |
| "grad_norm": 8.6875, |
| "learning_rate": 8.638051162048704e-06, |
| "loss": 1.4930593967437744, |
| "step": 862 |
| }, |
| { |
| "epoch": 0.576, |
| "grad_norm": 5.5, |
| "learning_rate": 8.631391487379819e-06, |
| "loss": 1.530214786529541, |
| "step": 864 |
| }, |
| { |
| "epoch": 0.5773333333333334, |
| "grad_norm": 7.25, |
| "learning_rate": 8.624718768124147e-06, |
| "loss": 1.4129531383514404, |
| "step": 866 |
| }, |
| { |
| "epoch": 0.5786666666666667, |
| "grad_norm": 6.90625, |
| "learning_rate": 8.61803303539e-06, |
| "loss": 1.3828375339508057, |
| "step": 868 |
| }, |
| { |
| "epoch": 0.58, |
| "grad_norm": 6.875, |
| "learning_rate": 8.611334320346358e-06, |
| "loss": 1.763295292854309, |
| "step": 870 |
| }, |
| { |
| "epoch": 0.5813333333333334, |
| "grad_norm": 5.53125, |
| "learning_rate": 8.604622654222728e-06, |
| "loss": 1.4801650047302246, |
| "step": 872 |
| }, |
| { |
| "epoch": 0.5826666666666667, |
| "grad_norm": 9.25, |
| "learning_rate": 8.59789806830899e-06, |
| "loss": 1.6105256080627441, |
| "step": 874 |
| }, |
| { |
| "epoch": 0.584, |
| "grad_norm": 2.171875, |
| "learning_rate": 8.591160593955256e-06, |
| "loss": 0.9670834541320801, |
| "step": 876 |
| }, |
| { |
| "epoch": 0.5853333333333334, |
| "grad_norm": 4.5, |
| "learning_rate": 8.584410262571734e-06, |
| "loss": 1.429821491241455, |
| "step": 878 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 7.21875, |
| "learning_rate": 8.577647105628562e-06, |
| "loss": 1.786545753479004, |
| "step": 880 |
| }, |
| { |
| "epoch": 0.588, |
| "grad_norm": 7.40625, |
| "learning_rate": 8.570871154655672e-06, |
| "loss": 1.392760992050171, |
| "step": 882 |
| }, |
| { |
| "epoch": 0.5893333333333334, |
| "grad_norm": 12.4375, |
| "learning_rate": 8.564082441242643e-06, |
| "loss": 1.8015222549438477, |
| "step": 884 |
| }, |
| { |
| "epoch": 0.5906666666666667, |
| "grad_norm": 9.0625, |
| "learning_rate": 8.557280997038552e-06, |
| "loss": 1.9965815544128418, |
| "step": 886 |
| }, |
| { |
| "epoch": 0.592, |
| "grad_norm": 8.9375, |
| "learning_rate": 8.550466853751834e-06, |
| "loss": 1.038320541381836, |
| "step": 888 |
| }, |
| { |
| "epoch": 0.5933333333333334, |
| "grad_norm": 5.09375, |
| "learning_rate": 8.543640043150117e-06, |
| "loss": 1.5173522233963013, |
| "step": 890 |
| }, |
| { |
| "epoch": 0.5946666666666667, |
| "grad_norm": 5.90625, |
| "learning_rate": 8.536800597060092e-06, |
| "loss": 1.5306694507598877, |
| "step": 892 |
| }, |
| { |
| "epoch": 0.596, |
| "grad_norm": 6.375, |
| "learning_rate": 8.529948547367348e-06, |
| "loss": 1.4445128440856934, |
| "step": 894 |
| }, |
| { |
| "epoch": 0.5973333333333334, |
| "grad_norm": 5.75, |
| "learning_rate": 8.523083926016245e-06, |
| "loss": 1.7182955741882324, |
| "step": 896 |
| }, |
| { |
| "epoch": 0.5986666666666667, |
| "grad_norm": 5.0625, |
| "learning_rate": 8.51620676500974e-06, |
| "loss": 1.1675145626068115, |
| "step": 898 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 5.09375, |
| "learning_rate": 8.509317096409258e-06, |
| "loss": 1.4480347633361816, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.6013333333333334, |
| "grad_norm": 11.5625, |
| "learning_rate": 8.50241495233453e-06, |
| "loss": 2.055203914642334, |
| "step": 902 |
| }, |
| { |
| "epoch": 0.6026666666666667, |
| "grad_norm": 4.375, |
| "learning_rate": 8.49550036496345e-06, |
| "loss": 1.021264910697937, |
| "step": 904 |
| }, |
| { |
| "epoch": 0.604, |
| "grad_norm": 5.6875, |
| "learning_rate": 8.48857336653192e-06, |
| "loss": 1.2289679050445557, |
| "step": 906 |
| }, |
| { |
| "epoch": 0.6053333333333333, |
| "grad_norm": 3.703125, |
| "learning_rate": 8.481633989333709e-06, |
| "loss": 1.4245610237121582, |
| "step": 908 |
| }, |
| { |
| "epoch": 0.6066666666666667, |
| "grad_norm": 6.71875, |
| "learning_rate": 8.474682265720291e-06, |
| "loss": 1.4456334114074707, |
| "step": 910 |
| }, |
| { |
| "epoch": 0.608, |
| "grad_norm": 4.96875, |
| "learning_rate": 8.4677182281007e-06, |
| "loss": 1.515615463256836, |
| "step": 912 |
| }, |
| { |
| "epoch": 0.6093333333333333, |
| "grad_norm": 1.765625, |
| "learning_rate": 8.460741908941376e-06, |
| "loss": 1.0593926906585693, |
| "step": 914 |
| }, |
| { |
| "epoch": 0.6106666666666667, |
| "grad_norm": 3.671875, |
| "learning_rate": 8.453753340766018e-06, |
| "loss": 1.4384649991989136, |
| "step": 916 |
| }, |
| { |
| "epoch": 0.612, |
| "grad_norm": 6.125, |
| "learning_rate": 8.446752556155434e-06, |
| "loss": 1.5307202339172363, |
| "step": 918 |
| }, |
| { |
| "epoch": 0.6133333333333333, |
| "grad_norm": 10.0, |
| "learning_rate": 8.439739587747375e-06, |
| "loss": 1.749891757965088, |
| "step": 920 |
| }, |
| { |
| "epoch": 0.6146666666666667, |
| "grad_norm": 7.21875, |
| "learning_rate": 8.432714468236404e-06, |
| "loss": 1.684350609779358, |
| "step": 922 |
| }, |
| { |
| "epoch": 0.616, |
| "grad_norm": 8.125, |
| "learning_rate": 8.425677230373727e-06, |
| "loss": 1.4872686862945557, |
| "step": 924 |
| }, |
| { |
| "epoch": 0.6173333333333333, |
| "grad_norm": 4.0625, |
| "learning_rate": 8.418627906967045e-06, |
| "loss": 1.7606031894683838, |
| "step": 926 |
| }, |
| { |
| "epoch": 0.6186666666666667, |
| "grad_norm": 7.5, |
| "learning_rate": 8.411566530880405e-06, |
| "loss": 1.8105180263519287, |
| "step": 928 |
| }, |
| { |
| "epoch": 0.62, |
| "grad_norm": 7.15625, |
| "learning_rate": 8.404493135034041e-06, |
| "loss": 1.4707257747650146, |
| "step": 930 |
| }, |
| { |
| "epoch": 0.6213333333333333, |
| "grad_norm": 6.03125, |
| "learning_rate": 8.397407752404228e-06, |
| "loss": 1.917523741722107, |
| "step": 932 |
| }, |
| { |
| "epoch": 0.6226666666666667, |
| "grad_norm": 2.0625, |
| "learning_rate": 8.390310416023116e-06, |
| "loss": 1.1204737424850464, |
| "step": 934 |
| }, |
| { |
| "epoch": 0.624, |
| "grad_norm": 41.5, |
| "learning_rate": 8.38320115897859e-06, |
| "loss": 0.6065104603767395, |
| "step": 936 |
| }, |
| { |
| "epoch": 0.6253333333333333, |
| "grad_norm": 4.9375, |
| "learning_rate": 8.376080014414105e-06, |
| "loss": 1.421940803527832, |
| "step": 938 |
| }, |
| { |
| "epoch": 0.6266666666666667, |
| "grad_norm": 9.0625, |
| "learning_rate": 8.368947015528544e-06, |
| "loss": 1.8984816074371338, |
| "step": 940 |
| }, |
| { |
| "epoch": 0.628, |
| "grad_norm": 5.28125, |
| "learning_rate": 8.36180219557604e-06, |
| "loss": 1.528894066810608, |
| "step": 942 |
| }, |
| { |
| "epoch": 0.6293333333333333, |
| "grad_norm": 5.5625, |
| "learning_rate": 8.354645587865852e-06, |
| "loss": 1.6361967325210571, |
| "step": 944 |
| }, |
| { |
| "epoch": 0.6306666666666667, |
| "grad_norm": 5.5625, |
| "learning_rate": 8.347477225762186e-06, |
| "loss": 1.4143483638763428, |
| "step": 946 |
| }, |
| { |
| "epoch": 0.632, |
| "grad_norm": 4.6875, |
| "learning_rate": 8.340297142684044e-06, |
| "loss": 1.4818150997161865, |
| "step": 948 |
| }, |
| { |
| "epoch": 0.6333333333333333, |
| "grad_norm": 6.5, |
| "learning_rate": 8.333105372105079e-06, |
| "loss": 1.1189380884170532, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.6346666666666667, |
| "grad_norm": 1.7265625, |
| "learning_rate": 8.325901947553426e-06, |
| "loss": 1.1370716094970703, |
| "step": 952 |
| }, |
| { |
| "epoch": 0.636, |
| "grad_norm": 11.375, |
| "learning_rate": 8.31868690261155e-06, |
| "loss": 1.6399116516113281, |
| "step": 954 |
| }, |
| { |
| "epoch": 0.6373333333333333, |
| "grad_norm": 3.78125, |
| "learning_rate": 8.311460270916094e-06, |
| "loss": 1.1279245615005493, |
| "step": 956 |
| }, |
| { |
| "epoch": 0.6386666666666667, |
| "grad_norm": 7.71875, |
| "learning_rate": 8.30422208615772e-06, |
| "loss": 1.127082109451294, |
| "step": 958 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 3.3125, |
| "learning_rate": 8.296972382080947e-06, |
| "loss": 1.1065402030944824, |
| "step": 960 |
| }, |
| { |
| "epoch": 0.6413333333333333, |
| "grad_norm": 7.78125, |
| "learning_rate": 8.289711192483998e-06, |
| "loss": 1.9919843673706055, |
| "step": 962 |
| }, |
| { |
| "epoch": 0.6426666666666667, |
| "grad_norm": 8.3125, |
| "learning_rate": 8.282438551218638e-06, |
| "loss": 1.7666702270507812, |
| "step": 964 |
| }, |
| { |
| "epoch": 0.644, |
| "grad_norm": 7.59375, |
| "learning_rate": 8.27515449219003e-06, |
| "loss": 1.8833098411560059, |
| "step": 966 |
| }, |
| { |
| "epoch": 0.6453333333333333, |
| "grad_norm": 7.40625, |
| "learning_rate": 8.267859049356558e-06, |
| "loss": 1.4413492679595947, |
| "step": 968 |
| }, |
| { |
| "epoch": 0.6466666666666666, |
| "grad_norm": 5.25, |
| "learning_rate": 8.260552256729675e-06, |
| "loss": 1.3773534297943115, |
| "step": 970 |
| }, |
| { |
| "epoch": 0.648, |
| "grad_norm": 20.75, |
| "learning_rate": 8.25323414837376e-06, |
| "loss": 0.8820421695709229, |
| "step": 972 |
| }, |
| { |
| "epoch": 0.6493333333333333, |
| "grad_norm": 7.03125, |
| "learning_rate": 8.245904758405934e-06, |
| "loss": 1.8331353664398193, |
| "step": 974 |
| }, |
| { |
| "epoch": 0.6506666666666666, |
| "grad_norm": 7.21875, |
| "learning_rate": 8.238564120995915e-06, |
| "loss": 1.7633671760559082, |
| "step": 976 |
| }, |
| { |
| "epoch": 0.652, |
| "grad_norm": 7.78125, |
| "learning_rate": 8.231212270365862e-06, |
| "loss": 1.8337441682815552, |
| "step": 978 |
| }, |
| { |
| "epoch": 0.6533333333333333, |
| "grad_norm": 8.3125, |
| "learning_rate": 8.223849240790204e-06, |
| "loss": 1.0776680707931519, |
| "step": 980 |
| }, |
| { |
| "epoch": 0.6546666666666666, |
| "grad_norm": 12.9375, |
| "learning_rate": 8.216475066595492e-06, |
| "loss": 1.4760407209396362, |
| "step": 982 |
| }, |
| { |
| "epoch": 0.656, |
| "grad_norm": 2.484375, |
| "learning_rate": 8.209089782160233e-06, |
| "loss": 1.1044740676879883, |
| "step": 984 |
| }, |
| { |
| "epoch": 0.6573333333333333, |
| "grad_norm": 14.0625, |
| "learning_rate": 8.20169342191472e-06, |
| "loss": 1.8829679489135742, |
| "step": 986 |
| }, |
| { |
| "epoch": 0.6586666666666666, |
| "grad_norm": 2.09375, |
| "learning_rate": 8.194286020340895e-06, |
| "loss": 0.9792040586471558, |
| "step": 988 |
| }, |
| { |
| "epoch": 0.66, |
| "grad_norm": 6.5625, |
| "learning_rate": 8.18686761197217e-06, |
| "loss": 1.521083116531372, |
| "step": 990 |
| }, |
| { |
| "epoch": 0.6613333333333333, |
| "grad_norm": 6.0625, |
| "learning_rate": 8.179438231393266e-06, |
| "loss": 1.530885934829712, |
| "step": 992 |
| }, |
| { |
| "epoch": 0.6626666666666666, |
| "grad_norm": 12.25, |
| "learning_rate": 8.171997913240062e-06, |
| "loss": 1.8062398433685303, |
| "step": 994 |
| }, |
| { |
| "epoch": 0.664, |
| "grad_norm": 1.9453125, |
| "learning_rate": 8.164546692199426e-06, |
| "loss": 1.1137508153915405, |
| "step": 996 |
| }, |
| { |
| "epoch": 0.6653333333333333, |
| "grad_norm": 6.96875, |
| "learning_rate": 8.15708460300906e-06, |
| "loss": 1.7198907136917114, |
| "step": 998 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 6.125, |
| "learning_rate": 8.149611680457326e-06, |
| "loss": 1.5810315608978271, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.668, |
| "grad_norm": 12.25, |
| "learning_rate": 8.142127959383094e-06, |
| "loss": 1.9013679027557373, |
| "step": 1002 |
| }, |
| { |
| "epoch": 0.6693333333333333, |
| "grad_norm": 3.59375, |
| "learning_rate": 8.134633474675583e-06, |
| "loss": 1.0885121822357178, |
| "step": 1004 |
| }, |
| { |
| "epoch": 0.6706666666666666, |
| "grad_norm": 8.6875, |
| "learning_rate": 8.127128261274182e-06, |
| "loss": 1.455412745475769, |
| "step": 1006 |
| }, |
| { |
| "epoch": 0.672, |
| "grad_norm": 17.5, |
| "learning_rate": 8.119612354168303e-06, |
| "loss": 1.4445679187774658, |
| "step": 1008 |
| }, |
| { |
| "epoch": 0.6733333333333333, |
| "grad_norm": 18.0, |
| "learning_rate": 8.112085788397212e-06, |
| "loss": 1.8903926610946655, |
| "step": 1010 |
| }, |
| { |
| "epoch": 0.6746666666666666, |
| "grad_norm": 5.09375, |
| "learning_rate": 8.104548599049869e-06, |
| "loss": 1.3634119033813477, |
| "step": 1012 |
| }, |
| { |
| "epoch": 0.676, |
| "grad_norm": 7.96875, |
| "learning_rate": 8.09700082126475e-06, |
| "loss": 1.8946447372436523, |
| "step": 1014 |
| }, |
| { |
| "epoch": 0.6773333333333333, |
| "grad_norm": 14.6875, |
| "learning_rate": 8.08944249022971e-06, |
| "loss": 1.7080318927764893, |
| "step": 1016 |
| }, |
| { |
| "epoch": 0.6786666666666666, |
| "grad_norm": 10.9375, |
| "learning_rate": 8.081873641181789e-06, |
| "loss": 1.9619665145874023, |
| "step": 1018 |
| }, |
| { |
| "epoch": 0.68, |
| "grad_norm": 1.859375, |
| "learning_rate": 8.074294309407072e-06, |
| "loss": 1.1800537109375, |
| "step": 1020 |
| }, |
| { |
| "epoch": 0.6813333333333333, |
| "grad_norm": 6.1875, |
| "learning_rate": 8.066704530240512e-06, |
| "loss": 1.4908158779144287, |
| "step": 1022 |
| }, |
| { |
| "epoch": 0.6826666666666666, |
| "grad_norm": 5.25, |
| "learning_rate": 8.059104339065764e-06, |
| "loss": 1.5013716220855713, |
| "step": 1024 |
| }, |
| { |
| "epoch": 0.684, |
| "grad_norm": 2.21875, |
| "learning_rate": 8.051493771315029e-06, |
| "loss": 1.1278164386749268, |
| "step": 1026 |
| }, |
| { |
| "epoch": 0.6853333333333333, |
| "grad_norm": 2.34375, |
| "learning_rate": 8.043872862468882e-06, |
| "loss": 1.2503137588500977, |
| "step": 1028 |
| }, |
| { |
| "epoch": 0.6866666666666666, |
| "grad_norm": 7.0, |
| "learning_rate": 8.036241648056104e-06, |
| "loss": 1.0977543592453003, |
| "step": 1030 |
| }, |
| { |
| "epoch": 0.688, |
| "grad_norm": 3.703125, |
| "learning_rate": 8.028600163653533e-06, |
| "loss": 1.4442572593688965, |
| "step": 1032 |
| }, |
| { |
| "epoch": 0.6893333333333334, |
| "grad_norm": 6.125, |
| "learning_rate": 8.020948444885872e-06, |
| "loss": 1.5718536376953125, |
| "step": 1034 |
| }, |
| { |
| "epoch": 0.6906666666666667, |
| "grad_norm": 5.34375, |
| "learning_rate": 8.01328652742554e-06, |
| "loss": 1.912582278251648, |
| "step": 1036 |
| }, |
| { |
| "epoch": 0.692, |
| "grad_norm": 4.90625, |
| "learning_rate": 8.005614446992514e-06, |
| "loss": 1.5022928714752197, |
| "step": 1038 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 8.875, |
| "learning_rate": 7.99793223935413e-06, |
| "loss": 1.676508903503418, |
| "step": 1040 |
| }, |
| { |
| "epoch": 0.6946666666666667, |
| "grad_norm": 10.6875, |
| "learning_rate": 7.99023994032496e-06, |
| "loss": 1.5803358554840088, |
| "step": 1042 |
| }, |
| { |
| "epoch": 0.696, |
| "grad_norm": 5.3125, |
| "learning_rate": 7.982537585766603e-06, |
| "loss": 1.4909937381744385, |
| "step": 1044 |
| }, |
| { |
| "epoch": 0.6973333333333334, |
| "grad_norm": 11.5, |
| "learning_rate": 7.97482521158755e-06, |
| "loss": 0.35839077830314636, |
| "step": 1046 |
| }, |
| { |
| "epoch": 0.6986666666666667, |
| "grad_norm": 17.875, |
| "learning_rate": 7.967102853742996e-06, |
| "loss": 1.632436752319336, |
| "step": 1048 |
| }, |
| { |
| "epoch": 0.7, |
| "grad_norm": 4.03125, |
| "learning_rate": 7.959370548234682e-06, |
| "loss": 1.4115333557128906, |
| "step": 1050 |
| }, |
| { |
| "epoch": 0.7013333333333334, |
| "grad_norm": 7.3125, |
| "learning_rate": 7.951628331110727e-06, |
| "loss": 1.40264892578125, |
| "step": 1052 |
| }, |
| { |
| "epoch": 0.7026666666666667, |
| "grad_norm": 3.296875, |
| "learning_rate": 7.943876238465461e-06, |
| "loss": 1.0617637634277344, |
| "step": 1054 |
| }, |
| { |
| "epoch": 0.704, |
| "grad_norm": 6.125, |
| "learning_rate": 7.936114306439246e-06, |
| "loss": 1.4370262622833252, |
| "step": 1056 |
| }, |
| { |
| "epoch": 0.7053333333333334, |
| "grad_norm": 6.5, |
| "learning_rate": 7.92834257121832e-06, |
| "loss": 1.9666515588760376, |
| "step": 1058 |
| }, |
| { |
| "epoch": 0.7066666666666667, |
| "grad_norm": 4.3125, |
| "learning_rate": 7.92056106903462e-06, |
| "loss": 1.4887534379959106, |
| "step": 1060 |
| }, |
| { |
| "epoch": 0.708, |
| "grad_norm": 3.1875, |
| "learning_rate": 7.912769836165623e-06, |
| "loss": 1.0378882884979248, |
| "step": 1062 |
| }, |
| { |
| "epoch": 0.7093333333333334, |
| "grad_norm": 2.59375, |
| "learning_rate": 7.904968908934165e-06, |
| "loss": 1.0224369764328003, |
| "step": 1064 |
| }, |
| { |
| "epoch": 0.7106666666666667, |
| "grad_norm": 1.546875, |
| "learning_rate": 7.897158323708282e-06, |
| "loss": 1.011722445487976, |
| "step": 1066 |
| }, |
| { |
| "epoch": 0.712, |
| "grad_norm": 37.5, |
| "learning_rate": 7.889338116901031e-06, |
| "loss": 1.8897815942764282, |
| "step": 1068 |
| }, |
| { |
| "epoch": 0.7133333333333334, |
| "grad_norm": 5.5, |
| "learning_rate": 7.881508324970329e-06, |
| "loss": 1.4885183572769165, |
| "step": 1070 |
| }, |
| { |
| "epoch": 0.7146666666666667, |
| "grad_norm": 13.875, |
| "learning_rate": 7.873668984418772e-06, |
| "loss": 1.6457788944244385, |
| "step": 1072 |
| }, |
| { |
| "epoch": 0.716, |
| "grad_norm": 6.34375, |
| "learning_rate": 7.865820131793483e-06, |
| "loss": 1.7942242622375488, |
| "step": 1074 |
| }, |
| { |
| "epoch": 0.7173333333333334, |
| "grad_norm": 7.875, |
| "learning_rate": 7.85796180368592e-06, |
| "loss": 1.6265013217926025, |
| "step": 1076 |
| }, |
| { |
| "epoch": 0.7186666666666667, |
| "grad_norm": 4.53125, |
| "learning_rate": 7.85009403673172e-06, |
| "loss": 1.425769567489624, |
| "step": 1078 |
| }, |
| { |
| "epoch": 0.72, |
| "grad_norm": 5.78125, |
| "learning_rate": 7.842216867610528e-06, |
| "loss": 1.4441373348236084, |
| "step": 1080 |
| }, |
| { |
| "epoch": 0.7213333333333334, |
| "grad_norm": 5.125, |
| "learning_rate": 7.834330333045817e-06, |
| "loss": 1.4369800090789795, |
| "step": 1082 |
| }, |
| { |
| "epoch": 0.7226666666666667, |
| "grad_norm": 7.375, |
| "learning_rate": 7.82643446980472e-06, |
| "loss": 2.045433521270752, |
| "step": 1084 |
| }, |
| { |
| "epoch": 0.724, |
| "grad_norm": 6.09375, |
| "learning_rate": 7.818529314697865e-06, |
| "loss": 1.462162971496582, |
| "step": 1086 |
| }, |
| { |
| "epoch": 0.7253333333333334, |
| "grad_norm": 11.875, |
| "learning_rate": 7.810614904579196e-06, |
| "loss": 1.4759876728057861, |
| "step": 1088 |
| }, |
| { |
| "epoch": 0.7266666666666667, |
| "grad_norm": 5.25, |
| "learning_rate": 7.802691276345811e-06, |
| "loss": 1.4259663820266724, |
| "step": 1090 |
| }, |
| { |
| "epoch": 0.728, |
| "grad_norm": 9.5, |
| "learning_rate": 7.794758466937768e-06, |
| "loss": 0.3171471953392029, |
| "step": 1092 |
| }, |
| { |
| "epoch": 0.7293333333333333, |
| "grad_norm": 3.375, |
| "learning_rate": 7.786816513337945e-06, |
| "loss": 1.1333750486373901, |
| "step": 1094 |
| }, |
| { |
| "epoch": 0.7306666666666667, |
| "grad_norm": 5.875, |
| "learning_rate": 7.778865452571835e-06, |
| "loss": 1.4517849683761597, |
| "step": 1096 |
| }, |
| { |
| "epoch": 0.732, |
| "grad_norm": 4.625, |
| "learning_rate": 7.770905321707402e-06, |
| "loss": 1.5269715785980225, |
| "step": 1098 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 2.25, |
| "learning_rate": 7.76293615785489e-06, |
| "loss": 1.064500331878662, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.7346666666666667, |
| "grad_norm": 4.375, |
| "learning_rate": 7.754957998166646e-06, |
| "loss": 1.386234998703003, |
| "step": 1102 |
| }, |
| { |
| "epoch": 0.736, |
| "grad_norm": 12.375, |
| "learning_rate": 7.74697087983697e-06, |
| "loss": 1.8305230140686035, |
| "step": 1104 |
| }, |
| { |
| "epoch": 0.7373333333333333, |
| "grad_norm": 1.8125, |
| "learning_rate": 7.738974840101921e-06, |
| "loss": 1.1282780170440674, |
| "step": 1106 |
| }, |
| { |
| "epoch": 0.7386666666666667, |
| "grad_norm": 5.3125, |
| "learning_rate": 7.730969916239145e-06, |
| "loss": 1.5412876605987549, |
| "step": 1108 |
| }, |
| { |
| "epoch": 0.74, |
| "grad_norm": 5.84375, |
| "learning_rate": 7.722956145567715e-06, |
| "loss": 1.4641010761260986, |
| "step": 1110 |
| }, |
| { |
| "epoch": 0.7413333333333333, |
| "grad_norm": 1.3125, |
| "learning_rate": 7.714933565447942e-06, |
| "loss": 1.0171947479248047, |
| "step": 1112 |
| }, |
| { |
| "epoch": 0.7426666666666667, |
| "grad_norm": 4.8125, |
| "learning_rate": 7.706902213281208e-06, |
| "loss": 1.4489610195159912, |
| "step": 1114 |
| }, |
| { |
| "epoch": 0.744, |
| "grad_norm": 5.5, |
| "learning_rate": 7.69886212650979e-06, |
| "loss": 1.5235693454742432, |
| "step": 1116 |
| }, |
| { |
| "epoch": 0.7453333333333333, |
| "grad_norm": 6.6875, |
| "learning_rate": 7.690813342616687e-06, |
| "loss": 1.5696840286254883, |
| "step": 1118 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 3.125, |
| "learning_rate": 7.682755899125447e-06, |
| "loss": 1.0552146434783936, |
| "step": 1120 |
| }, |
| { |
| "epoch": 0.748, |
| "grad_norm": 3.875, |
| "learning_rate": 7.67468983359998e-06, |
| "loss": 1.1165143251419067, |
| "step": 1122 |
| }, |
| { |
| "epoch": 0.7493333333333333, |
| "grad_norm": 3.65625, |
| "learning_rate": 7.666615183644402e-06, |
| "loss": 1.4511375427246094, |
| "step": 1124 |
| }, |
| { |
| "epoch": 0.7506666666666667, |
| "grad_norm": 5.25, |
| "learning_rate": 7.658531986902843e-06, |
| "loss": 1.159609317779541, |
| "step": 1126 |
| }, |
| { |
| "epoch": 0.752, |
| "grad_norm": 4.6875, |
| "learning_rate": 7.650440281059284e-06, |
| "loss": 1.4254381656646729, |
| "step": 1128 |
| }, |
| { |
| "epoch": 0.7533333333333333, |
| "grad_norm": 2.546875, |
| "learning_rate": 7.642340103837368e-06, |
| "loss": 1.1249420642852783, |
| "step": 1130 |
| }, |
| { |
| "epoch": 0.7546666666666667, |
| "grad_norm": 8.8125, |
| "learning_rate": 7.63423149300024e-06, |
| "loss": 1.8620219230651855, |
| "step": 1132 |
| }, |
| { |
| "epoch": 0.756, |
| "grad_norm": 1.8828125, |
| "learning_rate": 7.626114486350358e-06, |
| "loss": 1.103478193283081, |
| "step": 1134 |
| }, |
| { |
| "epoch": 0.7573333333333333, |
| "grad_norm": 5.28125, |
| "learning_rate": 7.617989121729319e-06, |
| "loss": 1.6233323812484741, |
| "step": 1136 |
| }, |
| { |
| "epoch": 0.7586666666666667, |
| "grad_norm": 5.1875, |
| "learning_rate": 7.609855437017693e-06, |
| "loss": 1.4830645322799683, |
| "step": 1138 |
| }, |
| { |
| "epoch": 0.76, |
| "grad_norm": 4.9375, |
| "learning_rate": 7.6017134701348285e-06, |
| "loss": 1.5413252115249634, |
| "step": 1140 |
| }, |
| { |
| "epoch": 0.7613333333333333, |
| "grad_norm": 4.65625, |
| "learning_rate": 7.593563259038692e-06, |
| "loss": 1.5256080627441406, |
| "step": 1142 |
| }, |
| { |
| "epoch": 0.7626666666666667, |
| "grad_norm": 3.984375, |
| "learning_rate": 7.585404841725686e-06, |
| "loss": 1.0813350677490234, |
| "step": 1144 |
| }, |
| { |
| "epoch": 0.764, |
| "grad_norm": 11.6875, |
| "learning_rate": 7.577238256230466e-06, |
| "loss": 2.204179286956787, |
| "step": 1146 |
| }, |
| { |
| "epoch": 0.7653333333333333, |
| "grad_norm": 8.0, |
| "learning_rate": 7.569063540625767e-06, |
| "loss": 1.8322408199310303, |
| "step": 1148 |
| }, |
| { |
| "epoch": 0.7666666666666667, |
| "grad_norm": 1.9453125, |
| "learning_rate": 7.560880733022233e-06, |
| "loss": 1.1383694410324097, |
| "step": 1150 |
| }, |
| { |
| "epoch": 0.768, |
| "grad_norm": 36.0, |
| "learning_rate": 7.5526898715682286e-06, |
| "loss": 1.9306056499481201, |
| "step": 1152 |
| }, |
| { |
| "epoch": 0.7693333333333333, |
| "grad_norm": 4.6875, |
| "learning_rate": 7.544490994449662e-06, |
| "loss": 1.4435687065124512, |
| "step": 1154 |
| }, |
| { |
| "epoch": 0.7706666666666667, |
| "grad_norm": 13.8125, |
| "learning_rate": 7.536284139889818e-06, |
| "loss": 1.794223427772522, |
| "step": 1156 |
| }, |
| { |
| "epoch": 0.772, |
| "grad_norm": 8.0, |
| "learning_rate": 7.52806934614917e-06, |
| "loss": 1.4377973079681396, |
| "step": 1158 |
| }, |
| { |
| "epoch": 0.7733333333333333, |
| "grad_norm": 7.90625, |
| "learning_rate": 7.519846651525198e-06, |
| "loss": 1.5403916835784912, |
| "step": 1160 |
| }, |
| { |
| "epoch": 0.7746666666666666, |
| "grad_norm": 6.65625, |
| "learning_rate": 7.5116160943522255e-06, |
| "loss": 1.64451003074646, |
| "step": 1162 |
| }, |
| { |
| "epoch": 0.776, |
| "grad_norm": 7.375, |
| "learning_rate": 7.503377713001223e-06, |
| "loss": 1.6721255779266357, |
| "step": 1164 |
| }, |
| { |
| "epoch": 0.7773333333333333, |
| "grad_norm": 15.0, |
| "learning_rate": 7.495131545879646e-06, |
| "loss": 1.9117183685302734, |
| "step": 1166 |
| }, |
| { |
| "epoch": 0.7786666666666666, |
| "grad_norm": 8.0625, |
| "learning_rate": 7.48687763143124e-06, |
| "loss": 1.6716641187667847, |
| "step": 1168 |
| }, |
| { |
| "epoch": 0.78, |
| "grad_norm": 1.4375, |
| "learning_rate": 7.47861600813587e-06, |
| "loss": 1.098170280456543, |
| "step": 1170 |
| }, |
| { |
| "epoch": 0.7813333333333333, |
| "grad_norm": 3.640625, |
| "learning_rate": 7.470346714509342e-06, |
| "loss": 1.4096426963806152, |
| "step": 1172 |
| }, |
| { |
| "epoch": 0.7826666666666666, |
| "grad_norm": 1.859375, |
| "learning_rate": 7.462069789103221e-06, |
| "loss": 1.2622625827789307, |
| "step": 1174 |
| }, |
| { |
| "epoch": 0.784, |
| "grad_norm": 4.34375, |
| "learning_rate": 7.45378527050465e-06, |
| "loss": 1.4845378398895264, |
| "step": 1176 |
| }, |
| { |
| "epoch": 0.7853333333333333, |
| "grad_norm": 5.5625, |
| "learning_rate": 7.445493197336169e-06, |
| "loss": 1.416355848312378, |
| "step": 1178 |
| }, |
| { |
| "epoch": 0.7866666666666666, |
| "grad_norm": 5.21875, |
| "learning_rate": 7.437193608255546e-06, |
| "loss": 1.012062668800354, |
| "step": 1180 |
| }, |
| { |
| "epoch": 0.788, |
| "grad_norm": 4.6875, |
| "learning_rate": 7.428886541955582e-06, |
| "loss": 1.4908556938171387, |
| "step": 1182 |
| }, |
| { |
| "epoch": 0.7893333333333333, |
| "grad_norm": 5.15625, |
| "learning_rate": 7.4205720371639354e-06, |
| "loss": 1.5503168106079102, |
| "step": 1184 |
| }, |
| { |
| "epoch": 0.7906666666666666, |
| "grad_norm": 6.09375, |
| "learning_rate": 7.412250132642946e-06, |
| "loss": 1.9686577320098877, |
| "step": 1186 |
| }, |
| { |
| "epoch": 0.792, |
| "grad_norm": 15.0, |
| "learning_rate": 7.403920867189449e-06, |
| "loss": 1.7605036497116089, |
| "step": 1188 |
| }, |
| { |
| "epoch": 0.7933333333333333, |
| "grad_norm": 4.28125, |
| "learning_rate": 7.395584279634604e-06, |
| "loss": 1.2100725173950195, |
| "step": 1190 |
| }, |
| { |
| "epoch": 0.7946666666666666, |
| "grad_norm": 10.3125, |
| "learning_rate": 7.387240408843694e-06, |
| "loss": 1.617134690284729, |
| "step": 1192 |
| }, |
| { |
| "epoch": 0.796, |
| "grad_norm": 9.1875, |
| "learning_rate": 7.378889293715967e-06, |
| "loss": 1.771061897277832, |
| "step": 1194 |
| }, |
| { |
| "epoch": 0.7973333333333333, |
| "grad_norm": 10.875, |
| "learning_rate": 7.370530973184438e-06, |
| "loss": 1.6546101570129395, |
| "step": 1196 |
| }, |
| { |
| "epoch": 0.7986666666666666, |
| "grad_norm": 5.6875, |
| "learning_rate": 7.362165486215718e-06, |
| "loss": 1.8130102157592773, |
| "step": 1198 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 1.40625, |
| "learning_rate": 7.3537928718098235e-06, |
| "loss": 1.0263370275497437, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.8013333333333333, |
| "grad_norm": 3.03125, |
| "learning_rate": 7.3454131690000015e-06, |
| "loss": 1.0432413816452026, |
| "step": 1202 |
| }, |
| { |
| "epoch": 0.8026666666666666, |
| "grad_norm": 6.5, |
| "learning_rate": 7.337026416852547e-06, |
| "loss": 1.5051829814910889, |
| "step": 1204 |
| }, |
| { |
| "epoch": 0.804, |
| "grad_norm": 9.6875, |
| "learning_rate": 7.3286326544666166e-06, |
| "loss": 1.7957940101623535, |
| "step": 1206 |
| }, |
| { |
| "epoch": 0.8053333333333333, |
| "grad_norm": 5.84375, |
| "learning_rate": 7.320231920974048e-06, |
| "loss": 1.3876800537109375, |
| "step": 1208 |
| }, |
| { |
| "epoch": 0.8066666666666666, |
| "grad_norm": 5.34375, |
| "learning_rate": 7.3118242555391835e-06, |
| "loss": 1.4170258045196533, |
| "step": 1210 |
| }, |
| { |
| "epoch": 0.808, |
| "grad_norm": 10.125, |
| "learning_rate": 7.303409697358676e-06, |
| "loss": 1.6540006399154663, |
| "step": 1212 |
| }, |
| { |
| "epoch": 0.8093333333333333, |
| "grad_norm": 3.953125, |
| "learning_rate": 7.294988285661315e-06, |
| "loss": 1.411388635635376, |
| "step": 1214 |
| }, |
| { |
| "epoch": 0.8106666666666666, |
| "grad_norm": 6.0, |
| "learning_rate": 7.286560059707843e-06, |
| "loss": 1.4670600891113281, |
| "step": 1216 |
| }, |
| { |
| "epoch": 0.812, |
| "grad_norm": 4.5, |
| "learning_rate": 7.278125058790768e-06, |
| "loss": 1.5195939540863037, |
| "step": 1218 |
| }, |
| { |
| "epoch": 0.8133333333333334, |
| "grad_norm": 3.984375, |
| "learning_rate": 7.269683322234182e-06, |
| "loss": 1.498016357421875, |
| "step": 1220 |
| }, |
| { |
| "epoch": 0.8146666666666667, |
| "grad_norm": 9.5, |
| "learning_rate": 7.261234889393582e-06, |
| "loss": 1.7424201965332031, |
| "step": 1222 |
| }, |
| { |
| "epoch": 0.816, |
| "grad_norm": 4.59375, |
| "learning_rate": 7.252779799655685e-06, |
| "loss": 1.5053367614746094, |
| "step": 1224 |
| }, |
| { |
| "epoch": 0.8173333333333334, |
| "grad_norm": 5.15625, |
| "learning_rate": 7.244318092438231e-06, |
| "loss": 1.4631271362304688, |
| "step": 1226 |
| }, |
| { |
| "epoch": 0.8186666666666667, |
| "grad_norm": 4.34375, |
| "learning_rate": 7.235849807189828e-06, |
| "loss": 1.5035299062728882, |
| "step": 1228 |
| }, |
| { |
| "epoch": 0.82, |
| "grad_norm": 4.28125, |
| "learning_rate": 7.227374983389737e-06, |
| "loss": 1.3052916526794434, |
| "step": 1230 |
| }, |
| { |
| "epoch": 0.8213333333333334, |
| "grad_norm": 1.6484375, |
| "learning_rate": 7.2188936605477075e-06, |
| "loss": 1.1444281339645386, |
| "step": 1232 |
| }, |
| { |
| "epoch": 0.8226666666666667, |
| "grad_norm": 26.375, |
| "learning_rate": 7.210405878203786e-06, |
| "loss": 1.1232807636260986, |
| "step": 1234 |
| }, |
| { |
| "epoch": 0.824, |
| "grad_norm": 2.25, |
| "learning_rate": 7.201911675928137e-06, |
| "loss": 1.2082382440567017, |
| "step": 1236 |
| }, |
| { |
| "epoch": 0.8253333333333334, |
| "grad_norm": 45.75, |
| "learning_rate": 7.19341109332085e-06, |
| "loss": 1.8112459182739258, |
| "step": 1238 |
| }, |
| { |
| "epoch": 0.8266666666666667, |
| "grad_norm": 6.75, |
| "learning_rate": 7.1849041700117595e-06, |
| "loss": 1.9334352016448975, |
| "step": 1240 |
| }, |
| { |
| "epoch": 0.828, |
| "grad_norm": 1.7890625, |
| "learning_rate": 7.176390945660267e-06, |
| "loss": 1.0827105045318604, |
| "step": 1242 |
| }, |
| { |
| "epoch": 0.8293333333333334, |
| "grad_norm": 5.84375, |
| "learning_rate": 7.167871459955143e-06, |
| "loss": 1.5978076457977295, |
| "step": 1244 |
| }, |
| { |
| "epoch": 0.8306666666666667, |
| "grad_norm": 6.78125, |
| "learning_rate": 7.159345752614351e-06, |
| "loss": 1.5036733150482178, |
| "step": 1246 |
| }, |
| { |
| "epoch": 0.832, |
| "grad_norm": 6.65625, |
| "learning_rate": 7.150813863384858e-06, |
| "loss": 1.544978141784668, |
| "step": 1248 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "grad_norm": 9.875, |
| "learning_rate": 7.142275832042453e-06, |
| "loss": 1.5280275344848633, |
| "step": 1250 |
| }, |
| { |
| "epoch": 0.8346666666666667, |
| "grad_norm": 6.96875, |
| "learning_rate": 7.133731698391562e-06, |
| "loss": 1.8519248962402344, |
| "step": 1252 |
| }, |
| { |
| "epoch": 0.836, |
| "grad_norm": 21.25, |
| "learning_rate": 7.125181502265053e-06, |
| "loss": 1.7857600450515747, |
| "step": 1254 |
| }, |
| { |
| "epoch": 0.8373333333333334, |
| "grad_norm": 6.3125, |
| "learning_rate": 7.116625283524064e-06, |
| "loss": 1.5039316415786743, |
| "step": 1256 |
| }, |
| { |
| "epoch": 0.8386666666666667, |
| "grad_norm": 4.78125, |
| "learning_rate": 7.108063082057808e-06, |
| "loss": 1.5093042850494385, |
| "step": 1258 |
| }, |
| { |
| "epoch": 0.84, |
| "grad_norm": 6.375, |
| "learning_rate": 7.099494937783389e-06, |
| "loss": 1.9330856800079346, |
| "step": 1260 |
| }, |
| { |
| "epoch": 0.8413333333333334, |
| "grad_norm": 4.875, |
| "learning_rate": 7.090920890645618e-06, |
| "loss": 1.3826791048049927, |
| "step": 1262 |
| }, |
| { |
| "epoch": 0.8426666666666667, |
| "grad_norm": 5.0625, |
| "learning_rate": 7.0823409806168246e-06, |
| "loss": 1.384697437286377, |
| "step": 1264 |
| }, |
| { |
| "epoch": 0.844, |
| "grad_norm": 9.9375, |
| "learning_rate": 7.07375524769667e-06, |
| "loss": 1.4175405502319336, |
| "step": 1266 |
| }, |
| { |
| "epoch": 0.8453333333333334, |
| "grad_norm": 2.71875, |
| "learning_rate": 7.065163731911962e-06, |
| "loss": 1.0599411725997925, |
| "step": 1268 |
| }, |
| { |
| "epoch": 0.8466666666666667, |
| "grad_norm": 2.3125, |
| "learning_rate": 7.05656647331647e-06, |
| "loss": 1.0350122451782227, |
| "step": 1270 |
| }, |
| { |
| "epoch": 0.848, |
| "grad_norm": 2.046875, |
| "learning_rate": 7.047963511990737e-06, |
| "loss": 1.0036098957061768, |
| "step": 1272 |
| }, |
| { |
| "epoch": 0.8493333333333334, |
| "grad_norm": 4.34375, |
| "learning_rate": 7.03935488804189e-06, |
| "loss": 1.5463430881500244, |
| "step": 1274 |
| }, |
| { |
| "epoch": 0.8506666666666667, |
| "grad_norm": 5.65625, |
| "learning_rate": 7.030740641603451e-06, |
| "loss": 1.474896788597107, |
| "step": 1276 |
| }, |
| { |
| "epoch": 0.852, |
| "grad_norm": 16.625, |
| "learning_rate": 7.022120812835165e-06, |
| "loss": 1.454477310180664, |
| "step": 1278 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 6.21875, |
| "learning_rate": 7.0134954419227955e-06, |
| "loss": 1.5140109062194824, |
| "step": 1280 |
| }, |
| { |
| "epoch": 0.8546666666666667, |
| "grad_norm": 7.25, |
| "learning_rate": 7.004864569077941e-06, |
| "loss": 0.6668561697006226, |
| "step": 1282 |
| }, |
| { |
| "epoch": 0.856, |
| "grad_norm": 4.90625, |
| "learning_rate": 6.996228234537856e-06, |
| "loss": 1.6097631454467773, |
| "step": 1284 |
| }, |
| { |
| "epoch": 0.8573333333333333, |
| "grad_norm": 2.140625, |
| "learning_rate": 6.9875864785652514e-06, |
| "loss": 1.0738332271575928, |
| "step": 1286 |
| }, |
| { |
| "epoch": 0.8586666666666667, |
| "grad_norm": 4.9375, |
| "learning_rate": 6.978939341448119e-06, |
| "loss": 1.541915774345398, |
| "step": 1288 |
| }, |
| { |
| "epoch": 0.86, |
| "grad_norm": 1.8828125, |
| "learning_rate": 6.970286863499534e-06, |
| "loss": 1.084245204925537, |
| "step": 1290 |
| }, |
| { |
| "epoch": 0.8613333333333333, |
| "grad_norm": 6.59375, |
| "learning_rate": 6.961629085057471e-06, |
| "loss": 1.7440471649169922, |
| "step": 1292 |
| }, |
| { |
| "epoch": 0.8626666666666667, |
| "grad_norm": 8.1875, |
| "learning_rate": 6.952966046484615e-06, |
| "loss": 1.2029621601104736, |
| "step": 1294 |
| }, |
| { |
| "epoch": 0.864, |
| "grad_norm": 20.375, |
| "learning_rate": 6.944297788168173e-06, |
| "loss": 1.1356322765350342, |
| "step": 1296 |
| }, |
| { |
| "epoch": 0.8653333333333333, |
| "grad_norm": 1.03125, |
| "learning_rate": 6.935624350519694e-06, |
| "loss": 1.2489497661590576, |
| "step": 1298 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 1.9140625, |
| "learning_rate": 6.9269457739748625e-06, |
| "loss": 1.0705386400222778, |
| "step": 1300 |
| }, |
| { |
| "epoch": 0.868, |
| "grad_norm": 1.4140625, |
| "learning_rate": 6.918262098993327e-06, |
| "loss": 1.146819829940796, |
| "step": 1302 |
| }, |
| { |
| "epoch": 0.8693333333333333, |
| "grad_norm": 5.6875, |
| "learning_rate": 6.909573366058502e-06, |
| "loss": 1.975623369216919, |
| "step": 1304 |
| }, |
| { |
| "epoch": 0.8706666666666667, |
| "grad_norm": 4.8125, |
| "learning_rate": 6.900879615677385e-06, |
| "loss": 1.4106535911560059, |
| "step": 1306 |
| }, |
| { |
| "epoch": 0.872, |
| "grad_norm": 5.0, |
| "learning_rate": 6.892180888380364e-06, |
| "loss": 1.452235460281372, |
| "step": 1308 |
| }, |
| { |
| "epoch": 0.8733333333333333, |
| "grad_norm": 11.5, |
| "learning_rate": 6.883477224721027e-06, |
| "loss": 1.9186886548995972, |
| "step": 1310 |
| }, |
| { |
| "epoch": 0.8746666666666667, |
| "grad_norm": 2.09375, |
| "learning_rate": 6.874768665275982e-06, |
| "loss": 1.108964204788208, |
| "step": 1312 |
| }, |
| { |
| "epoch": 0.876, |
| "grad_norm": 5.03125, |
| "learning_rate": 6.86605525064465e-06, |
| "loss": 1.5007225275039673, |
| "step": 1314 |
| }, |
| { |
| "epoch": 0.8773333333333333, |
| "grad_norm": 7.0625, |
| "learning_rate": 6.857337021449098e-06, |
| "loss": 1.7579610347747803, |
| "step": 1316 |
| }, |
| { |
| "epoch": 0.8786666666666667, |
| "grad_norm": 7.90625, |
| "learning_rate": 6.848614018333832e-06, |
| "loss": 1.4250476360321045, |
| "step": 1318 |
| }, |
| { |
| "epoch": 0.88, |
| "grad_norm": 2.75, |
| "learning_rate": 6.839886281965618e-06, |
| "loss": 1.032175898551941, |
| "step": 1320 |
| }, |
| { |
| "epoch": 0.8813333333333333, |
| "grad_norm": 4.28125, |
| "learning_rate": 6.831153853033285e-06, |
| "loss": 1.1080658435821533, |
| "step": 1322 |
| }, |
| { |
| "epoch": 0.8826666666666667, |
| "grad_norm": 4.375, |
| "learning_rate": 6.822416772247542e-06, |
| "loss": 1.5906773805618286, |
| "step": 1324 |
| }, |
| { |
| "epoch": 0.884, |
| "grad_norm": 2.15625, |
| "learning_rate": 6.8136750803407824e-06, |
| "loss": 1.1360021829605103, |
| "step": 1326 |
| }, |
| { |
| "epoch": 0.8853333333333333, |
| "grad_norm": 7.1875, |
| "learning_rate": 6.804928818066898e-06, |
| "loss": 1.87527334690094, |
| "step": 1328 |
| }, |
| { |
| "epoch": 0.8866666666666667, |
| "grad_norm": 3.484375, |
| "learning_rate": 6.79617802620109e-06, |
| "loss": 1.4536571502685547, |
| "step": 1330 |
| }, |
| { |
| "epoch": 0.888, |
| "grad_norm": 15.125, |
| "learning_rate": 6.787422745539669e-06, |
| "loss": 1.52134370803833, |
| "step": 1332 |
| }, |
| { |
| "epoch": 0.8893333333333333, |
| "grad_norm": 7.125, |
| "learning_rate": 6.778663016899882e-06, |
| "loss": 0.9342854619026184, |
| "step": 1334 |
| }, |
| { |
| "epoch": 0.8906666666666667, |
| "grad_norm": 13.75, |
| "learning_rate": 6.769898881119708e-06, |
| "loss": 1.2193070650100708, |
| "step": 1336 |
| }, |
| { |
| "epoch": 0.892, |
| "grad_norm": 4.875, |
| "learning_rate": 6.761130379057667e-06, |
| "loss": 1.4399094581604004, |
| "step": 1338 |
| }, |
| { |
| "epoch": 0.8933333333333333, |
| "grad_norm": 5.1875, |
| "learning_rate": 6.7523575515926476e-06, |
| "loss": 1.6470527648925781, |
| "step": 1340 |
| }, |
| { |
| "epoch": 0.8946666666666667, |
| "grad_norm": 14.75, |
| "learning_rate": 6.743580439623689e-06, |
| "loss": 1.4364392757415771, |
| "step": 1342 |
| }, |
| { |
| "epoch": 0.896, |
| "grad_norm": 3.515625, |
| "learning_rate": 6.734799084069817e-06, |
| "loss": 1.100862979888916, |
| "step": 1344 |
| }, |
| { |
| "epoch": 0.8973333333333333, |
| "grad_norm": 6.78125, |
| "learning_rate": 6.726013525869832e-06, |
| "loss": 1.6640863418579102, |
| "step": 1346 |
| }, |
| { |
| "epoch": 0.8986666666666666, |
| "grad_norm": 2.609375, |
| "learning_rate": 6.7172238059821335e-06, |
| "loss": 1.0758508443832397, |
| "step": 1348 |
| }, |
| { |
| "epoch": 0.9, |
| "grad_norm": 6.3125, |
| "learning_rate": 6.70842996538452e-06, |
| "loss": 1.763936161994934, |
| "step": 1350 |
| }, |
| { |
| "epoch": 0.9013333333333333, |
| "grad_norm": 2.6875, |
| "learning_rate": 6.699632045073996e-06, |
| "loss": 1.2208075523376465, |
| "step": 1352 |
| }, |
| { |
| "epoch": 0.9026666666666666, |
| "grad_norm": 5.0625, |
| "learning_rate": 6.690830086066598e-06, |
| "loss": 1.3647022247314453, |
| "step": 1354 |
| }, |
| { |
| "epoch": 0.904, |
| "grad_norm": 5.90625, |
| "learning_rate": 6.68202412939718e-06, |
| "loss": 1.4302599430084229, |
| "step": 1356 |
| }, |
| { |
| "epoch": 0.9053333333333333, |
| "grad_norm": 4.9375, |
| "learning_rate": 6.673214216119239e-06, |
| "loss": 1.7554941177368164, |
| "step": 1358 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 2.671875, |
| "learning_rate": 6.664400387304712e-06, |
| "loss": 1.050219178199768, |
| "step": 1360 |
| }, |
| { |
| "epoch": 0.908, |
| "grad_norm": 3.9375, |
| "learning_rate": 6.655582684043797e-06, |
| "loss": 1.487766981124878, |
| "step": 1362 |
| }, |
| { |
| "epoch": 0.9093333333333333, |
| "grad_norm": 1.7109375, |
| "learning_rate": 6.646761147444749e-06, |
| "loss": 1.0724763870239258, |
| "step": 1364 |
| }, |
| { |
| "epoch": 0.9106666666666666, |
| "grad_norm": 4.09375, |
| "learning_rate": 6.637935818633701e-06, |
| "loss": 1.0730855464935303, |
| "step": 1366 |
| }, |
| { |
| "epoch": 0.912, |
| "grad_norm": 2.03125, |
| "learning_rate": 6.629106738754456e-06, |
| "loss": 1.134033441543579, |
| "step": 1368 |
| }, |
| { |
| "epoch": 0.9133333333333333, |
| "grad_norm": 9.25, |
| "learning_rate": 6.620273948968312e-06, |
| "loss": 1.4531991481781006, |
| "step": 1370 |
| }, |
| { |
| "epoch": 0.9146666666666666, |
| "grad_norm": 7.25, |
| "learning_rate": 6.61143749045386e-06, |
| "loss": 1.7324318885803223, |
| "step": 1372 |
| }, |
| { |
| "epoch": 0.916, |
| "grad_norm": 8.875, |
| "learning_rate": 6.6025974044067965e-06, |
| "loss": 1.804641842842102, |
| "step": 1374 |
| }, |
| { |
| "epoch": 0.9173333333333333, |
| "grad_norm": 3.9375, |
| "learning_rate": 6.593753732039725e-06, |
| "loss": 1.4009830951690674, |
| "step": 1376 |
| }, |
| { |
| "epoch": 0.9186666666666666, |
| "grad_norm": 4.0, |
| "learning_rate": 6.584906514581973e-06, |
| "loss": 1.5420567989349365, |
| "step": 1378 |
| }, |
| { |
| "epoch": 0.92, |
| "grad_norm": 7.375, |
| "learning_rate": 6.576055793279394e-06, |
| "loss": 1.7248209714889526, |
| "step": 1380 |
| }, |
| { |
| "epoch": 0.9213333333333333, |
| "grad_norm": 5.71875, |
| "learning_rate": 6.567201609394176e-06, |
| "loss": 1.5272363424301147, |
| "step": 1382 |
| }, |
| { |
| "epoch": 0.9226666666666666, |
| "grad_norm": 6.59375, |
| "learning_rate": 6.5583440042046494e-06, |
| "loss": 1.7931103706359863, |
| "step": 1384 |
| }, |
| { |
| "epoch": 0.924, |
| "grad_norm": 2.1875, |
| "learning_rate": 6.549483019005096e-06, |
| "loss": 1.0144383907318115, |
| "step": 1386 |
| }, |
| { |
| "epoch": 0.9253333333333333, |
| "grad_norm": 13.3125, |
| "learning_rate": 6.540618695105554e-06, |
| "loss": 1.9607112407684326, |
| "step": 1388 |
| }, |
| { |
| "epoch": 0.9266666666666666, |
| "grad_norm": 10.375, |
| "learning_rate": 6.531751073831625e-06, |
| "loss": 1.7285571098327637, |
| "step": 1390 |
| }, |
| { |
| "epoch": 0.928, |
| "grad_norm": 7.15625, |
| "learning_rate": 6.522880196524289e-06, |
| "loss": 1.5882502794265747, |
| "step": 1392 |
| }, |
| { |
| "epoch": 0.9293333333333333, |
| "grad_norm": 17.75, |
| "learning_rate": 6.5140061045397e-06, |
| "loss": 1.8799965381622314, |
| "step": 1394 |
| }, |
| { |
| "epoch": 0.9306666666666666, |
| "grad_norm": 2.640625, |
| "learning_rate": 6.505128839249e-06, |
| "loss": 1.1083283424377441, |
| "step": 1396 |
| }, |
| { |
| "epoch": 0.932, |
| "grad_norm": 11.3125, |
| "learning_rate": 6.496248442038124e-06, |
| "loss": 1.8841416835784912, |
| "step": 1398 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 10.6875, |
| "learning_rate": 6.487364954307616e-06, |
| "loss": 1.6003661155700684, |
| "step": 1400 |
| }, |
| { |
| "epoch": 0.9346666666666666, |
| "grad_norm": 3.90625, |
| "learning_rate": 6.4784784174724155e-06, |
| "loss": 0.9441222548484802, |
| "step": 1402 |
| }, |
| { |
| "epoch": 0.936, |
| "grad_norm": 4.53125, |
| "learning_rate": 6.469588872961687e-06, |
| "loss": 1.528754711151123, |
| "step": 1404 |
| }, |
| { |
| "epoch": 0.9373333333333334, |
| "grad_norm": 8.8125, |
| "learning_rate": 6.460696362218611e-06, |
| "loss": 1.457127571105957, |
| "step": 1406 |
| }, |
| { |
| "epoch": 0.9386666666666666, |
| "grad_norm": 3.09375, |
| "learning_rate": 6.451800926700197e-06, |
| "loss": 1.2754069566726685, |
| "step": 1408 |
| }, |
| { |
| "epoch": 0.94, |
| "grad_norm": 26.25, |
| "learning_rate": 6.442902607877095e-06, |
| "loss": 2.1131834983825684, |
| "step": 1410 |
| }, |
| { |
| "epoch": 0.9413333333333334, |
| "grad_norm": 14.1875, |
| "learning_rate": 6.434001447233392e-06, |
| "loss": 1.3996620178222656, |
| "step": 1412 |
| }, |
| { |
| "epoch": 0.9426666666666667, |
| "grad_norm": 2.5625, |
| "learning_rate": 6.425097486266426e-06, |
| "loss": 1.2032909393310547, |
| "step": 1414 |
| }, |
| { |
| "epoch": 0.944, |
| "grad_norm": 6.875, |
| "learning_rate": 6.416190766486588e-06, |
| "loss": 1.7661256790161133, |
| "step": 1416 |
| }, |
| { |
| "epoch": 0.9453333333333334, |
| "grad_norm": 5.15625, |
| "learning_rate": 6.407281329417133e-06, |
| "loss": 1.0344789028167725, |
| "step": 1418 |
| }, |
| { |
| "epoch": 0.9466666666666667, |
| "grad_norm": 1.5703125, |
| "learning_rate": 6.398369216593981e-06, |
| "loss": 1.160454511642456, |
| "step": 1420 |
| }, |
| { |
| "epoch": 0.948, |
| "grad_norm": 5.0, |
| "learning_rate": 6.38945446956553e-06, |
| "loss": 1.5346543788909912, |
| "step": 1422 |
| }, |
| { |
| "epoch": 0.9493333333333334, |
| "grad_norm": 2.75, |
| "learning_rate": 6.380537129892458e-06, |
| "loss": 1.118833303451538, |
| "step": 1424 |
| }, |
| { |
| "epoch": 0.9506666666666667, |
| "grad_norm": 7.3125, |
| "learning_rate": 6.371617239147527e-06, |
| "loss": 1.8901457786560059, |
| "step": 1426 |
| }, |
| { |
| "epoch": 0.952, |
| "grad_norm": 4.34375, |
| "learning_rate": 6.3626948389153955e-06, |
| "loss": 1.372290849685669, |
| "step": 1428 |
| }, |
| { |
| "epoch": 0.9533333333333334, |
| "grad_norm": 8.375, |
| "learning_rate": 6.35376997079242e-06, |
| "loss": 1.510221004486084, |
| "step": 1430 |
| }, |
| { |
| "epoch": 0.9546666666666667, |
| "grad_norm": 6.6875, |
| "learning_rate": 6.344842676386459e-06, |
| "loss": 1.7555416822433472, |
| "step": 1432 |
| }, |
| { |
| "epoch": 0.956, |
| "grad_norm": 4.5625, |
| "learning_rate": 6.335912997316689e-06, |
| "loss": 1.3952423334121704, |
| "step": 1434 |
| }, |
| { |
| "epoch": 0.9573333333333334, |
| "grad_norm": 3.21875, |
| "learning_rate": 6.3269809752134005e-06, |
| "loss": 1.2118666172027588, |
| "step": 1436 |
| }, |
| { |
| "epoch": 0.9586666666666667, |
| "grad_norm": 15.5625, |
| "learning_rate": 6.3180466517178065e-06, |
| "loss": 1.5054240226745605, |
| "step": 1438 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 6.53125, |
| "learning_rate": 6.30911006848185e-06, |
| "loss": 1.5465056896209717, |
| "step": 1440 |
| }, |
| { |
| "epoch": 0.9613333333333334, |
| "grad_norm": 1.65625, |
| "learning_rate": 6.300171267168006e-06, |
| "loss": 1.240868330001831, |
| "step": 1442 |
| }, |
| { |
| "epoch": 0.9626666666666667, |
| "grad_norm": 6.6875, |
| "learning_rate": 6.291230289449095e-06, |
| "loss": 0.4037482738494873, |
| "step": 1444 |
| }, |
| { |
| "epoch": 0.964, |
| "grad_norm": 4.53125, |
| "learning_rate": 6.282287177008084e-06, |
| "loss": 1.2513530254364014, |
| "step": 1446 |
| }, |
| { |
| "epoch": 0.9653333333333334, |
| "grad_norm": 12.1875, |
| "learning_rate": 6.273341971537888e-06, |
| "loss": 1.4814857244491577, |
| "step": 1448 |
| }, |
| { |
| "epoch": 0.9666666666666667, |
| "grad_norm": 1.390625, |
| "learning_rate": 6.264394714741182e-06, |
| "loss": 1.1147644519805908, |
| "step": 1450 |
| }, |
| { |
| "epoch": 0.968, |
| "grad_norm": 3.328125, |
| "learning_rate": 6.255445448330204e-06, |
| "loss": 1.2680392265319824, |
| "step": 1452 |
| }, |
| { |
| "epoch": 0.9693333333333334, |
| "grad_norm": 1.4140625, |
| "learning_rate": 6.246494214026562e-06, |
| "loss": 1.0437490940093994, |
| "step": 1454 |
| }, |
| { |
| "epoch": 0.9706666666666667, |
| "grad_norm": 1.8359375, |
| "learning_rate": 6.237541053561034e-06, |
| "loss": 1.238845705986023, |
| "step": 1456 |
| }, |
| { |
| "epoch": 0.972, |
| "grad_norm": 4.78125, |
| "learning_rate": 6.228586008673385e-06, |
| "loss": 1.4940769672393799, |
| "step": 1458 |
| }, |
| { |
| "epoch": 0.9733333333333334, |
| "grad_norm": 16.25, |
| "learning_rate": 6.219629121112159e-06, |
| "loss": 1.5105171203613281, |
| "step": 1460 |
| }, |
| { |
| "epoch": 0.9746666666666667, |
| "grad_norm": 6.4375, |
| "learning_rate": 6.210670432634491e-06, |
| "loss": 1.7444933652877808, |
| "step": 1462 |
| }, |
| { |
| "epoch": 0.976, |
| "grad_norm": 8.0625, |
| "learning_rate": 6.201709985005918e-06, |
| "loss": 1.7194395065307617, |
| "step": 1464 |
| }, |
| { |
| "epoch": 0.9773333333333334, |
| "grad_norm": 4.375, |
| "learning_rate": 6.192747820000171e-06, |
| "loss": 1.3826802968978882, |
| "step": 1466 |
| }, |
| { |
| "epoch": 0.9786666666666667, |
| "grad_norm": 12.125, |
| "learning_rate": 6.183783979398991e-06, |
| "loss": 1.9960919618606567, |
| "step": 1468 |
| }, |
| { |
| "epoch": 0.98, |
| "grad_norm": 4.3125, |
| "learning_rate": 6.174818504991931e-06, |
| "loss": 1.4267585277557373, |
| "step": 1470 |
| }, |
| { |
| "epoch": 0.9813333333333333, |
| "grad_norm": 5.28125, |
| "learning_rate": 6.165851438576158e-06, |
| "loss": 1.76206374168396, |
| "step": 1472 |
| }, |
| { |
| "epoch": 0.9826666666666667, |
| "grad_norm": 1.09375, |
| "learning_rate": 6.156882821956265e-06, |
| "loss": 0.9488676190376282, |
| "step": 1474 |
| }, |
| { |
| "epoch": 0.984, |
| "grad_norm": 6.03125, |
| "learning_rate": 6.147912696944067e-06, |
| "loss": 1.924933910369873, |
| "step": 1476 |
| }, |
| { |
| "epoch": 0.9853333333333333, |
| "grad_norm": 4.5, |
| "learning_rate": 6.1389411053584145e-06, |
| "loss": 1.7618391513824463, |
| "step": 1478 |
| }, |
| { |
| "epoch": 0.9866666666666667, |
| "grad_norm": 12.375, |
| "learning_rate": 6.129968089024998e-06, |
| "loss": 1.6995925903320312, |
| "step": 1480 |
| }, |
| { |
| "epoch": 0.988, |
| "grad_norm": 6.125, |
| "learning_rate": 6.1209936897761446e-06, |
| "loss": 1.4753309488296509, |
| "step": 1482 |
| }, |
| { |
| "epoch": 0.9893333333333333, |
| "grad_norm": 6.375, |
| "learning_rate": 6.112017949450629e-06, |
| "loss": 1.1274147033691406, |
| "step": 1484 |
| }, |
| { |
| "epoch": 0.9906666666666667, |
| "grad_norm": 7.46875, |
| "learning_rate": 6.1030409098934824e-06, |
| "loss": 1.7124284505844116, |
| "step": 1486 |
| }, |
| { |
| "epoch": 0.992, |
| "grad_norm": 15.1875, |
| "learning_rate": 6.094062612955791e-06, |
| "loss": 1.7338926792144775, |
| "step": 1488 |
| }, |
| { |
| "epoch": 0.9933333333333333, |
| "grad_norm": 4.5, |
| "learning_rate": 6.085083100494499e-06, |
| "loss": 1.5683114528656006, |
| "step": 1490 |
| }, |
| { |
| "epoch": 0.9946666666666667, |
| "grad_norm": 5.625, |
| "learning_rate": 6.076102414372225e-06, |
| "loss": 1.499389410018921, |
| "step": 1492 |
| }, |
| { |
| "epoch": 0.996, |
| "grad_norm": 2.828125, |
| "learning_rate": 6.067120596457053e-06, |
| "loss": 1.1616817712783813, |
| "step": 1494 |
| }, |
| { |
| "epoch": 0.9973333333333333, |
| "grad_norm": 7.4375, |
| "learning_rate": 6.058137688622343e-06, |
| "loss": 1.6491494178771973, |
| "step": 1496 |
| }, |
| { |
| "epoch": 0.9986666666666667, |
| "grad_norm": 5.71875, |
| "learning_rate": 6.049153732746543e-06, |
| "loss": 1.3628113269805908, |
| "step": 1498 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 1.375, |
| "learning_rate": 6.040168770712982e-06, |
| "loss": 1.0581028461456299, |
| "step": 1500 |
| }, |
| { |
| "epoch": 1.0013333333333334, |
| "grad_norm": 1.1875, |
| "learning_rate": 6.031182844409678e-06, |
| "loss": 1.3563737869262695, |
| "step": 1502 |
| }, |
| { |
| "epoch": 1.0026666666666666, |
| "grad_norm": 1.7734375, |
| "learning_rate": 6.0221959957291485e-06, |
| "loss": 0.9635358452796936, |
| "step": 1504 |
| }, |
| { |
| "epoch": 1.004, |
| "grad_norm": 5.84375, |
| "learning_rate": 6.013208266568209e-06, |
| "loss": 1.936806082725525, |
| "step": 1506 |
| }, |
| { |
| "epoch": 1.0053333333333334, |
| "grad_norm": 7.1875, |
| "learning_rate": 6.00421969882778e-06, |
| "loss": 1.5574287176132202, |
| "step": 1508 |
| }, |
| { |
| "epoch": 1.0066666666666666, |
| "grad_norm": 8.625, |
| "learning_rate": 5.995230334412691e-06, |
| "loss": 1.64463472366333, |
| "step": 1510 |
| }, |
| { |
| "epoch": 1.008, |
| "grad_norm": 11.5, |
| "learning_rate": 5.986240215231489e-06, |
| "loss": 1.4681963920593262, |
| "step": 1512 |
| }, |
| { |
| "epoch": 1.0093333333333334, |
| "grad_norm": 6.0, |
| "learning_rate": 5.977249383196235e-06, |
| "loss": 1.4651533365249634, |
| "step": 1514 |
| }, |
| { |
| "epoch": 1.0106666666666666, |
| "grad_norm": 22.0, |
| "learning_rate": 5.968257880222317e-06, |
| "loss": 1.7012189626693726, |
| "step": 1516 |
| }, |
| { |
| "epoch": 1.012, |
| "grad_norm": 6.1875, |
| "learning_rate": 5.959265748228247e-06, |
| "loss": 1.9330545663833618, |
| "step": 1518 |
| }, |
| { |
| "epoch": 1.0133333333333334, |
| "grad_norm": 4.75, |
| "learning_rate": 5.950273029135475e-06, |
| "loss": 1.493942379951477, |
| "step": 1520 |
| }, |
| { |
| "epoch": 1.0146666666666666, |
| "grad_norm": 3.859375, |
| "learning_rate": 5.941279764868182e-06, |
| "loss": 1.4157612323760986, |
| "step": 1522 |
| }, |
| { |
| "epoch": 1.016, |
| "grad_norm": 9.125, |
| "learning_rate": 5.932285997353093e-06, |
| "loss": 1.4143327474594116, |
| "step": 1524 |
| }, |
| { |
| "epoch": 1.0173333333333334, |
| "grad_norm": 1.21875, |
| "learning_rate": 5.923291768519284e-06, |
| "loss": 1.0516184568405151, |
| "step": 1526 |
| }, |
| { |
| "epoch": 1.0186666666666666, |
| "grad_norm": 5.40625, |
| "learning_rate": 5.9142971202979735e-06, |
| "loss": 1.429210901260376, |
| "step": 1528 |
| }, |
| { |
| "epoch": 1.02, |
| "grad_norm": 3.65625, |
| "learning_rate": 5.905302094622339e-06, |
| "loss": 1.4731173515319824, |
| "step": 1530 |
| }, |
| { |
| "epoch": 1.0213333333333334, |
| "grad_norm": 6.3125, |
| "learning_rate": 5.896306733427322e-06, |
| "loss": 1.517582893371582, |
| "step": 1532 |
| }, |
| { |
| "epoch": 1.0226666666666666, |
| "grad_norm": 6.1875, |
| "learning_rate": 5.887311078649418e-06, |
| "loss": 1.052391529083252, |
| "step": 1534 |
| }, |
| { |
| "epoch": 1.024, |
| "grad_norm": 6.0, |
| "learning_rate": 5.8783151722265005e-06, |
| "loss": 1.5596401691436768, |
| "step": 1536 |
| }, |
| { |
| "epoch": 1.0253333333333334, |
| "grad_norm": 2.796875, |
| "learning_rate": 5.869319056097613e-06, |
| "loss": 1.2670550346374512, |
| "step": 1538 |
| }, |
| { |
| "epoch": 1.0266666666666666, |
| "grad_norm": 4.90625, |
| "learning_rate": 5.860322772202776e-06, |
| "loss": 1.4631175994873047, |
| "step": 1540 |
| }, |
| { |
| "epoch": 1.028, |
| "grad_norm": 22.5, |
| "learning_rate": 5.851326362482792e-06, |
| "loss": 1.8308687210083008, |
| "step": 1542 |
| }, |
| { |
| "epoch": 1.0293333333333334, |
| "grad_norm": 6.1875, |
| "learning_rate": 5.842329868879051e-06, |
| "loss": 1.648712396621704, |
| "step": 1544 |
| }, |
| { |
| "epoch": 1.0306666666666666, |
| "grad_norm": 5.09375, |
| "learning_rate": 5.833333333333333e-06, |
| "loss": 1.523130178451538, |
| "step": 1546 |
| }, |
| { |
| "epoch": 1.032, |
| "grad_norm": 6.6875, |
| "learning_rate": 5.824336797787617e-06, |
| "loss": 1.545793056488037, |
| "step": 1548 |
| }, |
| { |
| "epoch": 1.0333333333333334, |
| "grad_norm": 2.140625, |
| "learning_rate": 5.815340304183876e-06, |
| "loss": 1.0260173082351685, |
| "step": 1550 |
| }, |
| { |
| "epoch": 1.0346666666666666, |
| "grad_norm": 13.4375, |
| "learning_rate": 5.806343894463893e-06, |
| "loss": 2.0390031337738037, |
| "step": 1552 |
| }, |
| { |
| "epoch": 1.036, |
| "grad_norm": 6.65625, |
| "learning_rate": 5.7973476105690554e-06, |
| "loss": 1.7032217979431152, |
| "step": 1554 |
| }, |
| { |
| "epoch": 1.0373333333333334, |
| "grad_norm": 12.4375, |
| "learning_rate": 5.788351494440167e-06, |
| "loss": 1.8185737133026123, |
| "step": 1556 |
| }, |
| { |
| "epoch": 1.0386666666666666, |
| "grad_norm": 9.8125, |
| "learning_rate": 5.779355588017249e-06, |
| "loss": 1.8823127746582031, |
| "step": 1558 |
| }, |
| { |
| "epoch": 1.04, |
| "grad_norm": 1.203125, |
| "learning_rate": 5.770359933239347e-06, |
| "loss": 1.0645382404327393, |
| "step": 1560 |
| }, |
| { |
| "epoch": 1.0413333333333332, |
| "grad_norm": 11.5, |
| "learning_rate": 5.761364572044328e-06, |
| "loss": 1.8362276554107666, |
| "step": 1562 |
| }, |
| { |
| "epoch": 1.0426666666666666, |
| "grad_norm": 6.03125, |
| "learning_rate": 5.752369546368694e-06, |
| "loss": 1.656673550605774, |
| "step": 1564 |
| }, |
| { |
| "epoch": 1.044, |
| "grad_norm": 5.8125, |
| "learning_rate": 5.743374898147385e-06, |
| "loss": 0.9415713548660278, |
| "step": 1566 |
| }, |
| { |
| "epoch": 1.0453333333333332, |
| "grad_norm": 1.3515625, |
| "learning_rate": 5.734380669313575e-06, |
| "loss": 0.947942316532135, |
| "step": 1568 |
| }, |
| { |
| "epoch": 1.0466666666666666, |
| "grad_norm": 10.5625, |
| "learning_rate": 5.725386901798486e-06, |
| "loss": 1.4679059982299805, |
| "step": 1570 |
| }, |
| { |
| "epoch": 1.048, |
| "grad_norm": 12.0, |
| "learning_rate": 5.716393637531194e-06, |
| "loss": 0.5725986957550049, |
| "step": 1572 |
| }, |
| { |
| "epoch": 1.0493333333333332, |
| "grad_norm": 2.015625, |
| "learning_rate": 5.707400918438422e-06, |
| "loss": 1.0623714923858643, |
| "step": 1574 |
| }, |
| { |
| "epoch": 1.0506666666666666, |
| "grad_norm": 8.8125, |
| "learning_rate": 5.698408786444352e-06, |
| "loss": 1.8116446733474731, |
| "step": 1576 |
| }, |
| { |
| "epoch": 1.052, |
| "grad_norm": 5.71875, |
| "learning_rate": 5.689417283470433e-06, |
| "loss": 1.4730396270751953, |
| "step": 1578 |
| }, |
| { |
| "epoch": 1.0533333333333332, |
| "grad_norm": 3.765625, |
| "learning_rate": 5.6804264514351795e-06, |
| "loss": 1.1235568523406982, |
| "step": 1580 |
| }, |
| { |
| "epoch": 1.0546666666666666, |
| "grad_norm": 13.125, |
| "learning_rate": 5.671436332253977e-06, |
| "loss": 1.8619860410690308, |
| "step": 1582 |
| }, |
| { |
| "epoch": 1.056, |
| "grad_norm": 28.0, |
| "learning_rate": 5.662446967838888e-06, |
| "loss": 1.3870640993118286, |
| "step": 1584 |
| }, |
| { |
| "epoch": 1.0573333333333332, |
| "grad_norm": 4.78125, |
| "learning_rate": 5.653458400098461e-06, |
| "loss": 1.4273823499679565, |
| "step": 1586 |
| }, |
| { |
| "epoch": 1.0586666666666666, |
| "grad_norm": 3.484375, |
| "learning_rate": 5.644470670937521e-06, |
| "loss": 1.3886492252349854, |
| "step": 1588 |
| }, |
| { |
| "epoch": 1.06, |
| "grad_norm": 1.296875, |
| "learning_rate": 5.635483822256991e-06, |
| "loss": 1.109363317489624, |
| "step": 1590 |
| }, |
| { |
| "epoch": 1.0613333333333332, |
| "grad_norm": 2.859375, |
| "learning_rate": 5.626497895953685e-06, |
| "loss": 0.9141336679458618, |
| "step": 1592 |
| }, |
| { |
| "epoch": 1.0626666666666666, |
| "grad_norm": 6.125, |
| "learning_rate": 5.617512933920124e-06, |
| "loss": 1.3852533102035522, |
| "step": 1594 |
| }, |
| { |
| "epoch": 1.064, |
| "grad_norm": 7.65625, |
| "learning_rate": 5.608528978044323e-06, |
| "loss": 1.6646533012390137, |
| "step": 1596 |
| }, |
| { |
| "epoch": 1.0653333333333332, |
| "grad_norm": 5.125, |
| "learning_rate": 5.599546070209616e-06, |
| "loss": 1.457612156867981, |
| "step": 1598 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 4.53125, |
| "learning_rate": 5.590564252294443e-06, |
| "loss": 1.4722715616226196, |
| "step": 1600 |
| }, |
| { |
| "epoch": 1.068, |
| "grad_norm": 16.25, |
| "learning_rate": 5.581583566172169e-06, |
| "loss": 1.3487780094146729, |
| "step": 1602 |
| }, |
| { |
| "epoch": 1.0693333333333332, |
| "grad_norm": 4.90625, |
| "learning_rate": 5.5726040537108775e-06, |
| "loss": 1.5795001983642578, |
| "step": 1604 |
| }, |
| { |
| "epoch": 1.0706666666666667, |
| "grad_norm": 4.6875, |
| "learning_rate": 5.5636257567731855e-06, |
| "loss": 1.5326015949249268, |
| "step": 1606 |
| }, |
| { |
| "epoch": 1.072, |
| "grad_norm": 6.0625, |
| "learning_rate": 5.554648717216038e-06, |
| "loss": 1.40179443359375, |
| "step": 1608 |
| }, |
| { |
| "epoch": 1.0733333333333333, |
| "grad_norm": 5.9375, |
| "learning_rate": 5.545672976890523e-06, |
| "loss": 1.750922441482544, |
| "step": 1610 |
| }, |
| { |
| "epoch": 1.0746666666666667, |
| "grad_norm": 17.125, |
| "learning_rate": 5.536698577641669e-06, |
| "loss": 1.8629913330078125, |
| "step": 1612 |
| }, |
| { |
| "epoch": 1.076, |
| "grad_norm": 1.9453125, |
| "learning_rate": 5.5277255613082526e-06, |
| "loss": 1.1251063346862793, |
| "step": 1614 |
| }, |
| { |
| "epoch": 1.0773333333333333, |
| "grad_norm": 4.3125, |
| "learning_rate": 5.518753969722601e-06, |
| "loss": 1.4921822547912598, |
| "step": 1616 |
| }, |
| { |
| "epoch": 1.0786666666666667, |
| "grad_norm": 1.8671875, |
| "learning_rate": 5.509783844710404e-06, |
| "loss": 1.209433674812317, |
| "step": 1618 |
| }, |
| { |
| "epoch": 1.08, |
| "grad_norm": 3.75, |
| "learning_rate": 5.50081522809051e-06, |
| "loss": 1.4612817764282227, |
| "step": 1620 |
| }, |
| { |
| "epoch": 1.0813333333333333, |
| "grad_norm": 8.0, |
| "learning_rate": 5.491848161674737e-06, |
| "loss": 1.541589379310608, |
| "step": 1622 |
| }, |
| { |
| "epoch": 1.0826666666666667, |
| "grad_norm": 1.859375, |
| "learning_rate": 5.482882687267677e-06, |
| "loss": 1.2038989067077637, |
| "step": 1624 |
| }, |
| { |
| "epoch": 1.084, |
| "grad_norm": 3.0, |
| "learning_rate": 5.473918846666497e-06, |
| "loss": 1.2030503749847412, |
| "step": 1626 |
| }, |
| { |
| "epoch": 1.0853333333333333, |
| "grad_norm": 3.984375, |
| "learning_rate": 5.464956681660749e-06, |
| "loss": 1.0769493579864502, |
| "step": 1628 |
| }, |
| { |
| "epoch": 1.0866666666666667, |
| "grad_norm": 2.8125, |
| "learning_rate": 5.455996234032177e-06, |
| "loss": 1.2764222621917725, |
| "step": 1630 |
| }, |
| { |
| "epoch": 1.088, |
| "grad_norm": 8.1875, |
| "learning_rate": 5.44703754555451e-06, |
| "loss": 1.7506179809570312, |
| "step": 1632 |
| }, |
| { |
| "epoch": 1.0893333333333333, |
| "grad_norm": 17.75, |
| "learning_rate": 5.4380806579932835e-06, |
| "loss": 1.7872695922851562, |
| "step": 1634 |
| }, |
| { |
| "epoch": 1.0906666666666667, |
| "grad_norm": 4.25, |
| "learning_rate": 5.429125613105633e-06, |
| "loss": 1.408817172050476, |
| "step": 1636 |
| }, |
| { |
| "epoch": 1.092, |
| "grad_norm": 7.5, |
| "learning_rate": 5.420172452640107e-06, |
| "loss": 1.7498708963394165, |
| "step": 1638 |
| }, |
| { |
| "epoch": 1.0933333333333333, |
| "grad_norm": 4.875, |
| "learning_rate": 5.411221218336463e-06, |
| "loss": 1.3137381076812744, |
| "step": 1640 |
| }, |
| { |
| "epoch": 1.0946666666666667, |
| "grad_norm": 5.53125, |
| "learning_rate": 5.4022719519254855e-06, |
| "loss": 1.5489161014556885, |
| "step": 1642 |
| }, |
| { |
| "epoch": 1.096, |
| "grad_norm": 2.09375, |
| "learning_rate": 5.393324695128779e-06, |
| "loss": 1.0227785110473633, |
| "step": 1644 |
| }, |
| { |
| "epoch": 1.0973333333333333, |
| "grad_norm": 8.875, |
| "learning_rate": 5.3843794896585835e-06, |
| "loss": 0.24966874718666077, |
| "step": 1646 |
| }, |
| { |
| "epoch": 1.0986666666666667, |
| "grad_norm": 4.375, |
| "learning_rate": 5.375436377217571e-06, |
| "loss": 1.442673921585083, |
| "step": 1648 |
| }, |
| { |
| "epoch": 1.1, |
| "grad_norm": 4.21875, |
| "learning_rate": 5.366495399498661e-06, |
| "loss": 1.3785851001739502, |
| "step": 1650 |
| }, |
| { |
| "epoch": 1.1013333333333333, |
| "grad_norm": 7.5, |
| "learning_rate": 5.357556598184819e-06, |
| "loss": 1.7751030921936035, |
| "step": 1652 |
| }, |
| { |
| "epoch": 1.1026666666666667, |
| "grad_norm": 6.5625, |
| "learning_rate": 5.348620014948862e-06, |
| "loss": 1.5587515830993652, |
| "step": 1654 |
| }, |
| { |
| "epoch": 1.104, |
| "grad_norm": 4.4375, |
| "learning_rate": 5.3396856914532666e-06, |
| "loss": 1.446319580078125, |
| "step": 1656 |
| }, |
| { |
| "epoch": 1.1053333333333333, |
| "grad_norm": 1.5703125, |
| "learning_rate": 5.330753669349978e-06, |
| "loss": 1.0275702476501465, |
| "step": 1658 |
| }, |
| { |
| "epoch": 1.1066666666666667, |
| "grad_norm": 7.9375, |
| "learning_rate": 5.321823990280208e-06, |
| "loss": 1.3751928806304932, |
| "step": 1660 |
| }, |
| { |
| "epoch": 1.108, |
| "grad_norm": 4.8125, |
| "learning_rate": 5.31289669587425e-06, |
| "loss": 1.4437367916107178, |
| "step": 1662 |
| }, |
| { |
| "epoch": 1.1093333333333333, |
| "grad_norm": 4.53125, |
| "learning_rate": 5.303971827751273e-06, |
| "loss": 1.497580647468567, |
| "step": 1664 |
| }, |
| { |
| "epoch": 1.1106666666666667, |
| "grad_norm": 1.5390625, |
| "learning_rate": 5.295049427519141e-06, |
| "loss": 1.0452079772949219, |
| "step": 1666 |
| }, |
| { |
| "epoch": 1.112, |
| "grad_norm": 4.46875, |
| "learning_rate": 5.286129536774211e-06, |
| "loss": 1.5819206237792969, |
| "step": 1668 |
| }, |
| { |
| "epoch": 1.1133333333333333, |
| "grad_norm": 3.3125, |
| "learning_rate": 5.2772121971011384e-06, |
| "loss": 1.5034122467041016, |
| "step": 1670 |
| }, |
| { |
| "epoch": 1.1146666666666667, |
| "grad_norm": 6.375, |
| "learning_rate": 5.268297450072687e-06, |
| "loss": 1.442948341369629, |
| "step": 1672 |
| }, |
| { |
| "epoch": 1.116, |
| "grad_norm": 1.765625, |
| "learning_rate": 5.259385337249536e-06, |
| "loss": 1.045128345489502, |
| "step": 1674 |
| }, |
| { |
| "epoch": 1.1173333333333333, |
| "grad_norm": 3.265625, |
| "learning_rate": 5.250475900180081e-06, |
| "loss": 1.1670646667480469, |
| "step": 1676 |
| }, |
| { |
| "epoch": 1.1186666666666667, |
| "grad_norm": 8.1875, |
| "learning_rate": 5.241569180400243e-06, |
| "loss": 1.6837050914764404, |
| "step": 1678 |
| }, |
| { |
| "epoch": 1.12, |
| "grad_norm": 17.25, |
| "learning_rate": 5.232665219433276e-06, |
| "loss": 1.7098231315612793, |
| "step": 1680 |
| }, |
| { |
| "epoch": 1.1213333333333333, |
| "grad_norm": 3.984375, |
| "learning_rate": 5.223764058789573e-06, |
| "loss": 1.4151331186294556, |
| "step": 1682 |
| }, |
| { |
| "epoch": 1.1226666666666667, |
| "grad_norm": 4.875, |
| "learning_rate": 5.214865739966471e-06, |
| "loss": 1.4133689403533936, |
| "step": 1684 |
| }, |
| { |
| "epoch": 1.124, |
| "grad_norm": 4.25, |
| "learning_rate": 5.205970304448058e-06, |
| "loss": 1.3391132354736328, |
| "step": 1686 |
| }, |
| { |
| "epoch": 1.1253333333333333, |
| "grad_norm": 6.3125, |
| "learning_rate": 5.197077793704981e-06, |
| "loss": 1.3253040313720703, |
| "step": 1688 |
| }, |
| { |
| "epoch": 1.1266666666666667, |
| "grad_norm": 5.4375, |
| "learning_rate": 5.188188249194251e-06, |
| "loss": 1.507164478302002, |
| "step": 1690 |
| }, |
| { |
| "epoch": 1.1280000000000001, |
| "grad_norm": 9.25, |
| "learning_rate": 5.1793017123590505e-06, |
| "loss": 1.377781629562378, |
| "step": 1692 |
| }, |
| { |
| "epoch": 1.1293333333333333, |
| "grad_norm": 2.171875, |
| "learning_rate": 5.170418224628541e-06, |
| "loss": 1.006546974182129, |
| "step": 1694 |
| }, |
| { |
| "epoch": 1.1306666666666667, |
| "grad_norm": 5.78125, |
| "learning_rate": 5.1615378274176674e-06, |
| "loss": 1.8399200439453125, |
| "step": 1696 |
| }, |
| { |
| "epoch": 1.1320000000000001, |
| "grad_norm": 4.875, |
| "learning_rate": 5.152660562126967e-06, |
| "loss": 1.4275052547454834, |
| "step": 1698 |
| }, |
| { |
| "epoch": 1.1333333333333333, |
| "grad_norm": 1.1015625, |
| "learning_rate": 5.143786470142378e-06, |
| "loss": 1.1076140403747559, |
| "step": 1700 |
| }, |
| { |
| "epoch": 1.1346666666666667, |
| "grad_norm": 5.6875, |
| "learning_rate": 5.134915592835041e-06, |
| "loss": 1.487177848815918, |
| "step": 1702 |
| }, |
| { |
| "epoch": 1.1360000000000001, |
| "grad_norm": 10.25, |
| "learning_rate": 5.126047971561115e-06, |
| "loss": 1.8975412845611572, |
| "step": 1704 |
| }, |
| { |
| "epoch": 1.1373333333333333, |
| "grad_norm": 3.25, |
| "learning_rate": 5.117183647661572e-06, |
| "loss": 1.4046539068222046, |
| "step": 1706 |
| }, |
| { |
| "epoch": 1.1386666666666667, |
| "grad_norm": 6.09375, |
| "learning_rate": 5.108322662462018e-06, |
| "loss": 1.5340514183044434, |
| "step": 1708 |
| }, |
| { |
| "epoch": 1.1400000000000001, |
| "grad_norm": 6.40625, |
| "learning_rate": 5.099465057272491e-06, |
| "loss": 0.9755153059959412, |
| "step": 1710 |
| }, |
| { |
| "epoch": 1.1413333333333333, |
| "grad_norm": 4.25, |
| "learning_rate": 5.090610873387274e-06, |
| "loss": 1.375262975692749, |
| "step": 1712 |
| }, |
| { |
| "epoch": 1.1426666666666667, |
| "grad_norm": 5.46875, |
| "learning_rate": 5.081760152084694e-06, |
| "loss": 1.8634710311889648, |
| "step": 1714 |
| }, |
| { |
| "epoch": 1.144, |
| "grad_norm": 3.90625, |
| "learning_rate": 5.072912934626943e-06, |
| "loss": 1.1578799486160278, |
| "step": 1716 |
| }, |
| { |
| "epoch": 1.1453333333333333, |
| "grad_norm": 15.75, |
| "learning_rate": 5.064069262259872e-06, |
| "loss": 1.7285916805267334, |
| "step": 1718 |
| }, |
| { |
| "epoch": 1.1466666666666667, |
| "grad_norm": 5.8125, |
| "learning_rate": 5.055229176212808e-06, |
| "loss": 1.4551498889923096, |
| "step": 1720 |
| }, |
| { |
| "epoch": 1.148, |
| "grad_norm": 7.4375, |
| "learning_rate": 5.046392717698355e-06, |
| "loss": 1.5213419198989868, |
| "step": 1722 |
| }, |
| { |
| "epoch": 1.1493333333333333, |
| "grad_norm": 6.0, |
| "learning_rate": 5.037559927912212e-06, |
| "loss": 1.4255318641662598, |
| "step": 1724 |
| }, |
| { |
| "epoch": 1.1506666666666667, |
| "grad_norm": 8.5625, |
| "learning_rate": 5.028730848032968e-06, |
| "loss": 1.910698413848877, |
| "step": 1726 |
| }, |
| { |
| "epoch": 1.152, |
| "grad_norm": 76.0, |
| "learning_rate": 5.019905519221917e-06, |
| "loss": 0.788556694984436, |
| "step": 1728 |
| }, |
| { |
| "epoch": 1.1533333333333333, |
| "grad_norm": 4.1875, |
| "learning_rate": 5.011083982622871e-06, |
| "loss": 1.4046937227249146, |
| "step": 1730 |
| }, |
| { |
| "epoch": 1.1546666666666667, |
| "grad_norm": 6.25, |
| "learning_rate": 5.0022662793619555e-06, |
| "loss": 1.6050171852111816, |
| "step": 1732 |
| }, |
| { |
| "epoch": 1.156, |
| "grad_norm": 13.75, |
| "learning_rate": 4.993452450547429e-06, |
| "loss": 1.185960292816162, |
| "step": 1734 |
| }, |
| { |
| "epoch": 1.1573333333333333, |
| "grad_norm": 4.59375, |
| "learning_rate": 4.984642537269487e-06, |
| "loss": 1.559330701828003, |
| "step": 1736 |
| }, |
| { |
| "epoch": 1.1586666666666667, |
| "grad_norm": 5.78125, |
| "learning_rate": 4.975836580600069e-06, |
| "loss": 1.9091460704803467, |
| "step": 1738 |
| }, |
| { |
| "epoch": 1.16, |
| "grad_norm": 21.375, |
| "learning_rate": 4.96703462159267e-06, |
| "loss": 1.2126508951187134, |
| "step": 1740 |
| }, |
| { |
| "epoch": 1.1613333333333333, |
| "grad_norm": 3.78125, |
| "learning_rate": 4.958236701282149e-06, |
| "loss": 1.3792331218719482, |
| "step": 1742 |
| }, |
| { |
| "epoch": 1.1626666666666667, |
| "grad_norm": 6.03125, |
| "learning_rate": 4.9494428606845335e-06, |
| "loss": 1.8158106803894043, |
| "step": 1744 |
| }, |
| { |
| "epoch": 1.164, |
| "grad_norm": 5.53125, |
| "learning_rate": 4.940653140796835e-06, |
| "loss": 1.2978074550628662, |
| "step": 1746 |
| }, |
| { |
| "epoch": 1.1653333333333333, |
| "grad_norm": 4.4375, |
| "learning_rate": 4.931867582596851e-06, |
| "loss": 1.339666724205017, |
| "step": 1748 |
| }, |
| { |
| "epoch": 1.1666666666666667, |
| "grad_norm": 7.40625, |
| "learning_rate": 4.923086227042978e-06, |
| "loss": 1.487107276916504, |
| "step": 1750 |
| }, |
| { |
| "epoch": 1.168, |
| "grad_norm": 5.21875, |
| "learning_rate": 4.914309115074021e-06, |
| "loss": 1.468918800354004, |
| "step": 1752 |
| }, |
| { |
| "epoch": 1.1693333333333333, |
| "grad_norm": 1.859375, |
| "learning_rate": 4.9055362876090005e-06, |
| "loss": 1.0235750675201416, |
| "step": 1754 |
| }, |
| { |
| "epoch": 1.1706666666666667, |
| "grad_norm": 4.375, |
| "learning_rate": 4.896767785546963e-06, |
| "loss": 1.5452258586883545, |
| "step": 1756 |
| }, |
| { |
| "epoch": 1.172, |
| "grad_norm": 4.375, |
| "learning_rate": 4.888003649766786e-06, |
| "loss": 1.1912848949432373, |
| "step": 1758 |
| }, |
| { |
| "epoch": 1.1733333333333333, |
| "grad_norm": 6.46875, |
| "learning_rate": 4.879243921127e-06, |
| "loss": 1.8611294031143188, |
| "step": 1760 |
| }, |
| { |
| "epoch": 1.1746666666666667, |
| "grad_norm": 17.25, |
| "learning_rate": 4.870488640465579e-06, |
| "loss": 1.4652965068817139, |
| "step": 1762 |
| }, |
| { |
| "epoch": 1.176, |
| "grad_norm": 2.703125, |
| "learning_rate": 4.861737848599769e-06, |
| "loss": 1.2129669189453125, |
| "step": 1764 |
| }, |
| { |
| "epoch": 1.1773333333333333, |
| "grad_norm": 7.4375, |
| "learning_rate": 4.8529915863258855e-06, |
| "loss": 1.679603099822998, |
| "step": 1766 |
| }, |
| { |
| "epoch": 1.1786666666666668, |
| "grad_norm": 5.28125, |
| "learning_rate": 4.844249894419126e-06, |
| "loss": 1.4588364362716675, |
| "step": 1768 |
| }, |
| { |
| "epoch": 1.18, |
| "grad_norm": 1.8984375, |
| "learning_rate": 4.835512813633384e-06, |
| "loss": 0.9822990298271179, |
| "step": 1770 |
| }, |
| { |
| "epoch": 1.1813333333333333, |
| "grad_norm": 2.59375, |
| "learning_rate": 4.826780384701051e-06, |
| "loss": 1.3673211336135864, |
| "step": 1772 |
| }, |
| { |
| "epoch": 1.1826666666666668, |
| "grad_norm": 9.875, |
| "learning_rate": 4.818052648332835e-06, |
| "loss": 1.3989946842193604, |
| "step": 1774 |
| }, |
| { |
| "epoch": 1.184, |
| "grad_norm": 6.03125, |
| "learning_rate": 4.8093296452175694e-06, |
| "loss": 1.4319931268692017, |
| "step": 1776 |
| }, |
| { |
| "epoch": 1.1853333333333333, |
| "grad_norm": 15.125, |
| "learning_rate": 4.800611416022017e-06, |
| "loss": 1.6122653484344482, |
| "step": 1778 |
| }, |
| { |
| "epoch": 1.1866666666666668, |
| "grad_norm": 2.046875, |
| "learning_rate": 4.791898001390686e-06, |
| "loss": 1.1115684509277344, |
| "step": 1780 |
| }, |
| { |
| "epoch": 1.188, |
| "grad_norm": 2.09375, |
| "learning_rate": 4.783189441945639e-06, |
| "loss": 1.0223889350891113, |
| "step": 1782 |
| }, |
| { |
| "epoch": 1.1893333333333334, |
| "grad_norm": 13.0, |
| "learning_rate": 4.7744857782863036e-06, |
| "loss": 1.4864284992218018, |
| "step": 1784 |
| }, |
| { |
| "epoch": 1.1906666666666668, |
| "grad_norm": 4.125, |
| "learning_rate": 4.765787050989282e-06, |
| "loss": 1.0978294610977173, |
| "step": 1786 |
| }, |
| { |
| "epoch": 1.192, |
| "grad_norm": 7.5, |
| "learning_rate": 4.757093300608166e-06, |
| "loss": 0.9597824811935425, |
| "step": 1788 |
| }, |
| { |
| "epoch": 1.1933333333333334, |
| "grad_norm": 2.78125, |
| "learning_rate": 4.7484045676733415e-06, |
| "loss": 1.156911849975586, |
| "step": 1790 |
| }, |
| { |
| "epoch": 1.1946666666666665, |
| "grad_norm": 3.890625, |
| "learning_rate": 4.7397208926918045e-06, |
| "loss": 1.52815842628479, |
| "step": 1792 |
| }, |
| { |
| "epoch": 1.196, |
| "grad_norm": 4.0625, |
| "learning_rate": 4.731042316146973e-06, |
| "loss": 1.4148904085159302, |
| "step": 1794 |
| }, |
| { |
| "epoch": 1.1973333333333334, |
| "grad_norm": 7.25, |
| "learning_rate": 4.722368878498493e-06, |
| "loss": 1.563035249710083, |
| "step": 1796 |
| }, |
| { |
| "epoch": 1.1986666666666665, |
| "grad_norm": 6.78125, |
| "learning_rate": 4.713700620182053e-06, |
| "loss": 1.3035117387771606, |
| "step": 1798 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 5.78125, |
| "learning_rate": 4.705037581609198e-06, |
| "loss": 1.445461392402649, |
| "step": 1800 |
| }, |
| { |
| "epoch": 1.2013333333333334, |
| "grad_norm": 8.4375, |
| "learning_rate": 4.696379803167134e-06, |
| "loss": 1.735097885131836, |
| "step": 1802 |
| }, |
| { |
| "epoch": 1.2026666666666666, |
| "grad_norm": 4.71875, |
| "learning_rate": 4.687727325218548e-06, |
| "loss": 1.4002565145492554, |
| "step": 1804 |
| }, |
| { |
| "epoch": 1.204, |
| "grad_norm": 3.078125, |
| "learning_rate": 4.679080188101416e-06, |
| "loss": 1.1411118507385254, |
| "step": 1806 |
| }, |
| { |
| "epoch": 1.2053333333333334, |
| "grad_norm": 5.4375, |
| "learning_rate": 4.670438432128812e-06, |
| "loss": 1.8767681121826172, |
| "step": 1808 |
| }, |
| { |
| "epoch": 1.2066666666666666, |
| "grad_norm": 5.21875, |
| "learning_rate": 4.661802097588727e-06, |
| "loss": 1.4633359909057617, |
| "step": 1810 |
| }, |
| { |
| "epoch": 1.208, |
| "grad_norm": 1.2734375, |
| "learning_rate": 4.653171224743872e-06, |
| "loss": 1.1138715744018555, |
| "step": 1812 |
| }, |
| { |
| "epoch": 1.2093333333333334, |
| "grad_norm": 2.640625, |
| "learning_rate": 4.644545853831501e-06, |
| "loss": 1.0692567825317383, |
| "step": 1814 |
| }, |
| { |
| "epoch": 1.2106666666666666, |
| "grad_norm": 7.59375, |
| "learning_rate": 4.635926025063216e-06, |
| "loss": 1.3959109783172607, |
| "step": 1816 |
| }, |
| { |
| "epoch": 1.212, |
| "grad_norm": 5.03125, |
| "learning_rate": 4.62731177862478e-06, |
| "loss": 1.3984177112579346, |
| "step": 1818 |
| }, |
| { |
| "epoch": 1.2133333333333334, |
| "grad_norm": 6.625, |
| "learning_rate": 4.618703154675931e-06, |
| "loss": 0.8294498920440674, |
| "step": 1820 |
| }, |
| { |
| "epoch": 1.2146666666666666, |
| "grad_norm": 12.1875, |
| "learning_rate": 4.610100193350197e-06, |
| "loss": 1.740832805633545, |
| "step": 1822 |
| }, |
| { |
| "epoch": 1.216, |
| "grad_norm": 2.734375, |
| "learning_rate": 4.601502934754706e-06, |
| "loss": 1.155540108680725, |
| "step": 1824 |
| }, |
| { |
| "epoch": 1.2173333333333334, |
| "grad_norm": 3.5625, |
| "learning_rate": 4.592911418969999e-06, |
| "loss": 1.4470839500427246, |
| "step": 1826 |
| }, |
| { |
| "epoch": 1.2186666666666666, |
| "grad_norm": 7.6875, |
| "learning_rate": 4.584325686049843e-06, |
| "loss": 1.1068997383117676, |
| "step": 1828 |
| }, |
| { |
| "epoch": 1.22, |
| "grad_norm": 13.5625, |
| "learning_rate": 4.57574577602105e-06, |
| "loss": 1.221320629119873, |
| "step": 1830 |
| }, |
| { |
| "epoch": 1.2213333333333334, |
| "grad_norm": 2.296875, |
| "learning_rate": 4.567171728883279e-06, |
| "loss": 1.142722725868225, |
| "step": 1832 |
| }, |
| { |
| "epoch": 1.2226666666666666, |
| "grad_norm": 4.15625, |
| "learning_rate": 4.558603584608859e-06, |
| "loss": 1.4071441888809204, |
| "step": 1834 |
| }, |
| { |
| "epoch": 1.224, |
| "grad_norm": 1.46875, |
| "learning_rate": 4.5500413831426034e-06, |
| "loss": 0.9861024022102356, |
| "step": 1836 |
| }, |
| { |
| "epoch": 1.2253333333333334, |
| "grad_norm": 1.390625, |
| "learning_rate": 4.541485164401616e-06, |
| "loss": 1.1196272373199463, |
| "step": 1838 |
| }, |
| { |
| "epoch": 1.2266666666666666, |
| "grad_norm": 6.46875, |
| "learning_rate": 4.532934968275108e-06, |
| "loss": 1.842470645904541, |
| "step": 1840 |
| }, |
| { |
| "epoch": 1.228, |
| "grad_norm": 5.15625, |
| "learning_rate": 4.524390834624216e-06, |
| "loss": 1.4868441820144653, |
| "step": 1842 |
| }, |
| { |
| "epoch": 1.2293333333333334, |
| "grad_norm": 2.734375, |
| "learning_rate": 4.5158528032818115e-06, |
| "loss": 1.111555814743042, |
| "step": 1844 |
| }, |
| { |
| "epoch": 1.2306666666666666, |
| "grad_norm": 11.0625, |
| "learning_rate": 4.507320914052319e-06, |
| "loss": 1.41820228099823, |
| "step": 1846 |
| }, |
| { |
| "epoch": 1.232, |
| "grad_norm": 6.53125, |
| "learning_rate": 4.498795206711525e-06, |
| "loss": 1.8366367816925049, |
| "step": 1848 |
| }, |
| { |
| "epoch": 1.2333333333333334, |
| "grad_norm": 2.828125, |
| "learning_rate": 4.4902757210064005e-06, |
| "loss": 1.1064856052398682, |
| "step": 1850 |
| }, |
| { |
| "epoch": 1.2346666666666666, |
| "grad_norm": 5.0625, |
| "learning_rate": 4.481762496654908e-06, |
| "loss": 1.5134849548339844, |
| "step": 1852 |
| }, |
| { |
| "epoch": 1.236, |
| "grad_norm": 2.171875, |
| "learning_rate": 4.473255573345819e-06, |
| "loss": 1.0301719903945923, |
| "step": 1854 |
| }, |
| { |
| "epoch": 1.2373333333333334, |
| "grad_norm": 4.71875, |
| "learning_rate": 4.464754990738531e-06, |
| "loss": 1.4889826774597168, |
| "step": 1856 |
| }, |
| { |
| "epoch": 1.2386666666666666, |
| "grad_norm": 10.8125, |
| "learning_rate": 4.45626078846288e-06, |
| "loss": 1.9825019836425781, |
| "step": 1858 |
| }, |
| { |
| "epoch": 1.24, |
| "grad_norm": 7.21875, |
| "learning_rate": 4.447773006118961e-06, |
| "loss": 1.425232172012329, |
| "step": 1860 |
| }, |
| { |
| "epoch": 1.2413333333333334, |
| "grad_norm": 3.609375, |
| "learning_rate": 4.439291683276931e-06, |
| "loss": 1.4104689359664917, |
| "step": 1862 |
| }, |
| { |
| "epoch": 1.2426666666666666, |
| "grad_norm": 5.3125, |
| "learning_rate": 4.43081685947684e-06, |
| "loss": 1.4762451648712158, |
| "step": 1864 |
| }, |
| { |
| "epoch": 1.244, |
| "grad_norm": 8.6875, |
| "learning_rate": 4.422348574228434e-06, |
| "loss": 1.7859766483306885, |
| "step": 1866 |
| }, |
| { |
| "epoch": 1.2453333333333334, |
| "grad_norm": 2.78125, |
| "learning_rate": 4.413886867010984e-06, |
| "loss": 1.1129896640777588, |
| "step": 1868 |
| }, |
| { |
| "epoch": 1.2466666666666666, |
| "grad_norm": 6.96875, |
| "learning_rate": 4.405431777273084e-06, |
| "loss": 1.415675401687622, |
| "step": 1870 |
| }, |
| { |
| "epoch": 1.248, |
| "grad_norm": 2.078125, |
| "learning_rate": 4.396983344432485e-06, |
| "loss": 0.9921229481697083, |
| "step": 1872 |
| }, |
| { |
| "epoch": 1.2493333333333334, |
| "grad_norm": 4.34375, |
| "learning_rate": 4.3885416078759e-06, |
| "loss": 1.444735050201416, |
| "step": 1874 |
| }, |
| { |
| "epoch": 1.2506666666666666, |
| "grad_norm": 11.625, |
| "learning_rate": 4.380106606958824e-06, |
| "loss": 1.397036075592041, |
| "step": 1876 |
| }, |
| { |
| "epoch": 1.252, |
| "grad_norm": 5.125, |
| "learning_rate": 4.371678381005352e-06, |
| "loss": 1.4307284355163574, |
| "step": 1878 |
| }, |
| { |
| "epoch": 1.2533333333333334, |
| "grad_norm": 1.4765625, |
| "learning_rate": 4.363256969307992e-06, |
| "loss": 1.1688439846038818, |
| "step": 1880 |
| }, |
| { |
| "epoch": 1.2546666666666666, |
| "grad_norm": 1.28125, |
| "learning_rate": 4.3548424111274835e-06, |
| "loss": 1.0812777280807495, |
| "step": 1882 |
| }, |
| { |
| "epoch": 1.256, |
| "grad_norm": 1.4453125, |
| "learning_rate": 4.3464347456926186e-06, |
| "loss": 1.224534034729004, |
| "step": 1884 |
| }, |
| { |
| "epoch": 1.2573333333333334, |
| "grad_norm": 2.5625, |
| "learning_rate": 4.338034012200051e-06, |
| "loss": 1.0692505836486816, |
| "step": 1886 |
| }, |
| { |
| "epoch": 1.2586666666666666, |
| "grad_norm": 7.53125, |
| "learning_rate": 4.329640249814121e-06, |
| "loss": 1.8193671703338623, |
| "step": 1888 |
| }, |
| { |
| "epoch": 1.26, |
| "grad_norm": 6.28125, |
| "learning_rate": 4.3212534976666655e-06, |
| "loss": 1.3666338920593262, |
| "step": 1890 |
| }, |
| { |
| "epoch": 1.2613333333333334, |
| "grad_norm": 8.75, |
| "learning_rate": 4.312873794856845e-06, |
| "loss": 1.7071934938430786, |
| "step": 1892 |
| }, |
| { |
| "epoch": 1.2626666666666666, |
| "grad_norm": 10.875, |
| "learning_rate": 4.30450118045095e-06, |
| "loss": 1.441591501235962, |
| "step": 1894 |
| }, |
| { |
| "epoch": 1.264, |
| "grad_norm": 7.6875, |
| "learning_rate": 4.2961356934822294e-06, |
| "loss": 1.3926138877868652, |
| "step": 1896 |
| }, |
| { |
| "epoch": 1.2653333333333334, |
| "grad_norm": 16.75, |
| "learning_rate": 4.287777372950701e-06, |
| "loss": 1.9801844358444214, |
| "step": 1898 |
| }, |
| { |
| "epoch": 1.2666666666666666, |
| "grad_norm": 2.75, |
| "learning_rate": 4.279426257822973e-06, |
| "loss": 0.9289498329162598, |
| "step": 1900 |
| }, |
| { |
| "epoch": 1.268, |
| "grad_norm": 5.3125, |
| "learning_rate": 4.271082387032064e-06, |
| "loss": 1.5062365531921387, |
| "step": 1902 |
| }, |
| { |
| "epoch": 1.2693333333333334, |
| "grad_norm": 1.6328125, |
| "learning_rate": 4.262745799477217e-06, |
| "loss": 1.3158210515975952, |
| "step": 1904 |
| }, |
| { |
| "epoch": 1.2706666666666666, |
| "grad_norm": 7.5625, |
| "learning_rate": 4.254416534023722e-06, |
| "loss": 1.9733731746673584, |
| "step": 1906 |
| }, |
| { |
| "epoch": 1.272, |
| "grad_norm": 4.875, |
| "learning_rate": 4.246094629502733e-06, |
| "loss": 1.4407968521118164, |
| "step": 1908 |
| }, |
| { |
| "epoch": 1.2733333333333334, |
| "grad_norm": 4.40625, |
| "learning_rate": 4.2377801247110865e-06, |
| "loss": 0.6475011706352234, |
| "step": 1910 |
| }, |
| { |
| "epoch": 1.2746666666666666, |
| "grad_norm": 2.125, |
| "learning_rate": 4.229473058411121e-06, |
| "loss": 1.043494462966919, |
| "step": 1912 |
| }, |
| { |
| "epoch": 1.276, |
| "grad_norm": 3.984375, |
| "learning_rate": 4.2211734693304976e-06, |
| "loss": 1.1116821765899658, |
| "step": 1914 |
| }, |
| { |
| "epoch": 1.2773333333333334, |
| "grad_norm": 4.84375, |
| "learning_rate": 4.212881396162019e-06, |
| "loss": 1.4613234996795654, |
| "step": 1916 |
| }, |
| { |
| "epoch": 1.2786666666666666, |
| "grad_norm": 4.75, |
| "learning_rate": 4.204596877563448e-06, |
| "loss": 1.0637935400009155, |
| "step": 1918 |
| }, |
| { |
| "epoch": 1.28, |
| "grad_norm": 1.453125, |
| "learning_rate": 4.1963199521573265e-06, |
| "loss": 1.301331639289856, |
| "step": 1920 |
| }, |
| { |
| "epoch": 1.2813333333333334, |
| "grad_norm": 3.703125, |
| "learning_rate": 4.188050658530799e-06, |
| "loss": 1.419353723526001, |
| "step": 1922 |
| }, |
| { |
| "epoch": 1.2826666666666666, |
| "grad_norm": 0.94921875, |
| "learning_rate": 4.179789035235429e-06, |
| "loss": 1.1043145656585693, |
| "step": 1924 |
| }, |
| { |
| "epoch": 1.284, |
| "grad_norm": 9.5, |
| "learning_rate": 4.171535120787022e-06, |
| "loss": 1.3741405010223389, |
| "step": 1926 |
| }, |
| { |
| "epoch": 1.2853333333333334, |
| "grad_norm": 3.140625, |
| "learning_rate": 4.163288953665444e-06, |
| "loss": 1.1466556787490845, |
| "step": 1928 |
| }, |
| { |
| "epoch": 1.2866666666666666, |
| "grad_norm": 7.5, |
| "learning_rate": 4.155050572314444e-06, |
| "loss": 1.950070858001709, |
| "step": 1930 |
| }, |
| { |
| "epoch": 1.288, |
| "grad_norm": 12.125, |
| "learning_rate": 4.146820015141471e-06, |
| "loss": 1.7856245040893555, |
| "step": 1932 |
| }, |
| { |
| "epoch": 1.2893333333333334, |
| "grad_norm": 10.25, |
| "learning_rate": 4.1385973205175e-06, |
| "loss": 1.5132737159729004, |
| "step": 1934 |
| }, |
| { |
| "epoch": 1.2906666666666666, |
| "grad_norm": 4.21875, |
| "learning_rate": 4.13038252677685e-06, |
| "loss": 1.7371140718460083, |
| "step": 1936 |
| }, |
| { |
| "epoch": 1.292, |
| "grad_norm": 5.25, |
| "learning_rate": 4.122175672217006e-06, |
| "loss": 1.3733547925949097, |
| "step": 1938 |
| }, |
| { |
| "epoch": 1.2933333333333334, |
| "grad_norm": 14.125, |
| "learning_rate": 4.113976795098441e-06, |
| "loss": 1.6105353832244873, |
| "step": 1940 |
| }, |
| { |
| "epoch": 1.2946666666666666, |
| "grad_norm": 4.09375, |
| "learning_rate": 4.105785933644435e-06, |
| "loss": 1.4054853916168213, |
| "step": 1942 |
| }, |
| { |
| "epoch": 1.296, |
| "grad_norm": 7.1875, |
| "learning_rate": 4.097603126040899e-06, |
| "loss": 1.4901647567749023, |
| "step": 1944 |
| }, |
| { |
| "epoch": 1.2973333333333334, |
| "grad_norm": 4.90625, |
| "learning_rate": 4.089428410436202e-06, |
| "loss": 1.127669334411621, |
| "step": 1946 |
| }, |
| { |
| "epoch": 1.2986666666666666, |
| "grad_norm": 29.125, |
| "learning_rate": 4.081261824940981e-06, |
| "loss": 1.8731911182403564, |
| "step": 1948 |
| }, |
| { |
| "epoch": 1.3, |
| "grad_norm": 4.15625, |
| "learning_rate": 4.073103407627975e-06, |
| "loss": 1.436967134475708, |
| "step": 1950 |
| }, |
| { |
| "epoch": 1.3013333333333335, |
| "grad_norm": 5.3125, |
| "learning_rate": 4.06495319653184e-06, |
| "loss": 1.4082098007202148, |
| "step": 1952 |
| }, |
| { |
| "epoch": 1.3026666666666666, |
| "grad_norm": 7.28125, |
| "learning_rate": 4.056811229648977e-06, |
| "loss": 1.4131418466567993, |
| "step": 1954 |
| }, |
| { |
| "epoch": 1.304, |
| "grad_norm": 6.25, |
| "learning_rate": 4.0486775449373476e-06, |
| "loss": 1.5199666023254395, |
| "step": 1956 |
| }, |
| { |
| "epoch": 1.3053333333333335, |
| "grad_norm": 5.90625, |
| "learning_rate": 4.04055218031631e-06, |
| "loss": 1.4956390857696533, |
| "step": 1958 |
| }, |
| { |
| "epoch": 1.3066666666666666, |
| "grad_norm": 57.25, |
| "learning_rate": 4.032435173666427e-06, |
| "loss": 1.8000434637069702, |
| "step": 1960 |
| }, |
| { |
| "epoch": 1.308, |
| "grad_norm": 27.25, |
| "learning_rate": 4.0243265628293e-06, |
| "loss": 1.5463436841964722, |
| "step": 1962 |
| }, |
| { |
| "epoch": 1.3093333333333335, |
| "grad_norm": 7.15625, |
| "learning_rate": 4.0162263856073845e-06, |
| "loss": 1.0135364532470703, |
| "step": 1964 |
| }, |
| { |
| "epoch": 1.3106666666666666, |
| "grad_norm": 16.375, |
| "learning_rate": 4.008134679763825e-06, |
| "loss": 1.7062512636184692, |
| "step": 1966 |
| }, |
| { |
| "epoch": 1.312, |
| "grad_norm": 1.640625, |
| "learning_rate": 4.000051483022266e-06, |
| "loss": 1.0296456813812256, |
| "step": 1968 |
| }, |
| { |
| "epoch": 1.3133333333333335, |
| "grad_norm": 8.1875, |
| "learning_rate": 3.991976833066687e-06, |
| "loss": 1.2677695751190186, |
| "step": 1970 |
| }, |
| { |
| "epoch": 1.3146666666666667, |
| "grad_norm": 12.375, |
| "learning_rate": 3.983910767541221e-06, |
| "loss": 1.590986728668213, |
| "step": 1972 |
| }, |
| { |
| "epoch": 1.316, |
| "grad_norm": 7.6875, |
| "learning_rate": 3.975853324049979e-06, |
| "loss": 1.8669140338897705, |
| "step": 1974 |
| }, |
| { |
| "epoch": 1.3173333333333335, |
| "grad_norm": 5.375, |
| "learning_rate": 3.967804540156878e-06, |
| "loss": 1.4626425504684448, |
| "step": 1976 |
| }, |
| { |
| "epoch": 1.3186666666666667, |
| "grad_norm": 5.21875, |
| "learning_rate": 3.9597644533854604e-06, |
| "loss": 1.3915584087371826, |
| "step": 1978 |
| }, |
| { |
| "epoch": 1.32, |
| "grad_norm": 5.375, |
| "learning_rate": 3.951733101218726e-06, |
| "loss": 1.3798573017120361, |
| "step": 1980 |
| }, |
| { |
| "epoch": 1.3213333333333335, |
| "grad_norm": 5.0625, |
| "learning_rate": 3.943710521098953e-06, |
| "loss": 1.3979811668395996, |
| "step": 1982 |
| }, |
| { |
| "epoch": 1.3226666666666667, |
| "grad_norm": 7.6875, |
| "learning_rate": 3.935696750427523e-06, |
| "loss": 1.8864164352416992, |
| "step": 1984 |
| }, |
| { |
| "epoch": 1.324, |
| "grad_norm": 3.109375, |
| "learning_rate": 3.927691826564748e-06, |
| "loss": 1.28287672996521, |
| "step": 1986 |
| }, |
| { |
| "epoch": 1.3253333333333333, |
| "grad_norm": 6.15625, |
| "learning_rate": 3.9196957868296956e-06, |
| "loss": 1.5379631519317627, |
| "step": 1988 |
| }, |
| { |
| "epoch": 1.3266666666666667, |
| "grad_norm": 4.3125, |
| "learning_rate": 3.91170866850002e-06, |
| "loss": 1.4094090461730957, |
| "step": 1990 |
| }, |
| { |
| "epoch": 1.328, |
| "grad_norm": 4.84375, |
| "learning_rate": 3.903730508811778e-06, |
| "loss": 1.4487733840942383, |
| "step": 1992 |
| }, |
| { |
| "epoch": 1.3293333333333333, |
| "grad_norm": 11.625, |
| "learning_rate": 3.8957613449592635e-06, |
| "loss": 1.5799566507339478, |
| "step": 1994 |
| }, |
| { |
| "epoch": 1.3306666666666667, |
| "grad_norm": 7.125, |
| "learning_rate": 3.887801214094831e-06, |
| "loss": 1.9759260416030884, |
| "step": 1996 |
| }, |
| { |
| "epoch": 1.332, |
| "grad_norm": 6.125, |
| "learning_rate": 3.879850153328723e-06, |
| "loss": 1.0006651878356934, |
| "step": 1998 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 7.71875, |
| "learning_rate": 3.871908199728899e-06, |
| "loss": 1.775663137435913, |
| "step": 2000 |
| }, |
| { |
| "epoch": 1.3346666666666667, |
| "grad_norm": 7.28125, |
| "learning_rate": 3.863975390320857e-06, |
| "loss": 1.5372567176818848, |
| "step": 2002 |
| }, |
| { |
| "epoch": 1.336, |
| "grad_norm": 2.0, |
| "learning_rate": 3.85605176208747e-06, |
| "loss": 1.0319498777389526, |
| "step": 2004 |
| }, |
| { |
| "epoch": 1.3373333333333333, |
| "grad_norm": 5.6875, |
| "learning_rate": 3.8481373519688025e-06, |
| "loss": 1.3900774717330933, |
| "step": 2006 |
| }, |
| { |
| "epoch": 1.3386666666666667, |
| "grad_norm": 4.46875, |
| "learning_rate": 3.840232196861948e-06, |
| "loss": 1.4347116947174072, |
| "step": 2008 |
| }, |
| { |
| "epoch": 1.34, |
| "grad_norm": 6.53125, |
| "learning_rate": 3.832336333620851e-06, |
| "loss": 1.4486432075500488, |
| "step": 2010 |
| }, |
| { |
| "epoch": 1.3413333333333333, |
| "grad_norm": 2.234375, |
| "learning_rate": 3.824449799056139e-06, |
| "loss": 1.1662362813949585, |
| "step": 2012 |
| }, |
| { |
| "epoch": 1.3426666666666667, |
| "grad_norm": 5.40625, |
| "learning_rate": 3.816572629934947e-06, |
| "loss": 1.4935212135314941, |
| "step": 2014 |
| }, |
| { |
| "epoch": 1.3439999999999999, |
| "grad_norm": 4.375, |
| "learning_rate": 3.8087048629807487e-06, |
| "loss": 1.5006301403045654, |
| "step": 2016 |
| }, |
| { |
| "epoch": 1.3453333333333333, |
| "grad_norm": 11.3125, |
| "learning_rate": 3.8008465348731865e-06, |
| "loss": 1.8255863189697266, |
| "step": 2018 |
| }, |
| { |
| "epoch": 1.3466666666666667, |
| "grad_norm": 1.8515625, |
| "learning_rate": 3.7929976822478963e-06, |
| "loss": 1.1015727519989014, |
| "step": 2020 |
| }, |
| { |
| "epoch": 1.3479999999999999, |
| "grad_norm": 4.40625, |
| "learning_rate": 3.785158341696342e-06, |
| "loss": 1.4135279655456543, |
| "step": 2022 |
| }, |
| { |
| "epoch": 1.3493333333333333, |
| "grad_norm": 4.625, |
| "learning_rate": 3.777328549765638e-06, |
| "loss": 1.3733489513397217, |
| "step": 2024 |
| }, |
| { |
| "epoch": 1.3506666666666667, |
| "grad_norm": 5.6875, |
| "learning_rate": 3.769508342958387e-06, |
| "loss": 1.4328157901763916, |
| "step": 2026 |
| }, |
| { |
| "epoch": 1.3519999999999999, |
| "grad_norm": 5.5625, |
| "learning_rate": 3.7616977577325032e-06, |
| "loss": 1.6042231321334839, |
| "step": 2028 |
| }, |
| { |
| "epoch": 1.3533333333333333, |
| "grad_norm": 1.2109375, |
| "learning_rate": 3.753896830501045e-06, |
| "loss": 1.1938247680664062, |
| "step": 2030 |
| }, |
| { |
| "epoch": 1.3546666666666667, |
| "grad_norm": 16.125, |
| "learning_rate": 3.7461055976320482e-06, |
| "loss": 1.4999253749847412, |
| "step": 2032 |
| }, |
| { |
| "epoch": 1.3559999999999999, |
| "grad_norm": 8.0625, |
| "learning_rate": 3.738324095448349e-06, |
| "loss": 1.0432729721069336, |
| "step": 2034 |
| }, |
| { |
| "epoch": 1.3573333333333333, |
| "grad_norm": 6.28125, |
| "learning_rate": 3.730552360227422e-06, |
| "loss": 1.3648273944854736, |
| "step": 2036 |
| }, |
| { |
| "epoch": 1.3586666666666667, |
| "grad_norm": 6.375, |
| "learning_rate": 3.722790428201206e-06, |
| "loss": 1.8152570724487305, |
| "step": 2038 |
| }, |
| { |
| "epoch": 1.3599999999999999, |
| "grad_norm": 12.5, |
| "learning_rate": 3.715038335555939e-06, |
| "loss": 1.746189832687378, |
| "step": 2040 |
| }, |
| { |
| "epoch": 1.3613333333333333, |
| "grad_norm": 8.1875, |
| "learning_rate": 3.7072961184319857e-06, |
| "loss": 1.4744912385940552, |
| "step": 2042 |
| }, |
| { |
| "epoch": 1.3626666666666667, |
| "grad_norm": 2.3125, |
| "learning_rate": 3.6995638129236735e-06, |
| "loss": 1.0192598104476929, |
| "step": 2044 |
| }, |
| { |
| "epoch": 1.3639999999999999, |
| "grad_norm": 5.125, |
| "learning_rate": 3.6918414550791193e-06, |
| "loss": 1.4223957061767578, |
| "step": 2046 |
| }, |
| { |
| "epoch": 1.3653333333333333, |
| "grad_norm": 4.46875, |
| "learning_rate": 3.6841290809000636e-06, |
| "loss": 1.407201886177063, |
| "step": 2048 |
| }, |
| { |
| "epoch": 1.3666666666666667, |
| "grad_norm": 15.0625, |
| "learning_rate": 3.6764267263417073e-06, |
| "loss": 1.7757458686828613, |
| "step": 2050 |
| }, |
| { |
| "epoch": 1.3679999999999999, |
| "grad_norm": 5.34375, |
| "learning_rate": 3.6687344273125346e-06, |
| "loss": 1.4260222911834717, |
| "step": 2052 |
| }, |
| { |
| "epoch": 1.3693333333333333, |
| "grad_norm": 4.71875, |
| "learning_rate": 3.661052219674154e-06, |
| "loss": 1.3600423336029053, |
| "step": 2054 |
| }, |
| { |
| "epoch": 1.3706666666666667, |
| "grad_norm": 2.5, |
| "learning_rate": 3.653380139241125e-06, |
| "loss": 1.1860934495925903, |
| "step": 2056 |
| }, |
| { |
| "epoch": 1.3719999999999999, |
| "grad_norm": 4.75, |
| "learning_rate": 3.645718221780795e-06, |
| "loss": 1.4395768642425537, |
| "step": 2058 |
| }, |
| { |
| "epoch": 1.3733333333333333, |
| "grad_norm": 8.875, |
| "learning_rate": 3.638066503013134e-06, |
| "loss": 1.9235694408416748, |
| "step": 2060 |
| }, |
| { |
| "epoch": 1.3746666666666667, |
| "grad_norm": 3.5625, |
| "learning_rate": 3.6304250186105616e-06, |
| "loss": 1.2579543590545654, |
| "step": 2062 |
| }, |
| { |
| "epoch": 1.376, |
| "grad_norm": 11.0, |
| "learning_rate": 3.6227938041977863e-06, |
| "loss": 1.2985129356384277, |
| "step": 2064 |
| }, |
| { |
| "epoch": 1.3773333333333333, |
| "grad_norm": 5.78125, |
| "learning_rate": 3.615172895351639e-06, |
| "loss": 1.4874852895736694, |
| "step": 2066 |
| }, |
| { |
| "epoch": 1.3786666666666667, |
| "grad_norm": 8.5, |
| "learning_rate": 3.607562327600904e-06, |
| "loss": 1.846003770828247, |
| "step": 2068 |
| }, |
| { |
| "epoch": 1.38, |
| "grad_norm": 12.4375, |
| "learning_rate": 3.5999621364261572e-06, |
| "loss": 1.7919820547103882, |
| "step": 2070 |
| }, |
| { |
| "epoch": 1.3813333333333333, |
| "grad_norm": 5.09375, |
| "learning_rate": 3.592372357259596e-06, |
| "loss": 0.9578616619110107, |
| "step": 2072 |
| }, |
| { |
| "epoch": 1.3826666666666667, |
| "grad_norm": 15.6875, |
| "learning_rate": 3.5847930254848793e-06, |
| "loss": 1.4702143669128418, |
| "step": 2074 |
| }, |
| { |
| "epoch": 1.384, |
| "grad_norm": 4.34375, |
| "learning_rate": 3.5772241764369596e-06, |
| "loss": 1.4963748455047607, |
| "step": 2076 |
| }, |
| { |
| "epoch": 1.3853333333333333, |
| "grad_norm": 18.5, |
| "learning_rate": 3.569665845401918e-06, |
| "loss": 1.9716095924377441, |
| "step": 2078 |
| }, |
| { |
| "epoch": 1.3866666666666667, |
| "grad_norm": 4.8125, |
| "learning_rate": 3.562118067616799e-06, |
| "loss": 1.4789984226226807, |
| "step": 2080 |
| }, |
| { |
| "epoch": 1.388, |
| "grad_norm": 4.4375, |
| "learning_rate": 3.5545808782694536e-06, |
| "loss": 1.2054288387298584, |
| "step": 2082 |
| }, |
| { |
| "epoch": 1.3893333333333333, |
| "grad_norm": 5.84375, |
| "learning_rate": 3.5470543124983634e-06, |
| "loss": 1.1057885885238647, |
| "step": 2084 |
| }, |
| { |
| "epoch": 1.3906666666666667, |
| "grad_norm": 4.65625, |
| "learning_rate": 3.5395384053924855e-06, |
| "loss": 1.513080358505249, |
| "step": 2086 |
| }, |
| { |
| "epoch": 1.392, |
| "grad_norm": 47.0, |
| "learning_rate": 3.5320331919910845e-06, |
| "loss": 1.6390080451965332, |
| "step": 2088 |
| }, |
| { |
| "epoch": 1.3933333333333333, |
| "grad_norm": 5.5625, |
| "learning_rate": 3.524538707283571e-06, |
| "loss": 1.4461960792541504, |
| "step": 2090 |
| }, |
| { |
| "epoch": 1.3946666666666667, |
| "grad_norm": 4.78125, |
| "learning_rate": 3.517054986209341e-06, |
| "loss": 1.4935176372528076, |
| "step": 2092 |
| }, |
| { |
| "epoch": 1.396, |
| "grad_norm": 4.375, |
| "learning_rate": 3.5095820636576072e-06, |
| "loss": 1.443993330001831, |
| "step": 2094 |
| }, |
| { |
| "epoch": 1.3973333333333333, |
| "grad_norm": 4.8125, |
| "learning_rate": 3.50211997446724e-06, |
| "loss": 1.4108878374099731, |
| "step": 2096 |
| }, |
| { |
| "epoch": 1.3986666666666667, |
| "grad_norm": 4.75, |
| "learning_rate": 3.4946687534266054e-06, |
| "loss": 0.2819749712944031, |
| "step": 2098 |
| }, |
| { |
| "epoch": 1.4, |
| "grad_norm": 4.5625, |
| "learning_rate": 3.487228435273402e-06, |
| "loss": 1.4009244441986084, |
| "step": 2100 |
| }, |
| { |
| "epoch": 1.4013333333333333, |
| "grad_norm": 5.40625, |
| "learning_rate": 3.4797990546944983e-06, |
| "loss": 1.5566036701202393, |
| "step": 2102 |
| }, |
| { |
| "epoch": 1.4026666666666667, |
| "grad_norm": 2.828125, |
| "learning_rate": 3.4723806463257713e-06, |
| "loss": 0.9677723050117493, |
| "step": 2104 |
| }, |
| { |
| "epoch": 1.404, |
| "grad_norm": 1.8125, |
| "learning_rate": 3.464973244751947e-06, |
| "loss": 1.0396676063537598, |
| "step": 2106 |
| }, |
| { |
| "epoch": 1.4053333333333333, |
| "grad_norm": 7.78125, |
| "learning_rate": 3.4575768845064356e-06, |
| "loss": 0.672480046749115, |
| "step": 2108 |
| }, |
| { |
| "epoch": 1.4066666666666667, |
| "grad_norm": 5.34375, |
| "learning_rate": 3.4501916000711745e-06, |
| "loss": 1.828851342201233, |
| "step": 2110 |
| }, |
| { |
| "epoch": 1.408, |
| "grad_norm": 1.6875, |
| "learning_rate": 3.442817425876463e-06, |
| "loss": 0.9009377956390381, |
| "step": 2112 |
| }, |
| { |
| "epoch": 1.4093333333333333, |
| "grad_norm": 4.9375, |
| "learning_rate": 3.435454396300807e-06, |
| "loss": 1.4665517807006836, |
| "step": 2114 |
| }, |
| { |
| "epoch": 1.4106666666666667, |
| "grad_norm": 9.625, |
| "learning_rate": 3.428102545670754e-06, |
| "loss": 1.377671718597412, |
| "step": 2116 |
| }, |
| { |
| "epoch": 1.412, |
| "grad_norm": 7.9375, |
| "learning_rate": 3.4207619082607365e-06, |
| "loss": 1.7818158864974976, |
| "step": 2118 |
| }, |
| { |
| "epoch": 1.4133333333333333, |
| "grad_norm": 4.90625, |
| "learning_rate": 3.4134325182929097e-06, |
| "loss": 1.503507137298584, |
| "step": 2120 |
| }, |
| { |
| "epoch": 1.4146666666666667, |
| "grad_norm": 8.4375, |
| "learning_rate": 3.406114409936992e-06, |
| "loss": 1.7001944780349731, |
| "step": 2122 |
| }, |
| { |
| "epoch": 1.416, |
| "grad_norm": 3.484375, |
| "learning_rate": 3.398807617310112e-06, |
| "loss": 1.341043472290039, |
| "step": 2124 |
| }, |
| { |
| "epoch": 1.4173333333333333, |
| "grad_norm": 12.75, |
| "learning_rate": 3.391512174476638e-06, |
| "loss": 1.7441976070404053, |
| "step": 2126 |
| }, |
| { |
| "epoch": 1.4186666666666667, |
| "grad_norm": 2.09375, |
| "learning_rate": 3.3842281154480294e-06, |
| "loss": 1.0459182262420654, |
| "step": 2128 |
| }, |
| { |
| "epoch": 1.42, |
| "grad_norm": 2.4375, |
| "learning_rate": 3.376955474182671e-06, |
| "loss": 1.1474944353103638, |
| "step": 2130 |
| }, |
| { |
| "epoch": 1.4213333333333333, |
| "grad_norm": 1.8359375, |
| "learning_rate": 3.3696942845857204e-06, |
| "loss": 0.9987665414810181, |
| "step": 2132 |
| }, |
| { |
| "epoch": 1.4226666666666667, |
| "grad_norm": 7.9375, |
| "learning_rate": 3.3624445805089475e-06, |
| "loss": 1.5011258125305176, |
| "step": 2134 |
| }, |
| { |
| "epoch": 1.424, |
| "grad_norm": 6.71875, |
| "learning_rate": 3.3552063957505733e-06, |
| "loss": 1.4670500755310059, |
| "step": 2136 |
| }, |
| { |
| "epoch": 1.4253333333333333, |
| "grad_norm": 3.8125, |
| "learning_rate": 3.347979764055117e-06, |
| "loss": 1.0144070386886597, |
| "step": 2138 |
| }, |
| { |
| "epoch": 1.4266666666666667, |
| "grad_norm": 6.625, |
| "learning_rate": 3.340764719113242e-06, |
| "loss": 1.4356119632720947, |
| "step": 2140 |
| }, |
| { |
| "epoch": 1.428, |
| "grad_norm": 5.96875, |
| "learning_rate": 3.3335612945615876e-06, |
| "loss": 1.3124582767486572, |
| "step": 2142 |
| }, |
| { |
| "epoch": 1.4293333333333333, |
| "grad_norm": 4.375, |
| "learning_rate": 3.3263695239826214e-06, |
| "loss": 1.4105291366577148, |
| "step": 2144 |
| }, |
| { |
| "epoch": 1.4306666666666668, |
| "grad_norm": 6.15625, |
| "learning_rate": 3.319189440904481e-06, |
| "loss": 1.1068024635314941, |
| "step": 2146 |
| }, |
| { |
| "epoch": 1.432, |
| "grad_norm": 7.53125, |
| "learning_rate": 3.3120210788008136e-06, |
| "loss": 1.413973093032837, |
| "step": 2148 |
| }, |
| { |
| "epoch": 1.4333333333333333, |
| "grad_norm": 7.78125, |
| "learning_rate": 3.3048644710906256e-06, |
| "loss": 1.8645330667495728, |
| "step": 2150 |
| }, |
| { |
| "epoch": 1.4346666666666668, |
| "grad_norm": 4.25, |
| "learning_rate": 3.297719651138125e-06, |
| "loss": 1.4282081127166748, |
| "step": 2152 |
| }, |
| { |
| "epoch": 1.436, |
| "grad_norm": 5.03125, |
| "learning_rate": 3.2905866522525613e-06, |
| "loss": 1.4378764629364014, |
| "step": 2154 |
| }, |
| { |
| "epoch": 1.4373333333333334, |
| "grad_norm": 7.5625, |
| "learning_rate": 3.2834655076880782e-06, |
| "loss": 1.5733673572540283, |
| "step": 2156 |
| }, |
| { |
| "epoch": 1.4386666666666668, |
| "grad_norm": 5.78125, |
| "learning_rate": 3.2763562506435528e-06, |
| "loss": 1.4891130924224854, |
| "step": 2158 |
| }, |
| { |
| "epoch": 1.44, |
| "grad_norm": 5.78125, |
| "learning_rate": 3.269258914262441e-06, |
| "loss": 1.2145038843154907, |
| "step": 2160 |
| }, |
| { |
| "epoch": 1.4413333333333334, |
| "grad_norm": 23.125, |
| "learning_rate": 3.2621735316326266e-06, |
| "loss": 1.4004946947097778, |
| "step": 2162 |
| }, |
| { |
| "epoch": 1.4426666666666668, |
| "grad_norm": 1.6171875, |
| "learning_rate": 3.2551001357862627e-06, |
| "loss": 1.1053515672683716, |
| "step": 2164 |
| }, |
| { |
| "epoch": 1.444, |
| "grad_norm": 4.78125, |
| "learning_rate": 3.2480387596996223e-06, |
| "loss": 1.8382079601287842, |
| "step": 2166 |
| }, |
| { |
| "epoch": 1.4453333333333334, |
| "grad_norm": 4.96875, |
| "learning_rate": 3.2409894362929406e-06, |
| "loss": 1.4433636665344238, |
| "step": 2168 |
| }, |
| { |
| "epoch": 1.4466666666666668, |
| "grad_norm": 0.9140625, |
| "learning_rate": 3.2339521984302626e-06, |
| "loss": 1.1521646976470947, |
| "step": 2170 |
| }, |
| { |
| "epoch": 1.448, |
| "grad_norm": 5.96875, |
| "learning_rate": 3.226927078919291e-06, |
| "loss": 1.301585078239441, |
| "step": 2172 |
| }, |
| { |
| "epoch": 1.4493333333333334, |
| "grad_norm": 4.96875, |
| "learning_rate": 3.219914110511233e-06, |
| "loss": 1.490642786026001, |
| "step": 2174 |
| }, |
| { |
| "epoch": 1.4506666666666668, |
| "grad_norm": 5.75, |
| "learning_rate": 3.2129133259006486e-06, |
| "loss": 1.6394309997558594, |
| "step": 2176 |
| }, |
| { |
| "epoch": 1.452, |
| "grad_norm": 3.421875, |
| "learning_rate": 3.205924757725292e-06, |
| "loss": 1.0423762798309326, |
| "step": 2178 |
| }, |
| { |
| "epoch": 1.4533333333333334, |
| "grad_norm": 5.6875, |
| "learning_rate": 3.1989484385659677e-06, |
| "loss": 1.7373323440551758, |
| "step": 2180 |
| }, |
| { |
| "epoch": 1.4546666666666668, |
| "grad_norm": 4.875, |
| "learning_rate": 3.1919844009463754e-06, |
| "loss": 1.458338737487793, |
| "step": 2182 |
| }, |
| { |
| "epoch": 1.456, |
| "grad_norm": 8.75, |
| "learning_rate": 3.1850326773329575e-06, |
| "loss": 1.4843109846115112, |
| "step": 2184 |
| }, |
| { |
| "epoch": 1.4573333333333334, |
| "grad_norm": 4.0625, |
| "learning_rate": 3.178093300134747e-06, |
| "loss": 1.337432861328125, |
| "step": 2186 |
| }, |
| { |
| "epoch": 1.4586666666666668, |
| "grad_norm": 4.71875, |
| "learning_rate": 3.171166301703219e-06, |
| "loss": 1.4174573421478271, |
| "step": 2188 |
| }, |
| { |
| "epoch": 1.46, |
| "grad_norm": 4.46875, |
| "learning_rate": 3.164251714332139e-06, |
| "loss": 1.3681509494781494, |
| "step": 2190 |
| }, |
| { |
| "epoch": 1.4613333333333334, |
| "grad_norm": 13.625, |
| "learning_rate": 3.157349570257411e-06, |
| "loss": 1.7669622898101807, |
| "step": 2192 |
| }, |
| { |
| "epoch": 1.4626666666666668, |
| "grad_norm": 4.1875, |
| "learning_rate": 3.150459901656928e-06, |
| "loss": 1.6402667760849, |
| "step": 2194 |
| }, |
| { |
| "epoch": 1.464, |
| "grad_norm": 20.375, |
| "learning_rate": 3.143582740650424e-06, |
| "loss": 1.362139105796814, |
| "step": 2196 |
| }, |
| { |
| "epoch": 1.4653333333333334, |
| "grad_norm": 6.4375, |
| "learning_rate": 3.1367181192993196e-06, |
| "loss": 0.37001797556877136, |
| "step": 2198 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 7.21875, |
| "learning_rate": 3.1298660696065776e-06, |
| "loss": 1.3908202648162842, |
| "step": 2200 |
| }, |
| { |
| "epoch": 1.468, |
| "grad_norm": 4.71875, |
| "learning_rate": 3.1230266235165517e-06, |
| "loss": 1.643039345741272, |
| "step": 2202 |
| }, |
| { |
| "epoch": 1.4693333333333334, |
| "grad_norm": 3.34375, |
| "learning_rate": 3.116199812914835e-06, |
| "loss": 1.1279222965240479, |
| "step": 2204 |
| }, |
| { |
| "epoch": 1.4706666666666668, |
| "grad_norm": 6.03125, |
| "learning_rate": 3.1093856696281154e-06, |
| "loss": 1.4094611406326294, |
| "step": 2206 |
| }, |
| { |
| "epoch": 1.472, |
| "grad_norm": 13.0, |
| "learning_rate": 3.102584225424028e-06, |
| "loss": 1.4117114543914795, |
| "step": 2208 |
| }, |
| { |
| "epoch": 1.4733333333333334, |
| "grad_norm": 9.3125, |
| "learning_rate": 3.095795512010998e-06, |
| "loss": 1.4297616481781006, |
| "step": 2210 |
| }, |
| { |
| "epoch": 1.4746666666666668, |
| "grad_norm": 10.0625, |
| "learning_rate": 3.089019561038108e-06, |
| "loss": 1.983637809753418, |
| "step": 2212 |
| }, |
| { |
| "epoch": 1.476, |
| "grad_norm": 2.1875, |
| "learning_rate": 3.082256404094933e-06, |
| "loss": 1.0336921215057373, |
| "step": 2214 |
| }, |
| { |
| "epoch": 1.4773333333333334, |
| "grad_norm": 5.375, |
| "learning_rate": 3.07550607271141e-06, |
| "loss": 1.388633370399475, |
| "step": 2216 |
| }, |
| { |
| "epoch": 1.4786666666666668, |
| "grad_norm": 4.6875, |
| "learning_rate": 3.0687685983576787e-06, |
| "loss": 1.4226921796798706, |
| "step": 2218 |
| }, |
| { |
| "epoch": 1.48, |
| "grad_norm": 4.1875, |
| "learning_rate": 3.0620440124439398e-06, |
| "loss": 1.406280517578125, |
| "step": 2220 |
| }, |
| { |
| "epoch": 1.4813333333333334, |
| "grad_norm": 5.40625, |
| "learning_rate": 3.0553323463203085e-06, |
| "loss": 1.629976511001587, |
| "step": 2222 |
| }, |
| { |
| "epoch": 1.4826666666666668, |
| "grad_norm": 6.21875, |
| "learning_rate": 3.0486336312766673e-06, |
| "loss": 1.1256341934204102, |
| "step": 2224 |
| }, |
| { |
| "epoch": 1.484, |
| "grad_norm": 15.0, |
| "learning_rate": 3.04194789854252e-06, |
| "loss": 1.6569780111312866, |
| "step": 2226 |
| }, |
| { |
| "epoch": 1.4853333333333334, |
| "grad_norm": 6.15625, |
| "learning_rate": 3.0352751792868484e-06, |
| "loss": 1.3926656246185303, |
| "step": 2228 |
| }, |
| { |
| "epoch": 1.4866666666666668, |
| "grad_norm": 7.9375, |
| "learning_rate": 3.0286155046179622e-06, |
| "loss": 1.872004508972168, |
| "step": 2230 |
| }, |
| { |
| "epoch": 1.488, |
| "grad_norm": 4.15625, |
| "learning_rate": 3.0219689055833624e-06, |
| "loss": 1.436002492904663, |
| "step": 2232 |
| }, |
| { |
| "epoch": 1.4893333333333334, |
| "grad_norm": 10.8125, |
| "learning_rate": 3.0153354131695868e-06, |
| "loss": 1.5085735321044922, |
| "step": 2234 |
| }, |
| { |
| "epoch": 1.4906666666666666, |
| "grad_norm": 12.0625, |
| "learning_rate": 3.00871505830207e-06, |
| "loss": 1.8725166320800781, |
| "step": 2236 |
| }, |
| { |
| "epoch": 1.492, |
| "grad_norm": 9.9375, |
| "learning_rate": 3.0021078718450012e-06, |
| "loss": 1.08853280544281, |
| "step": 2238 |
| }, |
| { |
| "epoch": 1.4933333333333334, |
| "grad_norm": 1.890625, |
| "learning_rate": 2.9955138846011765e-06, |
| "loss": 0.9658834338188171, |
| "step": 2240 |
| }, |
| { |
| "epoch": 1.4946666666666666, |
| "grad_norm": 4.59375, |
| "learning_rate": 2.988933127311859e-06, |
| "loss": 1.451707363128662, |
| "step": 2242 |
| }, |
| { |
| "epoch": 1.496, |
| "grad_norm": 36.0, |
| "learning_rate": 2.9823656306566327e-06, |
| "loss": 1.749687671661377, |
| "step": 2244 |
| }, |
| { |
| "epoch": 1.4973333333333334, |
| "grad_norm": 2.0, |
| "learning_rate": 2.975811425253259e-06, |
| "loss": 1.0534790754318237, |
| "step": 2246 |
| }, |
| { |
| "epoch": 1.4986666666666666, |
| "grad_norm": 2.109375, |
| "learning_rate": 2.9692705416575363e-06, |
| "loss": 1.0871453285217285, |
| "step": 2248 |
| }, |
| { |
| "epoch": 1.5, |
| "grad_norm": 3.90625, |
| "learning_rate": 2.9627430103631573e-06, |
| "loss": 1.4621355533599854, |
| "step": 2250 |
| }, |
| { |
| "epoch": 1.5013333333333332, |
| "grad_norm": 10.6875, |
| "learning_rate": 2.9562288618015656e-06, |
| "loss": 1.805877447128296, |
| "step": 2252 |
| }, |
| { |
| "epoch": 1.5026666666666668, |
| "grad_norm": 2.765625, |
| "learning_rate": 2.949728126341813e-06, |
| "loss": 1.0431222915649414, |
| "step": 2254 |
| }, |
| { |
| "epoch": 1.504, |
| "grad_norm": 13.4375, |
| "learning_rate": 2.9432408342904223e-06, |
| "loss": 1.9408483505249023, |
| "step": 2256 |
| }, |
| { |
| "epoch": 1.5053333333333332, |
| "grad_norm": 29.375, |
| "learning_rate": 2.93676701589124e-06, |
| "loss": 1.790807843208313, |
| "step": 2258 |
| }, |
| { |
| "epoch": 1.5066666666666668, |
| "grad_norm": 2.078125, |
| "learning_rate": 2.9303067013252985e-06, |
| "loss": 1.0748181343078613, |
| "step": 2260 |
| }, |
| { |
| "epoch": 1.508, |
| "grad_norm": 7.59375, |
| "learning_rate": 2.9238599207106775e-06, |
| "loss": 1.8455153703689575, |
| "step": 2262 |
| }, |
| { |
| "epoch": 1.5093333333333332, |
| "grad_norm": 3.375, |
| "learning_rate": 2.9174267041023564e-06, |
| "loss": 1.113965630531311, |
| "step": 2264 |
| }, |
| { |
| "epoch": 1.5106666666666668, |
| "grad_norm": 5.9375, |
| "learning_rate": 2.911007081492087e-06, |
| "loss": 1.4975740909576416, |
| "step": 2266 |
| }, |
| { |
| "epoch": 1.512, |
| "grad_norm": 4.90625, |
| "learning_rate": 2.9046010828082384e-06, |
| "loss": 1.4789996147155762, |
| "step": 2268 |
| }, |
| { |
| "epoch": 1.5133333333333332, |
| "grad_norm": 3.203125, |
| "learning_rate": 2.898208737915667e-06, |
| "loss": 1.4293715953826904, |
| "step": 2270 |
| }, |
| { |
| "epoch": 1.5146666666666668, |
| "grad_norm": 1.1484375, |
| "learning_rate": 2.891830076615576e-06, |
| "loss": 0.9513505697250366, |
| "step": 2272 |
| }, |
| { |
| "epoch": 1.516, |
| "grad_norm": 2.234375, |
| "learning_rate": 2.885465128645375e-06, |
| "loss": 1.0323138236999512, |
| "step": 2274 |
| }, |
| { |
| "epoch": 1.5173333333333332, |
| "grad_norm": 7.3125, |
| "learning_rate": 2.87911392367854e-06, |
| "loss": 2.013789176940918, |
| "step": 2276 |
| }, |
| { |
| "epoch": 1.5186666666666668, |
| "grad_norm": 24.0, |
| "learning_rate": 2.8727764913244816e-06, |
| "loss": 1.6063106060028076, |
| "step": 2278 |
| }, |
| { |
| "epoch": 1.52, |
| "grad_norm": 6.40625, |
| "learning_rate": 2.8664528611283966e-06, |
| "loss": 1.9662723541259766, |
| "step": 2280 |
| }, |
| { |
| "epoch": 1.5213333333333332, |
| "grad_norm": 3.125, |
| "learning_rate": 2.86014306257114e-06, |
| "loss": 1.2432258129119873, |
| "step": 2282 |
| }, |
| { |
| "epoch": 1.5226666666666666, |
| "grad_norm": 4.96875, |
| "learning_rate": 2.8538471250690813e-06, |
| "loss": 0.9860575795173645, |
| "step": 2284 |
| }, |
| { |
| "epoch": 1.524, |
| "grad_norm": 6.40625, |
| "learning_rate": 2.8475650779739717e-06, |
| "loss": 1.7175216674804688, |
| "step": 2286 |
| }, |
| { |
| "epoch": 1.5253333333333332, |
| "grad_norm": 6.90625, |
| "learning_rate": 2.841296950572802e-06, |
| "loss": 1.449406385421753, |
| "step": 2288 |
| }, |
| { |
| "epoch": 1.5266666666666666, |
| "grad_norm": 8.4375, |
| "learning_rate": 2.8350427720876727e-06, |
| "loss": 0.9427869319915771, |
| "step": 2290 |
| }, |
| { |
| "epoch": 1.528, |
| "grad_norm": 1.4609375, |
| "learning_rate": 2.828802571675652e-06, |
| "loss": 1.0794901847839355, |
| "step": 2292 |
| }, |
| { |
| "epoch": 1.5293333333333332, |
| "grad_norm": 6.3125, |
| "learning_rate": 2.822576378428642e-06, |
| "loss": 1.6682031154632568, |
| "step": 2294 |
| }, |
| { |
| "epoch": 1.5306666666666666, |
| "grad_norm": 3.96875, |
| "learning_rate": 2.816364221373245e-06, |
| "loss": 1.405712366104126, |
| "step": 2296 |
| }, |
| { |
| "epoch": 1.532, |
| "grad_norm": 1.65625, |
| "learning_rate": 2.8101661294706247e-06, |
| "loss": 1.0830612182617188, |
| "step": 2298 |
| }, |
| { |
| "epoch": 1.5333333333333332, |
| "grad_norm": 3.34375, |
| "learning_rate": 2.803982131616373e-06, |
| "loss": 1.1465742588043213, |
| "step": 2300 |
| }, |
| { |
| "epoch": 1.5346666666666666, |
| "grad_norm": 8.5625, |
| "learning_rate": 2.7978122566403765e-06, |
| "loss": 1.5894464254379272, |
| "step": 2302 |
| }, |
| { |
| "epoch": 1.536, |
| "grad_norm": 1.875, |
| "learning_rate": 2.7916565333066794e-06, |
| "loss": 1.0847280025482178, |
| "step": 2304 |
| }, |
| { |
| "epoch": 1.5373333333333332, |
| "grad_norm": 14.6875, |
| "learning_rate": 2.7855149903133495e-06, |
| "loss": 1.853139042854309, |
| "step": 2306 |
| }, |
| { |
| "epoch": 1.5386666666666666, |
| "grad_norm": 1.1484375, |
| "learning_rate": 2.7793876562923506e-06, |
| "loss": 1.1526024341583252, |
| "step": 2308 |
| }, |
| { |
| "epoch": 1.54, |
| "grad_norm": 3.921875, |
| "learning_rate": 2.773274559809399e-06, |
| "loss": 1.640642523765564, |
| "step": 2310 |
| }, |
| { |
| "epoch": 1.5413333333333332, |
| "grad_norm": 13.4375, |
| "learning_rate": 2.7671757293638374e-06, |
| "loss": 1.776177167892456, |
| "step": 2312 |
| }, |
| { |
| "epoch": 1.5426666666666666, |
| "grad_norm": 4.90625, |
| "learning_rate": 2.7610911933885e-06, |
| "loss": 1.8069844245910645, |
| "step": 2314 |
| }, |
| { |
| "epoch": 1.544, |
| "grad_norm": 4.75, |
| "learning_rate": 2.7550209802495793e-06, |
| "loss": 1.4899930953979492, |
| "step": 2316 |
| }, |
| { |
| "epoch": 1.5453333333333332, |
| "grad_norm": 9.625, |
| "learning_rate": 2.748965118246495e-06, |
| "loss": 1.6268222332000732, |
| "step": 2318 |
| }, |
| { |
| "epoch": 1.5466666666666666, |
| "grad_norm": 7.8125, |
| "learning_rate": 2.742923635611761e-06, |
| "loss": 0.3517189025878906, |
| "step": 2320 |
| }, |
| { |
| "epoch": 1.548, |
| "grad_norm": 6.09375, |
| "learning_rate": 2.7368965605108572e-06, |
| "loss": 1.4472923278808594, |
| "step": 2322 |
| }, |
| { |
| "epoch": 1.5493333333333332, |
| "grad_norm": 10.625, |
| "learning_rate": 2.7308839210420916e-06, |
| "loss": 1.850784182548523, |
| "step": 2324 |
| }, |
| { |
| "epoch": 1.5506666666666666, |
| "grad_norm": 8.4375, |
| "learning_rate": 2.7248857452364753e-06, |
| "loss": 1.9480905532836914, |
| "step": 2326 |
| }, |
| { |
| "epoch": 1.552, |
| "grad_norm": 19.125, |
| "learning_rate": 2.7189020610575877e-06, |
| "loss": 1.6485257148742676, |
| "step": 2328 |
| }, |
| { |
| "epoch": 1.5533333333333332, |
| "grad_norm": 7.375, |
| "learning_rate": 2.7129328964014506e-06, |
| "loss": 1.5316224098205566, |
| "step": 2330 |
| }, |
| { |
| "epoch": 1.5546666666666666, |
| "grad_norm": 9.1875, |
| "learning_rate": 2.706978279096394e-06, |
| "loss": 1.7249939441680908, |
| "step": 2332 |
| }, |
| { |
| "epoch": 1.556, |
| "grad_norm": 10.0625, |
| "learning_rate": 2.7010382369029277e-06, |
| "loss": 1.7890774011611938, |
| "step": 2334 |
| }, |
| { |
| "epoch": 1.5573333333333332, |
| "grad_norm": 3.890625, |
| "learning_rate": 2.6951127975136132e-06, |
| "loss": 1.4425702095031738, |
| "step": 2336 |
| }, |
| { |
| "epoch": 1.5586666666666666, |
| "grad_norm": 3.265625, |
| "learning_rate": 2.6892019885529326e-06, |
| "loss": 1.1990939378738403, |
| "step": 2338 |
| }, |
| { |
| "epoch": 1.56, |
| "grad_norm": 13.125, |
| "learning_rate": 2.6833058375771616e-06, |
| "loss": 0.30556273460388184, |
| "step": 2340 |
| }, |
| { |
| "epoch": 1.5613333333333332, |
| "grad_norm": 6.625, |
| "learning_rate": 2.677424372074238e-06, |
| "loss": 0.2589426338672638, |
| "step": 2342 |
| }, |
| { |
| "epoch": 1.5626666666666666, |
| "grad_norm": 12.625, |
| "learning_rate": 2.6715576194636397e-06, |
| "loss": 0.6587238311767578, |
| "step": 2344 |
| }, |
| { |
| "epoch": 1.564, |
| "grad_norm": 5.875, |
| "learning_rate": 2.665705607096249e-06, |
| "loss": 1.3843997716903687, |
| "step": 2346 |
| }, |
| { |
| "epoch": 1.5653333333333332, |
| "grad_norm": 4.6875, |
| "learning_rate": 2.6598683622542314e-06, |
| "loss": 1.3836545944213867, |
| "step": 2348 |
| }, |
| { |
| "epoch": 1.5666666666666667, |
| "grad_norm": 4.3125, |
| "learning_rate": 2.6540459121509044e-06, |
| "loss": 1.3984098434448242, |
| "step": 2350 |
| }, |
| { |
| "epoch": 1.568, |
| "grad_norm": 6.5, |
| "learning_rate": 2.648238283930613e-06, |
| "loss": 1.9189105033874512, |
| "step": 2352 |
| }, |
| { |
| "epoch": 1.5693333333333332, |
| "grad_norm": 1.1484375, |
| "learning_rate": 2.6424455046686027e-06, |
| "loss": 1.0379087924957275, |
| "step": 2354 |
| }, |
| { |
| "epoch": 1.5706666666666667, |
| "grad_norm": 5.53125, |
| "learning_rate": 2.6366676013708914e-06, |
| "loss": 1.41304612159729, |
| "step": 2356 |
| }, |
| { |
| "epoch": 1.572, |
| "grad_norm": 6.1875, |
| "learning_rate": 2.630904600974148e-06, |
| "loss": 1.3908233642578125, |
| "step": 2358 |
| }, |
| { |
| "epoch": 1.5733333333333333, |
| "grad_norm": 3.953125, |
| "learning_rate": 2.625156530345562e-06, |
| "loss": 1.4623103141784668, |
| "step": 2360 |
| }, |
| { |
| "epoch": 1.5746666666666667, |
| "grad_norm": 4.46875, |
| "learning_rate": 2.619423416282718e-06, |
| "loss": 1.4510695934295654, |
| "step": 2362 |
| }, |
| { |
| "epoch": 1.576, |
| "grad_norm": 9.875, |
| "learning_rate": 2.6137052855134774e-06, |
| "loss": 1.482946515083313, |
| "step": 2364 |
| }, |
| { |
| "epoch": 1.5773333333333333, |
| "grad_norm": 5.96875, |
| "learning_rate": 2.6080021646958457e-06, |
| "loss": 1.3805418014526367, |
| "step": 2366 |
| }, |
| { |
| "epoch": 1.5786666666666667, |
| "grad_norm": 5.3125, |
| "learning_rate": 2.6023140804178544e-06, |
| "loss": 1.3469185829162598, |
| "step": 2368 |
| }, |
| { |
| "epoch": 1.58, |
| "grad_norm": 14.25, |
| "learning_rate": 2.5966410591974305e-06, |
| "loss": 1.736164927482605, |
| "step": 2370 |
| }, |
| { |
| "epoch": 1.5813333333333333, |
| "grad_norm": 3.453125, |
| "learning_rate": 2.5909831274822817e-06, |
| "loss": 1.4436497688293457, |
| "step": 2372 |
| }, |
| { |
| "epoch": 1.5826666666666667, |
| "grad_norm": 6.25, |
| "learning_rate": 2.5853403116497643e-06, |
| "loss": 1.5656664371490479, |
| "step": 2374 |
| }, |
| { |
| "epoch": 1.584, |
| "grad_norm": 2.328125, |
| "learning_rate": 2.5797126380067665e-06, |
| "loss": 0.9541326761245728, |
| "step": 2376 |
| }, |
| { |
| "epoch": 1.5853333333333333, |
| "grad_norm": 4.0, |
| "learning_rate": 2.574100132789583e-06, |
| "loss": 1.3982048034667969, |
| "step": 2378 |
| }, |
| { |
| "epoch": 1.5866666666666667, |
| "grad_norm": 16.625, |
| "learning_rate": 2.568502822163792e-06, |
| "loss": 1.7485718727111816, |
| "step": 2380 |
| }, |
| { |
| "epoch": 1.588, |
| "grad_norm": 5.875, |
| "learning_rate": 2.562920732224136e-06, |
| "loss": 1.3504984378814697, |
| "step": 2382 |
| }, |
| { |
| "epoch": 1.5893333333333333, |
| "grad_norm": 9.3125, |
| "learning_rate": 2.5573538889943954e-06, |
| "loss": 1.785373568534851, |
| "step": 2384 |
| }, |
| { |
| "epoch": 1.5906666666666667, |
| "grad_norm": 8.5625, |
| "learning_rate": 2.5518023184272743e-06, |
| "loss": 1.9697847366333008, |
| "step": 2386 |
| }, |
| { |
| "epoch": 1.592, |
| "grad_norm": 9.25, |
| "learning_rate": 2.5462660464042727e-06, |
| "loss": 1.0236709117889404, |
| "step": 2388 |
| }, |
| { |
| "epoch": 1.5933333333333333, |
| "grad_norm": 4.15625, |
| "learning_rate": 2.5407450987355685e-06, |
| "loss": 1.4823676347732544, |
| "step": 2390 |
| }, |
| { |
| "epoch": 1.5946666666666667, |
| "grad_norm": 6.28125, |
| "learning_rate": 2.5352395011598994e-06, |
| "loss": 1.4814116954803467, |
| "step": 2392 |
| }, |
| { |
| "epoch": 1.596, |
| "grad_norm": 6.21875, |
| "learning_rate": 2.529749279344439e-06, |
| "loss": 1.400189757347107, |
| "step": 2394 |
| }, |
| { |
| "epoch": 1.5973333333333333, |
| "grad_norm": 6.75, |
| "learning_rate": 2.524274458884678e-06, |
| "loss": 1.6907062530517578, |
| "step": 2396 |
| }, |
| { |
| "epoch": 1.5986666666666667, |
| "grad_norm": 4.25, |
| "learning_rate": 2.5188150653043074e-06, |
| "loss": 1.136069655418396, |
| "step": 2398 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 5.28125, |
| "learning_rate": 2.513371124055099e-06, |
| "loss": 1.4196181297302246, |
| "step": 2400 |
| }, |
| { |
| "epoch": 1.6013333333333333, |
| "grad_norm": 12.1875, |
| "learning_rate": 2.507942660516783e-06, |
| "loss": 2.027644634246826, |
| "step": 2402 |
| }, |
| { |
| "epoch": 1.6026666666666667, |
| "grad_norm": 2.53125, |
| "learning_rate": 2.502529699996934e-06, |
| "loss": 1.0022658109664917, |
| "step": 2404 |
| }, |
| { |
| "epoch": 1.604, |
| "grad_norm": 3.59375, |
| "learning_rate": 2.4971322677308497e-06, |
| "loss": 1.209780216217041, |
| "step": 2406 |
| }, |
| { |
| "epoch": 1.6053333333333333, |
| "grad_norm": 7.25, |
| "learning_rate": 2.4917503888814365e-06, |
| "loss": 1.387068510055542, |
| "step": 2408 |
| }, |
| { |
| "epoch": 1.6066666666666667, |
| "grad_norm": 8.5, |
| "learning_rate": 2.486384088539089e-06, |
| "loss": 1.4092319011688232, |
| "step": 2410 |
| }, |
| { |
| "epoch": 1.608, |
| "grad_norm": 3.953125, |
| "learning_rate": 2.481033391721577e-06, |
| "loss": 1.4629402160644531, |
| "step": 2412 |
| }, |
| { |
| "epoch": 1.6093333333333333, |
| "grad_norm": 3.015625, |
| "learning_rate": 2.475698323373924e-06, |
| "loss": 1.043999195098877, |
| "step": 2414 |
| }, |
| { |
| "epoch": 1.6106666666666667, |
| "grad_norm": 4.09375, |
| "learning_rate": 2.4703789083682944e-06, |
| "loss": 1.3914482593536377, |
| "step": 2416 |
| }, |
| { |
| "epoch": 1.612, |
| "grad_norm": 5.5625, |
| "learning_rate": 2.4650751715038768e-06, |
| "loss": 1.493814468383789, |
| "step": 2418 |
| }, |
| { |
| "epoch": 1.6133333333333333, |
| "grad_norm": 10.75, |
| "learning_rate": 2.459787137506767e-06, |
| "loss": 1.7154039144515991, |
| "step": 2420 |
| }, |
| { |
| "epoch": 1.6146666666666667, |
| "grad_norm": 6.90625, |
| "learning_rate": 2.454514831029855e-06, |
| "loss": 1.6474536657333374, |
| "step": 2422 |
| }, |
| { |
| "epoch": 1.616, |
| "grad_norm": 6.84375, |
| "learning_rate": 2.4492582766527078e-06, |
| "loss": 1.450832724571228, |
| "step": 2424 |
| }, |
| { |
| "epoch": 1.6173333333333333, |
| "grad_norm": 5.59375, |
| "learning_rate": 2.4440174988814568e-06, |
| "loss": 1.742751121520996, |
| "step": 2426 |
| }, |
| { |
| "epoch": 1.6186666666666667, |
| "grad_norm": 7.6875, |
| "learning_rate": 2.4387925221486827e-06, |
| "loss": 1.7559263706207275, |
| "step": 2428 |
| }, |
| { |
| "epoch": 1.62, |
| "grad_norm": 6.96875, |
| "learning_rate": 2.4335833708133006e-06, |
| "loss": 1.4377044439315796, |
| "step": 2430 |
| }, |
| { |
| "epoch": 1.6213333333333333, |
| "grad_norm": 9.75, |
| "learning_rate": 2.4283900691604473e-06, |
| "loss": 1.8848496675491333, |
| "step": 2432 |
| }, |
| { |
| "epoch": 1.6226666666666667, |
| "grad_norm": 2.296875, |
| "learning_rate": 2.42321264140137e-06, |
| "loss": 1.1043641567230225, |
| "step": 2434 |
| }, |
| { |
| "epoch": 1.624, |
| "grad_norm": 6.90625, |
| "learning_rate": 2.418051111673309e-06, |
| "loss": 0.5369839668273926, |
| "step": 2436 |
| }, |
| { |
| "epoch": 1.6253333333333333, |
| "grad_norm": 4.28125, |
| "learning_rate": 2.41290550403939e-06, |
| "loss": 1.3874391317367554, |
| "step": 2438 |
| }, |
| { |
| "epoch": 1.6266666666666667, |
| "grad_norm": 8.875, |
| "learning_rate": 2.4077758424885088e-06, |
| "loss": 1.876328945159912, |
| "step": 2440 |
| }, |
| { |
| "epoch": 1.6280000000000001, |
| "grad_norm": 4.9375, |
| "learning_rate": 2.40266215093522e-06, |
| "loss": 1.4870532751083374, |
| "step": 2442 |
| }, |
| { |
| "epoch": 1.6293333333333333, |
| "grad_norm": 4.8125, |
| "learning_rate": 2.3975644532196257e-06, |
| "loss": 1.5786141157150269, |
| "step": 2444 |
| }, |
| { |
| "epoch": 1.6306666666666667, |
| "grad_norm": 4.59375, |
| "learning_rate": 2.3924827731072653e-06, |
| "loss": 1.3795560598373413, |
| "step": 2446 |
| }, |
| { |
| "epoch": 1.6320000000000001, |
| "grad_norm": 3.9375, |
| "learning_rate": 2.387417134289003e-06, |
| "loss": 1.4442157745361328, |
| "step": 2448 |
| }, |
| { |
| "epoch": 1.6333333333333333, |
| "grad_norm": 4.15625, |
| "learning_rate": 2.3823675603809204e-06, |
| "loss": 1.1016851663589478, |
| "step": 2450 |
| }, |
| { |
| "epoch": 1.6346666666666667, |
| "grad_norm": 1.3046875, |
| "learning_rate": 2.3773340749242013e-06, |
| "loss": 1.1123661994934082, |
| "step": 2452 |
| }, |
| { |
| "epoch": 1.6360000000000001, |
| "grad_norm": 22.5, |
| "learning_rate": 2.372316701385027e-06, |
| "loss": 1.596160650253296, |
| "step": 2454 |
| }, |
| { |
| "epoch": 1.6373333333333333, |
| "grad_norm": 1.4296875, |
| "learning_rate": 2.3673154631544633e-06, |
| "loss": 1.108832597732544, |
| "step": 2456 |
| }, |
| { |
| "epoch": 1.6386666666666667, |
| "grad_norm": 7.375, |
| "learning_rate": 2.362330383548354e-06, |
| "loss": 1.0658042430877686, |
| "step": 2458 |
| }, |
| { |
| "epoch": 1.6400000000000001, |
| "grad_norm": 1.59375, |
| "learning_rate": 2.3573614858072114e-06, |
| "loss": 1.0907118320465088, |
| "step": 2460 |
| }, |
| { |
| "epoch": 1.6413333333333333, |
| "grad_norm": 6.9375, |
| "learning_rate": 2.352408793096107e-06, |
| "loss": 1.954852819442749, |
| "step": 2462 |
| }, |
| { |
| "epoch": 1.6426666666666667, |
| "grad_norm": 5.9375, |
| "learning_rate": 2.3474723285045635e-06, |
| "loss": 1.7443487644195557, |
| "step": 2464 |
| }, |
| { |
| "epoch": 1.6440000000000001, |
| "grad_norm": 23.5, |
| "learning_rate": 2.3425521150464503e-06, |
| "loss": 1.8608548641204834, |
| "step": 2466 |
| }, |
| { |
| "epoch": 1.6453333333333333, |
| "grad_norm": 7.65625, |
| "learning_rate": 2.337648175659872e-06, |
| "loss": 1.4043128490447998, |
| "step": 2468 |
| }, |
| { |
| "epoch": 1.6466666666666665, |
| "grad_norm": 4.6875, |
| "learning_rate": 2.3327605332070617e-06, |
| "loss": 1.343397855758667, |
| "step": 2470 |
| }, |
| { |
| "epoch": 1.6480000000000001, |
| "grad_norm": 10.25, |
| "learning_rate": 2.3278892104742807e-06, |
| "loss": 0.842422366142273, |
| "step": 2472 |
| }, |
| { |
| "epoch": 1.6493333333333333, |
| "grad_norm": 7.75, |
| "learning_rate": 2.3230342301717024e-06, |
| "loss": 1.8031508922576904, |
| "step": 2474 |
| }, |
| { |
| "epoch": 1.6506666666666665, |
| "grad_norm": 18.375, |
| "learning_rate": 2.3181956149333156e-06, |
| "loss": 1.7317943572998047, |
| "step": 2476 |
| }, |
| { |
| "epoch": 1.6520000000000001, |
| "grad_norm": 7.09375, |
| "learning_rate": 2.3133733873168114e-06, |
| "loss": 1.8046625852584839, |
| "step": 2478 |
| }, |
| { |
| "epoch": 1.6533333333333333, |
| "grad_norm": 2.359375, |
| "learning_rate": 2.308567569803484e-06, |
| "loss": 1.0550050735473633, |
| "step": 2480 |
| }, |
| { |
| "epoch": 1.6546666666666665, |
| "grad_norm": 4.9375, |
| "learning_rate": 2.3037781847981235e-06, |
| "loss": 1.4496147632598877, |
| "step": 2482 |
| }, |
| { |
| "epoch": 1.6560000000000001, |
| "grad_norm": 3.0, |
| "learning_rate": 2.2990052546289094e-06, |
| "loss": 1.0837609767913818, |
| "step": 2484 |
| }, |
| { |
| "epoch": 1.6573333333333333, |
| "grad_norm": 5.6875, |
| "learning_rate": 2.2942488015473106e-06, |
| "loss": 1.8502864837646484, |
| "step": 2486 |
| }, |
| { |
| "epoch": 1.6586666666666665, |
| "grad_norm": 4.65625, |
| "learning_rate": 2.2895088477279794e-06, |
| "loss": 0.961652934551239, |
| "step": 2488 |
| }, |
| { |
| "epoch": 1.6600000000000001, |
| "grad_norm": 4.3125, |
| "learning_rate": 2.2847854152686457e-06, |
| "loss": 1.491590976715088, |
| "step": 2490 |
| }, |
| { |
| "epoch": 1.6613333333333333, |
| "grad_norm": 5.0, |
| "learning_rate": 2.2800785261900206e-06, |
| "loss": 1.4915618896484375, |
| "step": 2492 |
| }, |
| { |
| "epoch": 1.6626666666666665, |
| "grad_norm": 9.3125, |
| "learning_rate": 2.2753882024356875e-06, |
| "loss": 1.7863433361053467, |
| "step": 2494 |
| }, |
| { |
| "epoch": 1.6640000000000001, |
| "grad_norm": 2.109375, |
| "learning_rate": 2.2707144658720013e-06, |
| "loss": 1.0995452404022217, |
| "step": 2496 |
| }, |
| { |
| "epoch": 1.6653333333333333, |
| "grad_norm": 8.8125, |
| "learning_rate": 2.2660573382879893e-06, |
| "loss": 1.6946117877960205, |
| "step": 2498 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "grad_norm": 5.3125, |
| "learning_rate": 2.261416841395245e-06, |
| "loss": 1.5551875829696655, |
| "step": 2500 |
| }, |
| { |
| "epoch": 1.6680000000000001, |
| "grad_norm": 9.75, |
| "learning_rate": 2.256792996827831e-06, |
| "loss": 1.8907060623168945, |
| "step": 2502 |
| }, |
| { |
| "epoch": 1.6693333333333333, |
| "grad_norm": 2.234375, |
| "learning_rate": 2.2521858261421773e-06, |
| "loss": 1.0732618570327759, |
| "step": 2504 |
| }, |
| { |
| "epoch": 1.6706666666666665, |
| "grad_norm": 4.4375, |
| "learning_rate": 2.2475953508169783e-06, |
| "loss": 1.4265661239624023, |
| "step": 2506 |
| }, |
| { |
| "epoch": 1.6720000000000002, |
| "grad_norm": 45.25, |
| "learning_rate": 2.2430215922530946e-06, |
| "loss": 1.4152803421020508, |
| "step": 2508 |
| }, |
| { |
| "epoch": 1.6733333333333333, |
| "grad_norm": 14.1875, |
| "learning_rate": 2.2384645717734543e-06, |
| "loss": 1.880337119102478, |
| "step": 2510 |
| }, |
| { |
| "epoch": 1.6746666666666665, |
| "grad_norm": 5.9375, |
| "learning_rate": 2.2339243106229514e-06, |
| "loss": 1.332701563835144, |
| "step": 2512 |
| }, |
| { |
| "epoch": 1.6760000000000002, |
| "grad_norm": 7.84375, |
| "learning_rate": 2.229400829968347e-06, |
| "loss": 1.8711514472961426, |
| "step": 2514 |
| }, |
| { |
| "epoch": 1.6773333333333333, |
| "grad_norm": 9.6875, |
| "learning_rate": 2.2248941508981724e-06, |
| "loss": 1.681450366973877, |
| "step": 2516 |
| }, |
| { |
| "epoch": 1.6786666666666665, |
| "grad_norm": 7.3125, |
| "learning_rate": 2.22040429442263e-06, |
| "loss": 1.944288969039917, |
| "step": 2518 |
| }, |
| { |
| "epoch": 1.6800000000000002, |
| "grad_norm": 1.90625, |
| "learning_rate": 2.215931281473493e-06, |
| "loss": 1.1536941528320312, |
| "step": 2520 |
| }, |
| { |
| "epoch": 1.6813333333333333, |
| "grad_norm": 9.25, |
| "learning_rate": 2.2114751329040123e-06, |
| "loss": 1.468356728553772, |
| "step": 2522 |
| }, |
| { |
| "epoch": 1.6826666666666665, |
| "grad_norm": 4.65625, |
| "learning_rate": 2.2070358694888157e-06, |
| "loss": 1.475768804550171, |
| "step": 2524 |
| }, |
| { |
| "epoch": 1.6840000000000002, |
| "grad_norm": 2.09375, |
| "learning_rate": 2.2026135119238117e-06, |
| "loss": 1.1176834106445312, |
| "step": 2526 |
| }, |
| { |
| "epoch": 1.6853333333333333, |
| "grad_norm": 4.09375, |
| "learning_rate": 2.1982080808260935e-06, |
| "loss": 1.2341618537902832, |
| "step": 2528 |
| }, |
| { |
| "epoch": 1.6866666666666665, |
| "grad_norm": 7.96875, |
| "learning_rate": 2.1938195967338448e-06, |
| "loss": 1.0540871620178223, |
| "step": 2530 |
| }, |
| { |
| "epoch": 1.688, |
| "grad_norm": 4.03125, |
| "learning_rate": 2.189448080106239e-06, |
| "loss": 1.4182288646697998, |
| "step": 2532 |
| }, |
| { |
| "epoch": 1.6893333333333334, |
| "grad_norm": 5.40625, |
| "learning_rate": 2.1850935513233502e-06, |
| "loss": 1.5475046634674072, |
| "step": 2534 |
| }, |
| { |
| "epoch": 1.6906666666666665, |
| "grad_norm": 6.0625, |
| "learning_rate": 2.180756030686052e-06, |
| "loss": 1.8920286893844604, |
| "step": 2536 |
| }, |
| { |
| "epoch": 1.692, |
| "grad_norm": 3.84375, |
| "learning_rate": 2.176435538415928e-06, |
| "loss": 1.4708077907562256, |
| "step": 2538 |
| }, |
| { |
| "epoch": 1.6933333333333334, |
| "grad_norm": 6.96875, |
| "learning_rate": 2.172132094655173e-06, |
| "loss": 1.6575706005096436, |
| "step": 2540 |
| }, |
| { |
| "epoch": 1.6946666666666665, |
| "grad_norm": 9.5625, |
| "learning_rate": 2.167845719466505e-06, |
| "loss": 1.5513395071029663, |
| "step": 2542 |
| }, |
| { |
| "epoch": 1.696, |
| "grad_norm": 4.40625, |
| "learning_rate": 2.1635764328330645e-06, |
| "loss": 1.4614930152893066, |
| "step": 2544 |
| }, |
| { |
| "epoch": 1.6973333333333334, |
| "grad_norm": 7.40625, |
| "learning_rate": 2.159324254658327e-06, |
| "loss": 0.3184851109981537, |
| "step": 2546 |
| }, |
| { |
| "epoch": 1.6986666666666665, |
| "grad_norm": 6.28125, |
| "learning_rate": 2.155089204766007e-06, |
| "loss": 1.6140989065170288, |
| "step": 2548 |
| }, |
| { |
| "epoch": 1.7, |
| "grad_norm": 3.46875, |
| "learning_rate": 2.150871302899967e-06, |
| "loss": 1.3971844911575317, |
| "step": 2550 |
| }, |
| { |
| "epoch": 1.7013333333333334, |
| "grad_norm": 4.65625, |
| "learning_rate": 2.146670568724126e-06, |
| "loss": 1.3750734329223633, |
| "step": 2552 |
| }, |
| { |
| "epoch": 1.7026666666666666, |
| "grad_norm": 3.09375, |
| "learning_rate": 2.1424870218223653e-06, |
| "loss": 1.0484888553619385, |
| "step": 2554 |
| }, |
| { |
| "epoch": 1.704, |
| "grad_norm": 4.40625, |
| "learning_rate": 2.138320681698441e-06, |
| "loss": 1.4106589555740356, |
| "step": 2556 |
| }, |
| { |
| "epoch": 1.7053333333333334, |
| "grad_norm": 6.625, |
| "learning_rate": 2.1341715677758882e-06, |
| "loss": 1.9462778568267822, |
| "step": 2558 |
| }, |
| { |
| "epoch": 1.7066666666666666, |
| "grad_norm": 4.09375, |
| "learning_rate": 2.1300396993979366e-06, |
| "loss": 1.4685382843017578, |
| "step": 2560 |
| }, |
| { |
| "epoch": 1.708, |
| "grad_norm": 3.84375, |
| "learning_rate": 2.1259250958274147e-06, |
| "loss": 1.026566743850708, |
| "step": 2562 |
| }, |
| { |
| "epoch": 1.7093333333333334, |
| "grad_norm": 1.765625, |
| "learning_rate": 2.121827776246662e-06, |
| "loss": 1.0092363357543945, |
| "step": 2564 |
| }, |
| { |
| "epoch": 1.7106666666666666, |
| "grad_norm": 1.578125, |
| "learning_rate": 2.1177477597574408e-06, |
| "loss": 1.0036532878875732, |
| "step": 2566 |
| }, |
| { |
| "epoch": 1.712, |
| "grad_norm": 9.1875, |
| "learning_rate": 2.1136850653808456e-06, |
| "loss": 1.8697004318237305, |
| "step": 2568 |
| }, |
| { |
| "epoch": 1.7133333333333334, |
| "grad_norm": 3.5, |
| "learning_rate": 2.1096397120572164e-06, |
| "loss": 1.4623255729675293, |
| "step": 2570 |
| }, |
| { |
| "epoch": 1.7146666666666666, |
| "grad_norm": 6.90625, |
| "learning_rate": 2.1056117186460466e-06, |
| "loss": 1.6307227611541748, |
| "step": 2572 |
| }, |
| { |
| "epoch": 1.716, |
| "grad_norm": 12.4375, |
| "learning_rate": 2.1016011039258983e-06, |
| "loss": 1.7765603065490723, |
| "step": 2574 |
| }, |
| { |
| "epoch": 1.7173333333333334, |
| "grad_norm": 8.4375, |
| "learning_rate": 2.0976078865943152e-06, |
| "loss": 1.6039392948150635, |
| "step": 2576 |
| }, |
| { |
| "epoch": 1.7186666666666666, |
| "grad_norm": 4.28125, |
| "learning_rate": 2.0936320852677323e-06, |
| "loss": 1.4012162685394287, |
| "step": 2578 |
| }, |
| { |
| "epoch": 1.72, |
| "grad_norm": 5.8125, |
| "learning_rate": 2.0896737184813924e-06, |
| "loss": 1.418196678161621, |
| "step": 2580 |
| }, |
| { |
| "epoch": 1.7213333333333334, |
| "grad_norm": 6.78125, |
| "learning_rate": 2.0857328046892567e-06, |
| "loss": 1.4134851694107056, |
| "step": 2582 |
| }, |
| { |
| "epoch": 1.7226666666666666, |
| "grad_norm": 7.0, |
| "learning_rate": 2.081809362263922e-06, |
| "loss": 2.0253653526306152, |
| "step": 2584 |
| }, |
| { |
| "epoch": 1.724, |
| "grad_norm": 5.5625, |
| "learning_rate": 2.077903409496533e-06, |
| "loss": 1.431370496749878, |
| "step": 2586 |
| }, |
| { |
| "epoch": 1.7253333333333334, |
| "grad_norm": 5.25, |
| "learning_rate": 2.0740149645966954e-06, |
| "loss": 1.4524600505828857, |
| "step": 2588 |
| }, |
| { |
| "epoch": 1.7266666666666666, |
| "grad_norm": 6.625, |
| "learning_rate": 2.0701440456923955e-06, |
| "loss": 1.4008400440216064, |
| "step": 2590 |
| }, |
| { |
| "epoch": 1.728, |
| "grad_norm": 19.25, |
| "learning_rate": 2.066290670829911e-06, |
| "loss": 0.27671539783477783, |
| "step": 2592 |
| }, |
| { |
| "epoch": 1.7293333333333334, |
| "grad_norm": 2.96875, |
| "learning_rate": 2.0624548579737323e-06, |
| "loss": 1.124161720275879, |
| "step": 2594 |
| }, |
| { |
| "epoch": 1.7306666666666666, |
| "grad_norm": 8.125, |
| "learning_rate": 2.0586366250064716e-06, |
| "loss": 1.4266724586486816, |
| "step": 2596 |
| }, |
| { |
| "epoch": 1.732, |
| "grad_norm": 8.3125, |
| "learning_rate": 2.0548359897287857e-06, |
| "loss": 1.5034812688827515, |
| "step": 2598 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 1.2109375, |
| "learning_rate": 2.05105296985929e-06, |
| "loss": 1.055992841720581, |
| "step": 2600 |
| }, |
| { |
| "epoch": 1.7346666666666666, |
| "grad_norm": 4.0625, |
| "learning_rate": 2.047287583034476e-06, |
| "loss": 1.359705924987793, |
| "step": 2602 |
| }, |
| { |
| "epoch": 1.736, |
| "grad_norm": 6.09375, |
| "learning_rate": 2.043539846808632e-06, |
| "loss": 1.8168176412582397, |
| "step": 2604 |
| }, |
| { |
| "epoch": 1.7373333333333334, |
| "grad_norm": 2.0, |
| "learning_rate": 2.039809778653757e-06, |
| "loss": 1.1143035888671875, |
| "step": 2606 |
| }, |
| { |
| "epoch": 1.7386666666666666, |
| "grad_norm": 4.46875, |
| "learning_rate": 2.0360973959594802e-06, |
| "loss": 1.5116562843322754, |
| "step": 2608 |
| }, |
| { |
| "epoch": 1.74, |
| "grad_norm": 9.75, |
| "learning_rate": 2.0324027160329842e-06, |
| "loss": 1.4354583024978638, |
| "step": 2610 |
| }, |
| { |
| "epoch": 1.7413333333333334, |
| "grad_norm": 3.390625, |
| "learning_rate": 2.0287257560989186e-06, |
| "loss": 1.0052144527435303, |
| "step": 2612 |
| }, |
| { |
| "epoch": 1.7426666666666666, |
| "grad_norm": 7.1875, |
| "learning_rate": 2.025066533299322e-06, |
| "loss": 1.4171818494796753, |
| "step": 2614 |
| }, |
| { |
| "epoch": 1.744, |
| "grad_norm": 6.0, |
| "learning_rate": 2.021425064693544e-06, |
| "loss": 1.5010087490081787, |
| "step": 2616 |
| }, |
| { |
| "epoch": 1.7453333333333334, |
| "grad_norm": 9.4375, |
| "learning_rate": 2.017801367258162e-06, |
| "loss": 1.555128574371338, |
| "step": 2618 |
| }, |
| { |
| "epoch": 1.7466666666666666, |
| "grad_norm": 1.5859375, |
| "learning_rate": 2.0141954578869054e-06, |
| "loss": 1.0460717678070068, |
| "step": 2620 |
| }, |
| { |
| "epoch": 1.748, |
| "grad_norm": 1.6484375, |
| "learning_rate": 2.010607353390575e-06, |
| "loss": 1.1090086698532104, |
| "step": 2622 |
| }, |
| { |
| "epoch": 1.7493333333333334, |
| "grad_norm": 5.90625, |
| "learning_rate": 2.0070370704969644e-06, |
| "loss": 1.4290834665298462, |
| "step": 2624 |
| }, |
| { |
| "epoch": 1.7506666666666666, |
| "grad_norm": 2.828125, |
| "learning_rate": 2.0034846258507836e-06, |
| "loss": 1.1410293579101562, |
| "step": 2626 |
| }, |
| { |
| "epoch": 1.752, |
| "grad_norm": 11.75, |
| "learning_rate": 1.9999500360135783e-06, |
| "loss": 1.4075884819030762, |
| "step": 2628 |
| }, |
| { |
| "epoch": 1.7533333333333334, |
| "grad_norm": 6.78125, |
| "learning_rate": 1.9964333174636587e-06, |
| "loss": 1.1147377490997314, |
| "step": 2630 |
| }, |
| { |
| "epoch": 1.7546666666666666, |
| "grad_norm": 4.90625, |
| "learning_rate": 1.9929344865960147e-06, |
| "loss": 1.8437426090240479, |
| "step": 2632 |
| }, |
| { |
| "epoch": 1.756, |
| "grad_norm": 1.8046875, |
| "learning_rate": 1.989453559722246e-06, |
| "loss": 1.0943751335144043, |
| "step": 2634 |
| }, |
| { |
| "epoch": 1.7573333333333334, |
| "grad_norm": 5.53125, |
| "learning_rate": 1.9859905530704838e-06, |
| "loss": 1.6125261783599854, |
| "step": 2636 |
| }, |
| { |
| "epoch": 1.7586666666666666, |
| "grad_norm": 4.90625, |
| "learning_rate": 1.9825454827853136e-06, |
| "loss": 1.4623953104019165, |
| "step": 2638 |
| }, |
| { |
| "epoch": 1.76, |
| "grad_norm": 8.3125, |
| "learning_rate": 1.979118364927702e-06, |
| "loss": 1.5197104215621948, |
| "step": 2640 |
| }, |
| { |
| "epoch": 1.7613333333333334, |
| "grad_norm": 7.09375, |
| "learning_rate": 1.975709215474921e-06, |
| "loss": 1.495721697807312, |
| "step": 2642 |
| }, |
| { |
| "epoch": 1.7626666666666666, |
| "grad_norm": 3.0625, |
| "learning_rate": 1.9723180503204734e-06, |
| "loss": 1.0730725526809692, |
| "step": 2644 |
| }, |
| { |
| "epoch": 1.764, |
| "grad_norm": 11.1875, |
| "learning_rate": 1.96894488527402e-06, |
| "loss": 2.120232582092285, |
| "step": 2646 |
| }, |
| { |
| "epoch": 1.7653333333333334, |
| "grad_norm": 13.0, |
| "learning_rate": 1.965589736061303e-06, |
| "loss": 1.813724160194397, |
| "step": 2648 |
| }, |
| { |
| "epoch": 1.7666666666666666, |
| "grad_norm": 2.4375, |
| "learning_rate": 1.962252618324077e-06, |
| "loss": 1.1308650970458984, |
| "step": 2650 |
| }, |
| { |
| "epoch": 1.768, |
| "grad_norm": 11.375, |
| "learning_rate": 1.958933547620031e-06, |
| "loss": 1.9237217903137207, |
| "step": 2652 |
| }, |
| { |
| "epoch": 1.7693333333333334, |
| "grad_norm": 6.8125, |
| "learning_rate": 1.9556325394227198e-06, |
| "loss": 1.418813705444336, |
| "step": 2654 |
| }, |
| { |
| "epoch": 1.7706666666666666, |
| "grad_norm": 6.875, |
| "learning_rate": 1.952349609121491e-06, |
| "loss": 1.772024154663086, |
| "step": 2656 |
| }, |
| { |
| "epoch": 1.772, |
| "grad_norm": 5.96875, |
| "learning_rate": 1.9490847720214116e-06, |
| "loss": 1.4179997444152832, |
| "step": 2658 |
| }, |
| { |
| "epoch": 1.7733333333333334, |
| "grad_norm": 4.875, |
| "learning_rate": 1.9458380433431997e-06, |
| "loss": 1.520759105682373, |
| "step": 2660 |
| }, |
| { |
| "epoch": 1.7746666666666666, |
| "grad_norm": 4.4375, |
| "learning_rate": 1.9426094382231487e-06, |
| "loss": 1.6265156269073486, |
| "step": 2662 |
| }, |
| { |
| "epoch": 1.776, |
| "grad_norm": 5.65625, |
| "learning_rate": 1.939398971713062e-06, |
| "loss": 1.6532254219055176, |
| "step": 2664 |
| }, |
| { |
| "epoch": 1.7773333333333334, |
| "grad_norm": 7.09375, |
| "learning_rate": 1.9362066587801804e-06, |
| "loss": 1.8956434726715088, |
| "step": 2666 |
| }, |
| { |
| "epoch": 1.7786666666666666, |
| "grad_norm": 15.1875, |
| "learning_rate": 1.933032514307112e-06, |
| "loss": 1.655465006828308, |
| "step": 2668 |
| }, |
| { |
| "epoch": 1.78, |
| "grad_norm": 1.9140625, |
| "learning_rate": 1.9298765530917636e-06, |
| "loss": 1.092116117477417, |
| "step": 2670 |
| }, |
| { |
| "epoch": 1.7813333333333334, |
| "grad_norm": 3.953125, |
| "learning_rate": 1.9267387898472707e-06, |
| "loss": 1.3901035785675049, |
| "step": 2672 |
| }, |
| { |
| "epoch": 1.7826666666666666, |
| "grad_norm": 3.0, |
| "learning_rate": 1.9236192392019294e-06, |
| "loss": 1.251054286956787, |
| "step": 2674 |
| }, |
| { |
| "epoch": 1.784, |
| "grad_norm": 14.75, |
| "learning_rate": 1.92051791569913e-06, |
| "loss": 1.4674335718154907, |
| "step": 2676 |
| }, |
| { |
| "epoch": 1.7853333333333334, |
| "grad_norm": 5.75, |
| "learning_rate": 1.917434833797287e-06, |
| "loss": 1.3956738710403442, |
| "step": 2678 |
| }, |
| { |
| "epoch": 1.7866666666666666, |
| "grad_norm": 1.9375, |
| "learning_rate": 1.9143700078697703e-06, |
| "loss": 1.003767967224121, |
| "step": 2680 |
| }, |
| { |
| "epoch": 1.788, |
| "grad_norm": 5.125, |
| "learning_rate": 1.9113234522048437e-06, |
| "loss": 1.471883773803711, |
| "step": 2682 |
| }, |
| { |
| "epoch": 1.7893333333333334, |
| "grad_norm": 5.03125, |
| "learning_rate": 1.908295181005591e-06, |
| "loss": 1.525916337966919, |
| "step": 2684 |
| }, |
| { |
| "epoch": 1.7906666666666666, |
| "grad_norm": 6.53125, |
| "learning_rate": 1.9052852083898576e-06, |
| "loss": 1.9548535346984863, |
| "step": 2686 |
| }, |
| { |
| "epoch": 1.792, |
| "grad_norm": 13.25, |
| "learning_rate": 1.9022935483901771e-06, |
| "loss": 1.755566120147705, |
| "step": 2688 |
| }, |
| { |
| "epoch": 1.7933333333333334, |
| "grad_norm": 1.4375, |
| "learning_rate": 1.8993202149537113e-06, |
| "loss": 1.2035529613494873, |
| "step": 2690 |
| }, |
| { |
| "epoch": 1.7946666666666666, |
| "grad_norm": 7.0, |
| "learning_rate": 1.8963652219421826e-06, |
| "loss": 1.5947092771530151, |
| "step": 2692 |
| }, |
| { |
| "epoch": 1.796, |
| "grad_norm": 5.75, |
| "learning_rate": 1.8934285831318106e-06, |
| "loss": 1.755237340927124, |
| "step": 2694 |
| }, |
| { |
| "epoch": 1.7973333333333334, |
| "grad_norm": 6.0, |
| "learning_rate": 1.890510312213247e-06, |
| "loss": 1.6429678201675415, |
| "step": 2696 |
| }, |
| { |
| "epoch": 1.7986666666666666, |
| "grad_norm": 15.125, |
| "learning_rate": 1.887610422791512e-06, |
| "loss": 1.8014006614685059, |
| "step": 2698 |
| }, |
| { |
| "epoch": 1.8, |
| "grad_norm": 1.4140625, |
| "learning_rate": 1.8847289283859313e-06, |
| "loss": 1.0201822519302368, |
| "step": 2700 |
| }, |
| { |
| "epoch": 1.8013333333333335, |
| "grad_norm": 2.21875, |
| "learning_rate": 1.8818658424300724e-06, |
| "loss": 1.0370283126831055, |
| "step": 2702 |
| }, |
| { |
| "epoch": 1.8026666666666666, |
| "grad_norm": 8.1875, |
| "learning_rate": 1.879021178271683e-06, |
| "loss": 1.467565655708313, |
| "step": 2704 |
| }, |
| { |
| "epoch": 1.804, |
| "grad_norm": 8.8125, |
| "learning_rate": 1.8761949491726278e-06, |
| "loss": 1.7864141464233398, |
| "step": 2706 |
| }, |
| { |
| "epoch": 1.8053333333333335, |
| "grad_norm": 6.15625, |
| "learning_rate": 1.8733871683088267e-06, |
| "loss": 1.3655095100402832, |
| "step": 2708 |
| }, |
| { |
| "epoch": 1.8066666666666666, |
| "grad_norm": 5.90625, |
| "learning_rate": 1.8705978487701939e-06, |
| "loss": 1.3965015411376953, |
| "step": 2710 |
| }, |
| { |
| "epoch": 1.808, |
| "grad_norm": 7.34375, |
| "learning_rate": 1.8678270035605767e-06, |
| "loss": 1.638869285583496, |
| "step": 2712 |
| }, |
| { |
| "epoch": 1.8093333333333335, |
| "grad_norm": 5.28125, |
| "learning_rate": 1.8650746455976948e-06, |
| "loss": 1.3903155326843262, |
| "step": 2714 |
| }, |
| { |
| "epoch": 1.8106666666666666, |
| "grad_norm": 13.125, |
| "learning_rate": 1.86234078771308e-06, |
| "loss": 1.4415559768676758, |
| "step": 2716 |
| }, |
| { |
| "epoch": 1.812, |
| "grad_norm": 5.375, |
| "learning_rate": 1.8596254426520167e-06, |
| "loss": 1.4963748455047607, |
| "step": 2718 |
| }, |
| { |
| "epoch": 1.8133333333333335, |
| "grad_norm": 7.21875, |
| "learning_rate": 1.8569286230734817e-06, |
| "loss": 1.4766721725463867, |
| "step": 2720 |
| }, |
| { |
| "epoch": 1.8146666666666667, |
| "grad_norm": 11.9375, |
| "learning_rate": 1.8542503415500864e-06, |
| "loss": 1.7220858335494995, |
| "step": 2722 |
| }, |
| { |
| "epoch": 1.8159999999999998, |
| "grad_norm": 5.5, |
| "learning_rate": 1.8515906105680173e-06, |
| "loss": 1.4829065799713135, |
| "step": 2724 |
| }, |
| { |
| "epoch": 1.8173333333333335, |
| "grad_norm": 4.40625, |
| "learning_rate": 1.848949442526977e-06, |
| "loss": 1.452761173248291, |
| "step": 2726 |
| }, |
| { |
| "epoch": 1.8186666666666667, |
| "grad_norm": 4.1875, |
| "learning_rate": 1.8463268497401299e-06, |
| "loss": 1.4810348749160767, |
| "step": 2728 |
| }, |
| { |
| "epoch": 1.8199999999999998, |
| "grad_norm": 3.796875, |
| "learning_rate": 1.8437228444340399e-06, |
| "loss": 1.2779314517974854, |
| "step": 2730 |
| }, |
| { |
| "epoch": 1.8213333333333335, |
| "grad_norm": 2.03125, |
| "learning_rate": 1.841137438748617e-06, |
| "loss": 1.136197805404663, |
| "step": 2732 |
| }, |
| { |
| "epoch": 1.8226666666666667, |
| "grad_norm": 4.1875, |
| "learning_rate": 1.8385706447370587e-06, |
| "loss": 1.1024785041809082, |
| "step": 2734 |
| }, |
| { |
| "epoch": 1.8239999999999998, |
| "grad_norm": 2.828125, |
| "learning_rate": 1.8360224743657957e-06, |
| "loss": 1.189272403717041, |
| "step": 2736 |
| }, |
| { |
| "epoch": 1.8253333333333335, |
| "grad_norm": 15.75, |
| "learning_rate": 1.8334929395144336e-06, |
| "loss": 1.8067930936813354, |
| "step": 2738 |
| }, |
| { |
| "epoch": 1.8266666666666667, |
| "grad_norm": 6.5, |
| "learning_rate": 1.8309820519757004e-06, |
| "loss": 1.9117852449417114, |
| "step": 2740 |
| }, |
| { |
| "epoch": 1.8279999999999998, |
| "grad_norm": 1.890625, |
| "learning_rate": 1.8284898234553886e-06, |
| "loss": 1.073231816291809, |
| "step": 2742 |
| }, |
| { |
| "epoch": 1.8293333333333335, |
| "grad_norm": 11.625, |
| "learning_rate": 1.826016265572304e-06, |
| "loss": 1.5809550285339355, |
| "step": 2744 |
| }, |
| { |
| "epoch": 1.8306666666666667, |
| "grad_norm": 8.625, |
| "learning_rate": 1.823561389858208e-06, |
| "loss": 1.4855477809906006, |
| "step": 2746 |
| }, |
| { |
| "epoch": 1.8319999999999999, |
| "grad_norm": 4.78125, |
| "learning_rate": 1.8211252077577657e-06, |
| "loss": 1.5261988639831543, |
| "step": 2748 |
| }, |
| { |
| "epoch": 1.8333333333333335, |
| "grad_norm": 4.75, |
| "learning_rate": 1.818707730628493e-06, |
| "loss": 1.508739948272705, |
| "step": 2750 |
| }, |
| { |
| "epoch": 1.8346666666666667, |
| "grad_norm": 11.5625, |
| "learning_rate": 1.8163089697407027e-06, |
| "loss": 1.8359191417694092, |
| "step": 2752 |
| }, |
| { |
| "epoch": 1.8359999999999999, |
| "grad_norm": 7.875, |
| "learning_rate": 1.8139289362774514e-06, |
| "loss": 1.777050256729126, |
| "step": 2754 |
| }, |
| { |
| "epoch": 1.8373333333333335, |
| "grad_norm": 6.1875, |
| "learning_rate": 1.8115676413344897e-06, |
| "loss": 1.4878871440887451, |
| "step": 2756 |
| }, |
| { |
| "epoch": 1.8386666666666667, |
| "grad_norm": 5.34375, |
| "learning_rate": 1.8092250959202067e-06, |
| "loss": 1.4921441078186035, |
| "step": 2758 |
| }, |
| { |
| "epoch": 1.8399999999999999, |
| "grad_norm": 12.9375, |
| "learning_rate": 1.8069013109555843e-06, |
| "loss": 1.9146616458892822, |
| "step": 2760 |
| }, |
| { |
| "epoch": 1.8413333333333335, |
| "grad_norm": 6.1875, |
| "learning_rate": 1.8045962972741393e-06, |
| "loss": 1.3620163202285767, |
| "step": 2762 |
| }, |
| { |
| "epoch": 1.8426666666666667, |
| "grad_norm": 12.875, |
| "learning_rate": 1.802310065621879e-06, |
| "loss": 1.3618303537368774, |
| "step": 2764 |
| }, |
| { |
| "epoch": 1.8439999999999999, |
| "grad_norm": 5.15625, |
| "learning_rate": 1.8000426266572471e-06, |
| "loss": 1.4024913311004639, |
| "step": 2766 |
| }, |
| { |
| "epoch": 1.8453333333333335, |
| "grad_norm": 1.421875, |
| "learning_rate": 1.7977939909510772e-06, |
| "loss": 1.050788164138794, |
| "step": 2768 |
| }, |
| { |
| "epoch": 1.8466666666666667, |
| "grad_norm": 1.5859375, |
| "learning_rate": 1.7955641689865402e-06, |
| "loss": 1.0265395641326904, |
| "step": 2770 |
| }, |
| { |
| "epoch": 1.8479999999999999, |
| "grad_norm": 6.875, |
| "learning_rate": 1.7933531711590981e-06, |
| "loss": 0.9936121702194214, |
| "step": 2772 |
| }, |
| { |
| "epoch": 1.8493333333333335, |
| "grad_norm": 6.9375, |
| "learning_rate": 1.7911610077764537e-06, |
| "loss": 1.5282442569732666, |
| "step": 2774 |
| }, |
| { |
| "epoch": 1.8506666666666667, |
| "grad_norm": 6.71875, |
| "learning_rate": 1.7889876890585036e-06, |
| "loss": 1.4587817192077637, |
| "step": 2776 |
| }, |
| { |
| "epoch": 1.8519999999999999, |
| "grad_norm": 15.125, |
| "learning_rate": 1.786833225137291e-06, |
| "loss": 1.441443920135498, |
| "step": 2778 |
| }, |
| { |
| "epoch": 1.8533333333333335, |
| "grad_norm": 4.90625, |
| "learning_rate": 1.7846976260569574e-06, |
| "loss": 1.4862936735153198, |
| "step": 2780 |
| }, |
| { |
| "epoch": 1.8546666666666667, |
| "grad_norm": 17.875, |
| "learning_rate": 1.7825809017736955e-06, |
| "loss": 0.6228671073913574, |
| "step": 2782 |
| }, |
| { |
| "epoch": 1.8559999999999999, |
| "grad_norm": 5.03125, |
| "learning_rate": 1.7804830621557043e-06, |
| "loss": 1.5867762565612793, |
| "step": 2784 |
| }, |
| { |
| "epoch": 1.8573333333333333, |
| "grad_norm": 5.25, |
| "learning_rate": 1.7784041169831413e-06, |
| "loss": 1.0642695426940918, |
| "step": 2786 |
| }, |
| { |
| "epoch": 1.8586666666666667, |
| "grad_norm": 5.90625, |
| "learning_rate": 1.7763440759480788e-06, |
| "loss": 1.5180978775024414, |
| "step": 2788 |
| }, |
| { |
| "epoch": 1.8599999999999999, |
| "grad_norm": 1.296875, |
| "learning_rate": 1.7743029486544568e-06, |
| "loss": 1.0780036449432373, |
| "step": 2790 |
| }, |
| { |
| "epoch": 1.8613333333333333, |
| "grad_norm": 5.59375, |
| "learning_rate": 1.7722807446180408e-06, |
| "loss": 1.7178488969802856, |
| "step": 2792 |
| }, |
| { |
| "epoch": 1.8626666666666667, |
| "grad_norm": 8.875, |
| "learning_rate": 1.7702774732663734e-06, |
| "loss": 1.1812188625335693, |
| "step": 2794 |
| }, |
| { |
| "epoch": 1.8639999999999999, |
| "grad_norm": 2.265625, |
| "learning_rate": 1.7682931439387347e-06, |
| "loss": 1.1251749992370605, |
| "step": 2796 |
| }, |
| { |
| "epoch": 1.8653333333333333, |
| "grad_norm": 1.4609375, |
| "learning_rate": 1.7663277658860964e-06, |
| "loss": 1.242966651916504, |
| "step": 2798 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 6.625, |
| "learning_rate": 1.7643813482710784e-06, |
| "loss": 1.0621240139007568, |
| "step": 2800 |
| }, |
| { |
| "epoch": 1.8679999999999999, |
| "grad_norm": 3.40625, |
| "learning_rate": 1.7624539001679075e-06, |
| "loss": 1.1366503238677979, |
| "step": 2802 |
| }, |
| { |
| "epoch": 1.8693333333333333, |
| "grad_norm": 6.21875, |
| "learning_rate": 1.7605454305623735e-06, |
| "loss": 1.9657596349716187, |
| "step": 2804 |
| }, |
| { |
| "epoch": 1.8706666666666667, |
| "grad_norm": 4.40625, |
| "learning_rate": 1.7586559483517896e-06, |
| "loss": 1.3851277828216553, |
| "step": 2806 |
| }, |
| { |
| "epoch": 1.8719999999999999, |
| "grad_norm": 5.28125, |
| "learning_rate": 1.7567854623449479e-06, |
| "loss": 1.4316308498382568, |
| "step": 2808 |
| }, |
| { |
| "epoch": 1.8733333333333333, |
| "grad_norm": 6.65625, |
| "learning_rate": 1.7549339812620814e-06, |
| "loss": 1.9082809686660767, |
| "step": 2810 |
| }, |
| { |
| "epoch": 1.8746666666666667, |
| "grad_norm": 3.03125, |
| "learning_rate": 1.7531015137348206e-06, |
| "loss": 1.1026511192321777, |
| "step": 2812 |
| }, |
| { |
| "epoch": 1.876, |
| "grad_norm": 9.25, |
| "learning_rate": 1.7512880683061554e-06, |
| "loss": 1.4776630401611328, |
| "step": 2814 |
| }, |
| { |
| "epoch": 1.8773333333333333, |
| "grad_norm": 6.90625, |
| "learning_rate": 1.7494936534303938e-06, |
| "loss": 1.7435698509216309, |
| "step": 2816 |
| }, |
| { |
| "epoch": 1.8786666666666667, |
| "grad_norm": 8.5625, |
| "learning_rate": 1.7477182774731233e-06, |
| "loss": 1.4079492092132568, |
| "step": 2818 |
| }, |
| { |
| "epoch": 1.88, |
| "grad_norm": 7.6875, |
| "learning_rate": 1.7459619487111724e-06, |
| "loss": 1.026501178741455, |
| "step": 2820 |
| }, |
| { |
| "epoch": 1.8813333333333333, |
| "grad_norm": 3.796875, |
| "learning_rate": 1.7442246753325703e-06, |
| "loss": 1.0990175008773804, |
| "step": 2822 |
| }, |
| { |
| "epoch": 1.8826666666666667, |
| "grad_norm": 6.15625, |
| "learning_rate": 1.7425064654365107e-06, |
| "loss": 1.5780365467071533, |
| "step": 2824 |
| }, |
| { |
| "epoch": 1.884, |
| "grad_norm": 4.125, |
| "learning_rate": 1.7408073270333114e-06, |
| "loss": 1.1284211874008179, |
| "step": 2826 |
| }, |
| { |
| "epoch": 1.8853333333333333, |
| "grad_norm": 13.5, |
| "learning_rate": 1.7391272680443805e-06, |
| "loss": 1.859563946723938, |
| "step": 2828 |
| }, |
| { |
| "epoch": 1.8866666666666667, |
| "grad_norm": 4.46875, |
| "learning_rate": 1.7374662963021771e-06, |
| "loss": 1.4344596862792969, |
| "step": 2830 |
| }, |
| { |
| "epoch": 1.888, |
| "grad_norm": 4.875, |
| "learning_rate": 1.7358244195501737e-06, |
| "loss": 1.4997034072875977, |
| "step": 2832 |
| }, |
| { |
| "epoch": 1.8893333333333333, |
| "grad_norm": 1.6171875, |
| "learning_rate": 1.7342016454428246e-06, |
| "loss": 0.9284089803695679, |
| "step": 2834 |
| }, |
| { |
| "epoch": 1.8906666666666667, |
| "grad_norm": 7.4375, |
| "learning_rate": 1.7325979815455243e-06, |
| "loss": 1.1980538368225098, |
| "step": 2836 |
| }, |
| { |
| "epoch": 1.892, |
| "grad_norm": 4.875, |
| "learning_rate": 1.7310134353345775e-06, |
| "loss": 1.4303035736083984, |
| "step": 2838 |
| }, |
| { |
| "epoch": 1.8933333333333333, |
| "grad_norm": 6.375, |
| "learning_rate": 1.7294480141971615e-06, |
| "loss": 1.6346737146377563, |
| "step": 2840 |
| }, |
| { |
| "epoch": 1.8946666666666667, |
| "grad_norm": 11.0, |
| "learning_rate": 1.7279017254312906e-06, |
| "loss": 1.4243416786193848, |
| "step": 2842 |
| }, |
| { |
| "epoch": 1.896, |
| "grad_norm": 2.1875, |
| "learning_rate": 1.7263745762457857e-06, |
| "loss": 1.0933666229248047, |
| "step": 2844 |
| }, |
| { |
| "epoch": 1.8973333333333333, |
| "grad_norm": 5.75, |
| "learning_rate": 1.7248665737602377e-06, |
| "loss": 1.6563225984573364, |
| "step": 2846 |
| }, |
| { |
| "epoch": 1.8986666666666667, |
| "grad_norm": 2.3125, |
| "learning_rate": 1.7233777250049751e-06, |
| "loss": 1.069027066230774, |
| "step": 2848 |
| }, |
| { |
| "epoch": 1.9, |
| "grad_norm": 11.4375, |
| "learning_rate": 1.7219080369210335e-06, |
| "loss": 1.753813624382019, |
| "step": 2850 |
| }, |
| { |
| "epoch": 1.9013333333333333, |
| "grad_norm": 2.84375, |
| "learning_rate": 1.720457516360118e-06, |
| "loss": 1.206129550933838, |
| "step": 2852 |
| }, |
| { |
| "epoch": 1.9026666666666667, |
| "grad_norm": 3.640625, |
| "learning_rate": 1.719026170084577e-06, |
| "loss": 1.3521314859390259, |
| "step": 2854 |
| }, |
| { |
| "epoch": 1.904, |
| "grad_norm": 6.125, |
| "learning_rate": 1.7176140047673664e-06, |
| "loss": 1.412433385848999, |
| "step": 2856 |
| }, |
| { |
| "epoch": 1.9053333333333333, |
| "grad_norm": 9.5, |
| "learning_rate": 1.7162210269920215e-06, |
| "loss": 1.743882656097412, |
| "step": 2858 |
| }, |
| { |
| "epoch": 1.9066666666666667, |
| "grad_norm": 1.8359375, |
| "learning_rate": 1.7148472432526236e-06, |
| "loss": 1.0447434186935425, |
| "step": 2860 |
| }, |
| { |
| "epoch": 1.908, |
| "grad_norm": 4.3125, |
| "learning_rate": 1.7134926599537734e-06, |
| "loss": 1.4740633964538574, |
| "step": 2862 |
| }, |
| { |
| "epoch": 1.9093333333333333, |
| "grad_norm": 3.09375, |
| "learning_rate": 1.7121572834105563e-06, |
| "loss": 1.0643571615219116, |
| "step": 2864 |
| }, |
| { |
| "epoch": 1.9106666666666667, |
| "grad_norm": 2.828125, |
| "learning_rate": 1.710841119848517e-06, |
| "loss": 1.0655380487442017, |
| "step": 2866 |
| }, |
| { |
| "epoch": 1.912, |
| "grad_norm": 2.53125, |
| "learning_rate": 1.7095441754036283e-06, |
| "loss": 1.1269874572753906, |
| "step": 2868 |
| }, |
| { |
| "epoch": 1.9133333333333333, |
| "grad_norm": 4.34375, |
| "learning_rate": 1.7082664561222649e-06, |
| "loss": 1.4369423389434814, |
| "step": 2870 |
| }, |
| { |
| "epoch": 1.9146666666666667, |
| "grad_norm": 10.8125, |
| "learning_rate": 1.7070079679611703e-06, |
| "loss": 1.721430778503418, |
| "step": 2872 |
| }, |
| { |
| "epoch": 1.916, |
| "grad_norm": 6.625, |
| "learning_rate": 1.7057687167874356e-06, |
| "loss": 1.7939766645431519, |
| "step": 2874 |
| }, |
| { |
| "epoch": 1.9173333333333333, |
| "grad_norm": 16.625, |
| "learning_rate": 1.704548708378467e-06, |
| "loss": 1.3905680179595947, |
| "step": 2876 |
| }, |
| { |
| "epoch": 1.9186666666666667, |
| "grad_norm": 5.8125, |
| "learning_rate": 1.7033479484219613e-06, |
| "loss": 1.5273337364196777, |
| "step": 2878 |
| }, |
| { |
| "epoch": 1.92, |
| "grad_norm": 7.03125, |
| "learning_rate": 1.7021664425158774e-06, |
| "loss": 1.7179479598999023, |
| "step": 2880 |
| }, |
| { |
| "epoch": 1.9213333333333333, |
| "grad_norm": 6.34375, |
| "learning_rate": 1.701004196168413e-06, |
| "loss": 1.509115219116211, |
| "step": 2882 |
| }, |
| { |
| "epoch": 1.9226666666666667, |
| "grad_norm": 7.0625, |
| "learning_rate": 1.6998612147979776e-06, |
| "loss": 1.782740592956543, |
| "step": 2884 |
| }, |
| { |
| "epoch": 1.924, |
| "grad_norm": 1.5, |
| "learning_rate": 1.6987375037331662e-06, |
| "loss": 1.0091302394866943, |
| "step": 2886 |
| }, |
| { |
| "epoch": 1.9253333333333333, |
| "grad_norm": 14.1875, |
| "learning_rate": 1.6976330682127354e-06, |
| "loss": 1.941452980041504, |
| "step": 2888 |
| }, |
| { |
| "epoch": 1.9266666666666667, |
| "grad_norm": 9.125, |
| "learning_rate": 1.69654791338558e-06, |
| "loss": 1.7178850173950195, |
| "step": 2890 |
| }, |
| { |
| "epoch": 1.928, |
| "grad_norm": 8.5625, |
| "learning_rate": 1.6954820443107067e-06, |
| "loss": 1.575331687927246, |
| "step": 2892 |
| }, |
| { |
| "epoch": 1.9293333333333333, |
| "grad_norm": 13.25, |
| "learning_rate": 1.6944354659572127e-06, |
| "loss": 1.875302791595459, |
| "step": 2894 |
| }, |
| { |
| "epoch": 1.9306666666666668, |
| "grad_norm": 5.65625, |
| "learning_rate": 1.6934081832042604e-06, |
| "loss": 1.1005830764770508, |
| "step": 2896 |
| }, |
| { |
| "epoch": 1.932, |
| "grad_norm": 12.5, |
| "learning_rate": 1.6924002008410565e-06, |
| "loss": 1.8767313957214355, |
| "step": 2898 |
| }, |
| { |
| "epoch": 1.9333333333333333, |
| "grad_norm": 5.5, |
| "learning_rate": 1.69141152356683e-06, |
| "loss": 1.5892574787139893, |
| "step": 2900 |
| }, |
| { |
| "epoch": 1.9346666666666668, |
| "grad_norm": 14.5, |
| "learning_rate": 1.6904421559908073e-06, |
| "loss": 0.9386653304100037, |
| "step": 2902 |
| }, |
| { |
| "epoch": 1.936, |
| "grad_norm": 5.3125, |
| "learning_rate": 1.6894921026321951e-06, |
| "loss": 1.519507646560669, |
| "step": 2904 |
| }, |
| { |
| "epoch": 1.9373333333333334, |
| "grad_norm": 3.609375, |
| "learning_rate": 1.6885613679201543e-06, |
| "loss": 1.4453504085540771, |
| "step": 2906 |
| }, |
| { |
| "epoch": 1.9386666666666668, |
| "grad_norm": 2.0625, |
| "learning_rate": 1.6876499561937839e-06, |
| "loss": 1.2696738243103027, |
| "step": 2908 |
| }, |
| { |
| "epoch": 1.94, |
| "grad_norm": 17.25, |
| "learning_rate": 1.686757871702098e-06, |
| "loss": 2.0488576889038086, |
| "step": 2910 |
| }, |
| { |
| "epoch": 1.9413333333333334, |
| "grad_norm": 6.15625, |
| "learning_rate": 1.6858851186040078e-06, |
| "loss": 1.388519287109375, |
| "step": 2912 |
| }, |
| { |
| "epoch": 1.9426666666666668, |
| "grad_norm": 3.234375, |
| "learning_rate": 1.6850317009683007e-06, |
| "loss": 1.1983695030212402, |
| "step": 2914 |
| }, |
| { |
| "epoch": 1.944, |
| "grad_norm": 9.125, |
| "learning_rate": 1.6841976227736206e-06, |
| "loss": 1.755957841873169, |
| "step": 2916 |
| }, |
| { |
| "epoch": 1.9453333333333334, |
| "grad_norm": 1.1953125, |
| "learning_rate": 1.683382887908453e-06, |
| "loss": 1.0279343128204346, |
| "step": 2918 |
| }, |
| { |
| "epoch": 1.9466666666666668, |
| "grad_norm": 1.6875, |
| "learning_rate": 1.6825875001711025e-06, |
| "loss": 1.1533664464950562, |
| "step": 2920 |
| }, |
| { |
| "epoch": 1.948, |
| "grad_norm": 4.4375, |
| "learning_rate": 1.6818114632696795e-06, |
| "loss": 1.5219945907592773, |
| "step": 2922 |
| }, |
| { |
| "epoch": 1.9493333333333334, |
| "grad_norm": 5.59375, |
| "learning_rate": 1.6810547808220776e-06, |
| "loss": 1.1045305728912354, |
| "step": 2924 |
| }, |
| { |
| "epoch": 1.9506666666666668, |
| "grad_norm": 12.4375, |
| "learning_rate": 1.6803174563559612e-06, |
| "loss": 1.8807090520858765, |
| "step": 2926 |
| }, |
| { |
| "epoch": 1.952, |
| "grad_norm": 3.625, |
| "learning_rate": 1.679599493308748e-06, |
| "loss": 1.3571417331695557, |
| "step": 2928 |
| }, |
| { |
| "epoch": 1.9533333333333334, |
| "grad_norm": 6.03125, |
| "learning_rate": 1.678900895027592e-06, |
| "loss": 1.498100996017456, |
| "step": 2930 |
| }, |
| { |
| "epoch": 1.9546666666666668, |
| "grad_norm": 5.71875, |
| "learning_rate": 1.6782216647693678e-06, |
| "loss": 1.7426185607910156, |
| "step": 2932 |
| }, |
| { |
| "epoch": 1.956, |
| "grad_norm": 4.75, |
| "learning_rate": 1.677561805700656e-06, |
| "loss": 1.384394884109497, |
| "step": 2934 |
| }, |
| { |
| "epoch": 1.9573333333333334, |
| "grad_norm": 2.0625, |
| "learning_rate": 1.6769213208977307e-06, |
| "loss": 1.2053213119506836, |
| "step": 2936 |
| }, |
| { |
| "epoch": 1.9586666666666668, |
| "grad_norm": 11.5625, |
| "learning_rate": 1.6763002133465392e-06, |
| "loss": 1.4919240474700928, |
| "step": 2938 |
| }, |
| { |
| "epoch": 1.96, |
| "grad_norm": 11.375, |
| "learning_rate": 1.675698485942695e-06, |
| "loss": 1.5332872867584229, |
| "step": 2940 |
| }, |
| { |
| "epoch": 1.9613333333333334, |
| "grad_norm": 2.203125, |
| "learning_rate": 1.6751161414914592e-06, |
| "loss": 1.2368464469909668, |
| "step": 2942 |
| }, |
| { |
| "epoch": 1.9626666666666668, |
| "grad_norm": 4.96875, |
| "learning_rate": 1.6745531827077301e-06, |
| "loss": 0.38677334785461426, |
| "step": 2944 |
| }, |
| { |
| "epoch": 1.964, |
| "grad_norm": 3.03125, |
| "learning_rate": 1.6740096122160293e-06, |
| "loss": 1.246574878692627, |
| "step": 2946 |
| }, |
| { |
| "epoch": 1.9653333333333334, |
| "grad_norm": 4.9375, |
| "learning_rate": 1.6734854325504908e-06, |
| "loss": 1.4643174409866333, |
| "step": 2948 |
| }, |
| { |
| "epoch": 1.9666666666666668, |
| "grad_norm": 1.5703125, |
| "learning_rate": 1.6729806461548465e-06, |
| "loss": 1.108989953994751, |
| "step": 2950 |
| }, |
| { |
| "epoch": 1.968, |
| "grad_norm": 1.953125, |
| "learning_rate": 1.6724952553824183e-06, |
| "loss": 1.2631993293762207, |
| "step": 2952 |
| }, |
| { |
| "epoch": 1.9693333333333334, |
| "grad_norm": 2.28125, |
| "learning_rate": 1.6720292624961052e-06, |
| "loss": 1.0395303964614868, |
| "step": 2954 |
| }, |
| { |
| "epoch": 1.9706666666666668, |
| "grad_norm": 1.40625, |
| "learning_rate": 1.6715826696683727e-06, |
| "loss": 1.2307453155517578, |
| "step": 2956 |
| }, |
| { |
| "epoch": 1.972, |
| "grad_norm": 4.75, |
| "learning_rate": 1.671155478981242e-06, |
| "loss": 1.4833658933639526, |
| "step": 2958 |
| }, |
| { |
| "epoch": 1.9733333333333334, |
| "grad_norm": 7.84375, |
| "learning_rate": 1.6707476924262824e-06, |
| "loss": 1.4962571859359741, |
| "step": 2960 |
| }, |
| { |
| "epoch": 1.9746666666666668, |
| "grad_norm": 7.90625, |
| "learning_rate": 1.6703593119046018e-06, |
| "loss": 1.7367886304855347, |
| "step": 2962 |
| }, |
| { |
| "epoch": 1.976, |
| "grad_norm": 9.9375, |
| "learning_rate": 1.6699903392268343e-06, |
| "loss": 1.7091962099075317, |
| "step": 2964 |
| }, |
| { |
| "epoch": 1.9773333333333334, |
| "grad_norm": 7.46875, |
| "learning_rate": 1.6696407761131365e-06, |
| "loss": 1.367563009262085, |
| "step": 2966 |
| }, |
| { |
| "epoch": 1.9786666666666668, |
| "grad_norm": 14.5, |
| "learning_rate": 1.6693106241931765e-06, |
| "loss": 1.9681771993637085, |
| "step": 2968 |
| }, |
| { |
| "epoch": 1.98, |
| "grad_norm": 5.5625, |
| "learning_rate": 1.6689998850061267e-06, |
| "loss": 1.4136841297149658, |
| "step": 2970 |
| }, |
| { |
| "epoch": 1.9813333333333332, |
| "grad_norm": 6.34375, |
| "learning_rate": 1.6687085600006579e-06, |
| "loss": 1.7523043155670166, |
| "step": 2972 |
| }, |
| { |
| "epoch": 1.9826666666666668, |
| "grad_norm": 1.546875, |
| "learning_rate": 1.6684366505349317e-06, |
| "loss": 0.9437617063522339, |
| "step": 2974 |
| }, |
| { |
| "epoch": 1.984, |
| "grad_norm": 8.0, |
| "learning_rate": 1.668184157876594e-06, |
| "loss": 1.914856195449829, |
| "step": 2976 |
| }, |
| { |
| "epoch": 1.9853333333333332, |
| "grad_norm": 6.15625, |
| "learning_rate": 1.6679510832027685e-06, |
| "loss": 1.7545595169067383, |
| "step": 2978 |
| }, |
| { |
| "epoch": 1.9866666666666668, |
| "grad_norm": 10.6875, |
| "learning_rate": 1.667737427600053e-06, |
| "loss": 1.6925063133239746, |
| "step": 2980 |
| }, |
| { |
| "epoch": 1.988, |
| "grad_norm": 4.8125, |
| "learning_rate": 1.6675431920645127e-06, |
| "loss": 1.4586756229400635, |
| "step": 2982 |
| }, |
| { |
| "epoch": 1.9893333333333332, |
| "grad_norm": 2.34375, |
| "learning_rate": 1.6673683775016767e-06, |
| "loss": 1.1231346130371094, |
| "step": 2984 |
| }, |
| { |
| "epoch": 1.9906666666666668, |
| "grad_norm": 9.6875, |
| "learning_rate": 1.6672129847265328e-06, |
| "loss": 1.6970008611679077, |
| "step": 2986 |
| }, |
| { |
| "epoch": 1.992, |
| "grad_norm": 7.65625, |
| "learning_rate": 1.6670770144635247e-06, |
| "loss": 1.7199077606201172, |
| "step": 2988 |
| }, |
| { |
| "epoch": 1.9933333333333332, |
| "grad_norm": 5.46875, |
| "learning_rate": 1.6669604673465476e-06, |
| "loss": 1.5547149181365967, |
| "step": 2990 |
| }, |
| { |
| "epoch": 1.9946666666666668, |
| "grad_norm": 4.78125, |
| "learning_rate": 1.6668633439189452e-06, |
| "loss": 1.4819481372833252, |
| "step": 2992 |
| }, |
| { |
| "epoch": 1.996, |
| "grad_norm": 3.328125, |
| "learning_rate": 1.6667856446335087e-06, |
| "loss": 1.1569350957870483, |
| "step": 2994 |
| }, |
| { |
| "epoch": 1.9973333333333332, |
| "grad_norm": 7.21875, |
| "learning_rate": 1.6667273698524736e-06, |
| "loss": 1.6310951709747314, |
| "step": 2996 |
| }, |
| { |
| "epoch": 1.9986666666666668, |
| "grad_norm": 4.78125, |
| "learning_rate": 1.6666885198475175e-06, |
| "loss": 1.3490219116210938, |
| "step": 2998 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 1.796875, |
| "learning_rate": 1.6666690947997594e-06, |
| "loss": 1.0550994873046875, |
| "step": 3000 |
| }, |
| { |
| "epoch": 2.0, |
| "step": 3000, |
| "total_flos": 2.464576238203699e+18, |
| "train_loss": 1.458037720322609, |
| "train_runtime": 26917.7119, |
| "train_samples_per_second": 0.892, |
| "train_steps_per_second": 0.111 |
| } |
| ], |
| "logging_steps": 2, |
| "max_steps": 3000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 2, |
| "save_steps": 9999999, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 2.464576238203699e+18, |
| "train_batch_size": 1, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|