| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 2.0, |
| "eval_steps": 500, |
| "global_step": 3000, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.0013333333333333333, |
| "grad_norm": 2.609375, |
| "learning_rate": 5.555555555555556e-08, |
| "loss": 1.426961898803711, |
| "step": 2 |
| }, |
| { |
| "epoch": 0.0026666666666666666, |
| "grad_norm": 4.03125, |
| "learning_rate": 1.6666666666666668e-07, |
| "loss": 1.0918725728988647, |
| "step": 4 |
| }, |
| { |
| "epoch": 0.004, |
| "grad_norm": 12.5, |
| "learning_rate": 2.7777777777777776e-07, |
| "loss": 2.423412799835205, |
| "step": 6 |
| }, |
| { |
| "epoch": 0.005333333333333333, |
| "grad_norm": 7.78125, |
| "learning_rate": 3.8888888888888895e-07, |
| "loss": 2.086796760559082, |
| "step": 8 |
| }, |
| { |
| "epoch": 0.006666666666666667, |
| "grad_norm": 18.0, |
| "learning_rate": 5.000000000000001e-07, |
| "loss": 2.240536689758301, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.008, |
| "grad_norm": 7.625, |
| "learning_rate": 6.111111111111112e-07, |
| "loss": 1.9187642335891724, |
| "step": 12 |
| }, |
| { |
| "epoch": 0.009333333333333334, |
| "grad_norm": 11.375, |
| "learning_rate": 7.222222222222222e-07, |
| "loss": 1.9097466468811035, |
| "step": 14 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 10.25, |
| "learning_rate": 8.333333333333333e-07, |
| "loss": 2.225918769836426, |
| "step": 16 |
| }, |
| { |
| "epoch": 0.012, |
| "grad_norm": 14.5, |
| "learning_rate": 9.444444444444445e-07, |
| "loss": 2.5282227993011475, |
| "step": 18 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "grad_norm": 10.75, |
| "learning_rate": 1.0555555555555557e-06, |
| "loss": 1.9008896350860596, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.014666666666666666, |
| "grad_norm": 4.71875, |
| "learning_rate": 1.1666666666666668e-06, |
| "loss": 1.7159152030944824, |
| "step": 22 |
| }, |
| { |
| "epoch": 0.016, |
| "grad_norm": 5.21875, |
| "learning_rate": 1.2777777777777779e-06, |
| "loss": 1.7458038330078125, |
| "step": 24 |
| }, |
| { |
| "epoch": 0.017333333333333333, |
| "grad_norm": 2.359375, |
| "learning_rate": 1.3888888888888892e-06, |
| "loss": 1.1576664447784424, |
| "step": 26 |
| }, |
| { |
| "epoch": 0.018666666666666668, |
| "grad_norm": 7.125, |
| "learning_rate": 1.5e-06, |
| "loss": 1.8780293464660645, |
| "step": 28 |
| }, |
| { |
| "epoch": 0.02, |
| "grad_norm": 6.28125, |
| "learning_rate": 1.6111111111111113e-06, |
| "loss": 1.9322218894958496, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "grad_norm": 7.5, |
| "learning_rate": 1.7222222222222224e-06, |
| "loss": 1.9480838775634766, |
| "step": 32 |
| }, |
| { |
| "epoch": 0.02266666666666667, |
| "grad_norm": 12.8125, |
| "learning_rate": 1.8333333333333333e-06, |
| "loss": 1.7671797275543213, |
| "step": 34 |
| }, |
| { |
| "epoch": 0.024, |
| "grad_norm": 6.5625, |
| "learning_rate": 1.944444444444445e-06, |
| "loss": 2.0959420204162598, |
| "step": 36 |
| }, |
| { |
| "epoch": 0.025333333333333333, |
| "grad_norm": 2.4375, |
| "learning_rate": 2.0555555555555555e-06, |
| "loss": 1.345461130142212, |
| "step": 38 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 8.4375, |
| "learning_rate": 2.166666666666667e-06, |
| "loss": 1.9457855224609375, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.028, |
| "grad_norm": 10.4375, |
| "learning_rate": 2.277777777777778e-06, |
| "loss": 2.2649214267730713, |
| "step": 42 |
| }, |
| { |
| "epoch": 0.029333333333333333, |
| "grad_norm": 8.875, |
| "learning_rate": 2.388888888888889e-06, |
| "loss": 2.0627341270446777, |
| "step": 44 |
| }, |
| { |
| "epoch": 0.030666666666666665, |
| "grad_norm": 12.0, |
| "learning_rate": 2.5e-06, |
| "loss": 2.0446112155914307, |
| "step": 46 |
| }, |
| { |
| "epoch": 0.032, |
| "grad_norm": 8.5, |
| "learning_rate": 2.6111111111111113e-06, |
| "loss": 2.0606207847595215, |
| "step": 48 |
| }, |
| { |
| "epoch": 0.03333333333333333, |
| "grad_norm": 9.125, |
| "learning_rate": 2.7222222222222224e-06, |
| "loss": 1.1834385395050049, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.034666666666666665, |
| "grad_norm": 14.5625, |
| "learning_rate": 2.8333333333333335e-06, |
| "loss": 2.575603485107422, |
| "step": 52 |
| }, |
| { |
| "epoch": 0.036, |
| "grad_norm": 13.125, |
| "learning_rate": 2.944444444444445e-06, |
| "loss": 2.113842248916626, |
| "step": 54 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "grad_norm": 14.1875, |
| "learning_rate": 3.055555555555556e-06, |
| "loss": 2.4097142219543457, |
| "step": 56 |
| }, |
| { |
| "epoch": 0.03866666666666667, |
| "grad_norm": 11.4375, |
| "learning_rate": 3.1666666666666667e-06, |
| "loss": 2.4086174964904785, |
| "step": 58 |
| }, |
| { |
| "epoch": 0.04, |
| "grad_norm": 4.09375, |
| "learning_rate": 3.277777777777778e-06, |
| "loss": 1.1603543758392334, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.04133333333333333, |
| "grad_norm": 31.75, |
| "learning_rate": 3.3888888888888893e-06, |
| "loss": 2.3727102279663086, |
| "step": 62 |
| }, |
| { |
| "epoch": 0.042666666666666665, |
| "grad_norm": 12.875, |
| "learning_rate": 3.5e-06, |
| "loss": 2.0453083515167236, |
| "step": 64 |
| }, |
| { |
| "epoch": 0.044, |
| "grad_norm": 3.890625, |
| "learning_rate": 3.6111111111111115e-06, |
| "loss": 1.0684235095977783, |
| "step": 66 |
| }, |
| { |
| "epoch": 0.04533333333333334, |
| "grad_norm": 2.046875, |
| "learning_rate": 3.7222222222222225e-06, |
| "loss": 1.058991551399231, |
| "step": 68 |
| }, |
| { |
| "epoch": 0.04666666666666667, |
| "grad_norm": 9.3125, |
| "learning_rate": 3.833333333333334e-06, |
| "loss": 1.9442476034164429, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.048, |
| "grad_norm": 22.125, |
| "learning_rate": 3.944444444444445e-06, |
| "loss": 1.7541954517364502, |
| "step": 72 |
| }, |
| { |
| "epoch": 0.04933333333333333, |
| "grad_norm": 2.953125, |
| "learning_rate": 4.055555555555556e-06, |
| "loss": 1.195051908493042, |
| "step": 74 |
| }, |
| { |
| "epoch": 0.050666666666666665, |
| "grad_norm": 14.25, |
| "learning_rate": 4.166666666666667e-06, |
| "loss": 2.3182945251464844, |
| "step": 76 |
| }, |
| { |
| "epoch": 0.052, |
| "grad_norm": 5.59375, |
| "learning_rate": 4.277777777777778e-06, |
| "loss": 1.9007854461669922, |
| "step": 78 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 2.734375, |
| "learning_rate": 4.388888888888889e-06, |
| "loss": 1.282339096069336, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.05466666666666667, |
| "grad_norm": 12.375, |
| "learning_rate": 4.5e-06, |
| "loss": 2.4606080055236816, |
| "step": 82 |
| }, |
| { |
| "epoch": 0.056, |
| "grad_norm": 6.375, |
| "learning_rate": 4.611111111111112e-06, |
| "loss": 1.7879230976104736, |
| "step": 84 |
| }, |
| { |
| "epoch": 0.05733333333333333, |
| "grad_norm": 6.375, |
| "learning_rate": 4.722222222222222e-06, |
| "loss": 1.8923945426940918, |
| "step": 86 |
| }, |
| { |
| "epoch": 0.058666666666666666, |
| "grad_norm": 4.9375, |
| "learning_rate": 4.833333333333333e-06, |
| "loss": 1.7414391040802002, |
| "step": 88 |
| }, |
| { |
| "epoch": 0.06, |
| "grad_norm": 2.5, |
| "learning_rate": 4.944444444444445e-06, |
| "loss": 1.2417337894439697, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.06133333333333333, |
| "grad_norm": 2.15625, |
| "learning_rate": 4.999998834496116e-06, |
| "loss": 1.0121757984161377, |
| "step": 92 |
| }, |
| { |
| "epoch": 0.06266666666666666, |
| "grad_norm": 7.53125, |
| "learning_rate": 4.999989510473192e-06, |
| "loss": 1.7546613216400146, |
| "step": 94 |
| }, |
| { |
| "epoch": 0.064, |
| "grad_norm": 9.4375, |
| "learning_rate": 4.999970862470813e-06, |
| "loss": 2.0210976600646973, |
| "step": 96 |
| }, |
| { |
| "epoch": 0.06533333333333333, |
| "grad_norm": 15.6875, |
| "learning_rate": 4.999942890575916e-06, |
| "loss": 1.8761789798736572, |
| "step": 98 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 5.4375, |
| "learning_rate": 4.999905594918907e-06, |
| "loss": 1.822148084640503, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.068, |
| "grad_norm": 7.03125, |
| "learning_rate": 4.999858975673658e-06, |
| "loss": 1.699061393737793, |
| "step": 102 |
| }, |
| { |
| "epoch": 0.06933333333333333, |
| "grad_norm": 7.0625, |
| "learning_rate": 4.999803033057509e-06, |
| "loss": 1.9554791450500488, |
| "step": 104 |
| }, |
| { |
| "epoch": 0.07066666666666667, |
| "grad_norm": 4.96875, |
| "learning_rate": 4.999737767331265e-06, |
| "loss": 1.9270014762878418, |
| "step": 106 |
| }, |
| { |
| "epoch": 0.072, |
| "grad_norm": 8.0625, |
| "learning_rate": 4.999663178799196e-06, |
| "loss": 1.8165018558502197, |
| "step": 108 |
| }, |
| { |
| "epoch": 0.07333333333333333, |
| "grad_norm": 10.3125, |
| "learning_rate": 4.999579267809035e-06, |
| "loss": 2.142543315887451, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.07466666666666667, |
| "grad_norm": 11.1875, |
| "learning_rate": 4.999486034751976e-06, |
| "loss": 2.3485541343688965, |
| "step": 112 |
| }, |
| { |
| "epoch": 0.076, |
| "grad_norm": 7.78125, |
| "learning_rate": 4.999383480062672e-06, |
| "loss": 1.2716255187988281, |
| "step": 114 |
| }, |
| { |
| "epoch": 0.07733333333333334, |
| "grad_norm": 4.53125, |
| "learning_rate": 4.9992716042192355e-06, |
| "loss": 1.8018227815628052, |
| "step": 116 |
| }, |
| { |
| "epoch": 0.07866666666666666, |
| "grad_norm": 2.1875, |
| "learning_rate": 4.999150407743234e-06, |
| "loss": 1.3383140563964844, |
| "step": 118 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 8.625, |
| "learning_rate": 4.999019891199685e-06, |
| "loss": 1.7377729415893555, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.08133333333333333, |
| "grad_norm": 7.28125, |
| "learning_rate": 4.9988800551970595e-06, |
| "loss": 1.9425296783447266, |
| "step": 122 |
| }, |
| { |
| "epoch": 0.08266666666666667, |
| "grad_norm": 3.328125, |
| "learning_rate": 4.998730900387276e-06, |
| "loss": 1.3355326652526855, |
| "step": 124 |
| }, |
| { |
| "epoch": 0.084, |
| "grad_norm": 3.84375, |
| "learning_rate": 4.998572427465695e-06, |
| "loss": 1.3544648885726929, |
| "step": 126 |
| }, |
| { |
| "epoch": 0.08533333333333333, |
| "grad_norm": 2.4375, |
| "learning_rate": 4.99840463717112e-06, |
| "loss": 1.1902351379394531, |
| "step": 128 |
| }, |
| { |
| "epoch": 0.08666666666666667, |
| "grad_norm": 3.4375, |
| "learning_rate": 4.998227530285792e-06, |
| "loss": 1.426368236541748, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.088, |
| "grad_norm": 7.90625, |
| "learning_rate": 4.998041107635385e-06, |
| "loss": 2.050642490386963, |
| "step": 132 |
| }, |
| { |
| "epoch": 0.08933333333333333, |
| "grad_norm": 15.3125, |
| "learning_rate": 4.9978453700890035e-06, |
| "loss": 2.2510485649108887, |
| "step": 134 |
| }, |
| { |
| "epoch": 0.09066666666666667, |
| "grad_norm": 5.65625, |
| "learning_rate": 4.997640318559182e-06, |
| "loss": 1.8200645446777344, |
| "step": 136 |
| }, |
| { |
| "epoch": 0.092, |
| "grad_norm": 12.4375, |
| "learning_rate": 4.99742595400187e-06, |
| "loss": 2.2968640327453613, |
| "step": 138 |
| }, |
| { |
| "epoch": 0.09333333333333334, |
| "grad_norm": 3.125, |
| "learning_rate": 4.997202277416439e-06, |
| "loss": 1.460419774055481, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.09466666666666666, |
| "grad_norm": 6.0625, |
| "learning_rate": 4.996969289845675e-06, |
| "loss": 1.9615103006362915, |
| "step": 142 |
| }, |
| { |
| "epoch": 0.096, |
| "grad_norm": 5.875, |
| "learning_rate": 4.9967269923757654e-06, |
| "loss": 1.1230132579803467, |
| "step": 144 |
| }, |
| { |
| "epoch": 0.09733333333333333, |
| "grad_norm": 25.5, |
| "learning_rate": 4.996475386136307e-06, |
| "loss": 2.2492356300354004, |
| "step": 146 |
| }, |
| { |
| "epoch": 0.09866666666666667, |
| "grad_norm": 6.59375, |
| "learning_rate": 4.996214472300291e-06, |
| "loss": 1.7113642692565918, |
| "step": 148 |
| }, |
| { |
| "epoch": 0.1, |
| "grad_norm": 4.75, |
| "learning_rate": 4.995944252084101e-06, |
| "loss": 1.7024157047271729, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.10133333333333333, |
| "grad_norm": 6.1875, |
| "learning_rate": 4.995664726747508e-06, |
| "loss": 2.0609498023986816, |
| "step": 152 |
| }, |
| { |
| "epoch": 0.10266666666666667, |
| "grad_norm": 8.25, |
| "learning_rate": 4.9953758975936614e-06, |
| "loss": 1.9138317108154297, |
| "step": 154 |
| }, |
| { |
| "epoch": 0.104, |
| "grad_norm": 10.9375, |
| "learning_rate": 4.99507776596909e-06, |
| "loss": 1.7415437698364258, |
| "step": 156 |
| }, |
| { |
| "epoch": 0.10533333333333333, |
| "grad_norm": 1.53125, |
| "learning_rate": 4.9947703332636855e-06, |
| "loss": 1.1183407306671143, |
| "step": 158 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 6.1875, |
| "learning_rate": 4.994453600910705e-06, |
| "loss": 1.7093825340270996, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.108, |
| "grad_norm": 4.5625, |
| "learning_rate": 4.994127570386756e-06, |
| "loss": 1.763106107711792, |
| "step": 162 |
| }, |
| { |
| "epoch": 0.10933333333333334, |
| "grad_norm": 4.4375, |
| "learning_rate": 4.993792243211802e-06, |
| "loss": 1.8390214443206787, |
| "step": 164 |
| }, |
| { |
| "epoch": 0.11066666666666666, |
| "grad_norm": 1.890625, |
| "learning_rate": 4.99344762094914e-06, |
| "loss": 1.1439769268035889, |
| "step": 166 |
| }, |
| { |
| "epoch": 0.112, |
| "grad_norm": 4.71875, |
| "learning_rate": 4.993093705205404e-06, |
| "loss": 1.956803560256958, |
| "step": 168 |
| }, |
| { |
| "epoch": 0.11333333333333333, |
| "grad_norm": 4.8125, |
| "learning_rate": 4.992730497630555e-06, |
| "loss": 1.7778558731079102, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.11466666666666667, |
| "grad_norm": 10.6875, |
| "learning_rate": 4.992357999917872e-06, |
| "loss": 1.721332311630249, |
| "step": 172 |
| }, |
| { |
| "epoch": 0.116, |
| "grad_norm": 4.15625, |
| "learning_rate": 4.991976213803943e-06, |
| "loss": 1.1456602811813354, |
| "step": 174 |
| }, |
| { |
| "epoch": 0.11733333333333333, |
| "grad_norm": 3.671875, |
| "learning_rate": 4.991585141068663e-06, |
| "loss": 1.2858262062072754, |
| "step": 176 |
| }, |
| { |
| "epoch": 0.11866666666666667, |
| "grad_norm": 8.3125, |
| "learning_rate": 4.9911847835352165e-06, |
| "loss": 1.947248935699463, |
| "step": 178 |
| }, |
| { |
| "epoch": 0.12, |
| "grad_norm": 7.09375, |
| "learning_rate": 4.990775143070077e-06, |
| "loss": 1.9594460725784302, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.12133333333333333, |
| "grad_norm": 5.21875, |
| "learning_rate": 4.990356221582993e-06, |
| "loss": 1.7351645231246948, |
| "step": 182 |
| }, |
| { |
| "epoch": 0.12266666666666666, |
| "grad_norm": 4.75, |
| "learning_rate": 4.989928021026984e-06, |
| "loss": 1.7385591268539429, |
| "step": 184 |
| }, |
| { |
| "epoch": 0.124, |
| "grad_norm": 4.8125, |
| "learning_rate": 4.989490543398327e-06, |
| "loss": 1.6152522563934326, |
| "step": 186 |
| }, |
| { |
| "epoch": 0.12533333333333332, |
| "grad_norm": 9.1875, |
| "learning_rate": 4.9890437907365475e-06, |
| "loss": 1.811694860458374, |
| "step": 188 |
| }, |
| { |
| "epoch": 0.12666666666666668, |
| "grad_norm": 5.4375, |
| "learning_rate": 4.9885877651244134e-06, |
| "loss": 1.835113525390625, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.128, |
| "grad_norm": 4.75, |
| "learning_rate": 4.988122468687922e-06, |
| "loss": 1.6793406009674072, |
| "step": 192 |
| }, |
| { |
| "epoch": 0.12933333333333333, |
| "grad_norm": 15.625, |
| "learning_rate": 4.9876479035962935e-06, |
| "loss": 1.0911662578582764, |
| "step": 194 |
| }, |
| { |
| "epoch": 0.13066666666666665, |
| "grad_norm": 18.25, |
| "learning_rate": 4.987164072061957e-06, |
| "loss": 2.131570816040039, |
| "step": 196 |
| }, |
| { |
| "epoch": 0.132, |
| "grad_norm": 4.5, |
| "learning_rate": 4.986670976340538e-06, |
| "loss": 1.7224147319793701, |
| "step": 198 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 2.03125, |
| "learning_rate": 4.986168618730861e-06, |
| "loss": 1.1881237030029297, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.13466666666666666, |
| "grad_norm": 9.1875, |
| "learning_rate": 4.9856570015749225e-06, |
| "loss": 1.8460280895233154, |
| "step": 202 |
| }, |
| { |
| "epoch": 0.136, |
| "grad_norm": 9.3125, |
| "learning_rate": 4.985136127257888e-06, |
| "loss": 2.2090723514556885, |
| "step": 204 |
| }, |
| { |
| "epoch": 0.13733333333333334, |
| "grad_norm": 4.4375, |
| "learning_rate": 4.984605998208081e-06, |
| "loss": 1.6706668138504028, |
| "step": 206 |
| }, |
| { |
| "epoch": 0.13866666666666666, |
| "grad_norm": 4.875, |
| "learning_rate": 4.984066616896972e-06, |
| "loss": 1.7842729091644287, |
| "step": 208 |
| }, |
| { |
| "epoch": 0.14, |
| "grad_norm": 2.734375, |
| "learning_rate": 4.9835179858391625e-06, |
| "loss": 1.0649902820587158, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.14133333333333334, |
| "grad_norm": 5.28125, |
| "learning_rate": 4.982960107592379e-06, |
| "loss": 1.7180755138397217, |
| "step": 212 |
| }, |
| { |
| "epoch": 0.14266666666666666, |
| "grad_norm": 8.5, |
| "learning_rate": 4.982392984757459e-06, |
| "loss": 2.1030969619750977, |
| "step": 214 |
| }, |
| { |
| "epoch": 0.144, |
| "grad_norm": 3.359375, |
| "learning_rate": 4.981816619978337e-06, |
| "loss": 1.277032494544983, |
| "step": 216 |
| }, |
| { |
| "epoch": 0.14533333333333334, |
| "grad_norm": 6.78125, |
| "learning_rate": 4.981231015942032e-06, |
| "loss": 2.0104990005493164, |
| "step": 218 |
| }, |
| { |
| "epoch": 0.14666666666666667, |
| "grad_norm": 5.5, |
| "learning_rate": 4.980636175378639e-06, |
| "loss": 1.7849645614624023, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.148, |
| "grad_norm": 9.8125, |
| "learning_rate": 4.980032101061314e-06, |
| "loss": 2.0194921493530273, |
| "step": 222 |
| }, |
| { |
| "epoch": 0.14933333333333335, |
| "grad_norm": 6.6875, |
| "learning_rate": 4.979418795806259e-06, |
| "loss": 1.7740180492401123, |
| "step": 224 |
| }, |
| { |
| "epoch": 0.15066666666666667, |
| "grad_norm": 6.65625, |
| "learning_rate": 4.978796262472713e-06, |
| "loss": 2.1783909797668457, |
| "step": 226 |
| }, |
| { |
| "epoch": 0.152, |
| "grad_norm": 21.125, |
| "learning_rate": 4.978164503962933e-06, |
| "loss": 1.5254769325256348, |
| "step": 228 |
| }, |
| { |
| "epoch": 0.15333333333333332, |
| "grad_norm": 5.375, |
| "learning_rate": 4.9775235232221895e-06, |
| "loss": 1.6781322956085205, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.15466666666666667, |
| "grad_norm": 7.09375, |
| "learning_rate": 4.976873323238741e-06, |
| "loss": 1.8562153577804565, |
| "step": 232 |
| }, |
| { |
| "epoch": 0.156, |
| "grad_norm": 14.6875, |
| "learning_rate": 4.976213907043831e-06, |
| "loss": 1.696861743927002, |
| "step": 234 |
| }, |
| { |
| "epoch": 0.15733333333333333, |
| "grad_norm": 12.5, |
| "learning_rate": 4.975545277711665e-06, |
| "loss": 1.8190127611160278, |
| "step": 236 |
| }, |
| { |
| "epoch": 0.15866666666666668, |
| "grad_norm": 16.75, |
| "learning_rate": 4.974867438359404e-06, |
| "loss": 2.1855759620666504, |
| "step": 238 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 6.6875, |
| "learning_rate": 4.974180392147145e-06, |
| "loss": 1.3512318134307861, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.16133333333333333, |
| "grad_norm": 6.0, |
| "learning_rate": 4.973484142277905e-06, |
| "loss": 1.6209347248077393, |
| "step": 242 |
| }, |
| { |
| "epoch": 0.16266666666666665, |
| "grad_norm": 7.59375, |
| "learning_rate": 4.9727786919976125e-06, |
| "loss": 2.101145029067993, |
| "step": 244 |
| }, |
| { |
| "epoch": 0.164, |
| "grad_norm": 5.0625, |
| "learning_rate": 4.972064044595087e-06, |
| "loss": 1.5044230222702026, |
| "step": 246 |
| }, |
| { |
| "epoch": 0.16533333333333333, |
| "grad_norm": 3.8125, |
| "learning_rate": 4.971340203402024e-06, |
| "loss": 1.6177122592926025, |
| "step": 248 |
| }, |
| { |
| "epoch": 0.16666666666666666, |
| "grad_norm": 5.0, |
| "learning_rate": 4.970607171792981e-06, |
| "loss": 1.740015983581543, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.168, |
| "grad_norm": 4.46875, |
| "learning_rate": 4.969864953185364e-06, |
| "loss": 1.7631562948226929, |
| "step": 252 |
| }, |
| { |
| "epoch": 0.16933333333333334, |
| "grad_norm": 2.625, |
| "learning_rate": 4.969113551039403e-06, |
| "loss": 1.0950901508331299, |
| "step": 254 |
| }, |
| { |
| "epoch": 0.17066666666666666, |
| "grad_norm": 4.1875, |
| "learning_rate": 4.968352968858149e-06, |
| "loss": 1.806433916091919, |
| "step": 256 |
| }, |
| { |
| "epoch": 0.172, |
| "grad_norm": 4.84375, |
| "learning_rate": 4.967583210187445e-06, |
| "loss": 1.367830753326416, |
| "step": 258 |
| }, |
| { |
| "epoch": 0.17333333333333334, |
| "grad_norm": 5.875, |
| "learning_rate": 4.9668042786159176e-06, |
| "loss": 2.118488073348999, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.17466666666666666, |
| "grad_norm": 6.0625, |
| "learning_rate": 4.966016177774956e-06, |
| "loss": 1.6788520812988281, |
| "step": 262 |
| }, |
| { |
| "epoch": 0.176, |
| "grad_norm": 2.6875, |
| "learning_rate": 4.965218911338698e-06, |
| "loss": 1.3210437297821045, |
| "step": 264 |
| }, |
| { |
| "epoch": 0.17733333333333334, |
| "grad_norm": 6.875, |
| "learning_rate": 4.964412483024012e-06, |
| "loss": 1.92716646194458, |
| "step": 266 |
| }, |
| { |
| "epoch": 0.17866666666666667, |
| "grad_norm": 7.03125, |
| "learning_rate": 4.963596896590476e-06, |
| "loss": 1.7592105865478516, |
| "step": 268 |
| }, |
| { |
| "epoch": 0.18, |
| "grad_norm": 2.5625, |
| "learning_rate": 4.962772155840368e-06, |
| "loss": 1.0765562057495117, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.18133333333333335, |
| "grad_norm": 4.78125, |
| "learning_rate": 4.961938264618638e-06, |
| "loss": 1.4803953170776367, |
| "step": 272 |
| }, |
| { |
| "epoch": 0.18266666666666667, |
| "grad_norm": 3.3125, |
| "learning_rate": 4.961095226812902e-06, |
| "loss": 1.6097404956817627, |
| "step": 274 |
| }, |
| { |
| "epoch": 0.184, |
| "grad_norm": 5.4375, |
| "learning_rate": 4.960243046353411e-06, |
| "loss": 1.7037537097930908, |
| "step": 276 |
| }, |
| { |
| "epoch": 0.18533333333333332, |
| "grad_norm": 14.75, |
| "learning_rate": 4.959381727213046e-06, |
| "loss": 2.05832576751709, |
| "step": 278 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 1.953125, |
| "learning_rate": 4.958511273407287e-06, |
| "loss": 1.2026753425598145, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.188, |
| "grad_norm": 2.484375, |
| "learning_rate": 4.957631688994202e-06, |
| "loss": 1.1111297607421875, |
| "step": 282 |
| }, |
| { |
| "epoch": 0.18933333333333333, |
| "grad_norm": 5.1875, |
| "learning_rate": 4.9567429780744256e-06, |
| "loss": 1.7283909320831299, |
| "step": 284 |
| }, |
| { |
| "epoch": 0.19066666666666668, |
| "grad_norm": 5.125, |
| "learning_rate": 4.955845144791142e-06, |
| "loss": 1.2416884899139404, |
| "step": 286 |
| }, |
| { |
| "epoch": 0.192, |
| "grad_norm": 1.796875, |
| "learning_rate": 4.954938193330061e-06, |
| "loss": 1.023611068725586, |
| "step": 288 |
| }, |
| { |
| "epoch": 0.19333333333333333, |
| "grad_norm": 2.5, |
| "learning_rate": 4.954022127919406e-06, |
| "loss": 1.2488538026809692, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.19466666666666665, |
| "grad_norm": 4.3125, |
| "learning_rate": 4.953096952829883e-06, |
| "loss": 1.7825567722320557, |
| "step": 292 |
| }, |
| { |
| "epoch": 0.196, |
| "grad_norm": 6.96875, |
| "learning_rate": 4.952162672374674e-06, |
| "loss": 1.6962242126464844, |
| "step": 294 |
| }, |
| { |
| "epoch": 0.19733333333333333, |
| "grad_norm": 8.8125, |
| "learning_rate": 4.951219290909408e-06, |
| "loss": 1.8218390941619873, |
| "step": 296 |
| }, |
| { |
| "epoch": 0.19866666666666666, |
| "grad_norm": 4.375, |
| "learning_rate": 4.9502668128321414e-06, |
| "loss": 1.539631724357605, |
| "step": 298 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 4.6875, |
| "learning_rate": 4.949305242583341e-06, |
| "loss": 1.7179573774337769, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.20133333333333334, |
| "grad_norm": 15.0625, |
| "learning_rate": 4.948334584645861e-06, |
| "loss": 2.0600290298461914, |
| "step": 302 |
| }, |
| { |
| "epoch": 0.20266666666666666, |
| "grad_norm": 31.875, |
| "learning_rate": 4.9473548435449234e-06, |
| "loss": 1.7066545486450195, |
| "step": 304 |
| }, |
| { |
| "epoch": 0.204, |
| "grad_norm": 2.4375, |
| "learning_rate": 4.946366023848093e-06, |
| "loss": 1.2282570600509644, |
| "step": 306 |
| }, |
| { |
| "epoch": 0.20533333333333334, |
| "grad_norm": 21.5, |
| "learning_rate": 4.945368130165262e-06, |
| "loss": 2.1756513118743896, |
| "step": 308 |
| }, |
| { |
| "epoch": 0.20666666666666667, |
| "grad_norm": 4.6875, |
| "learning_rate": 4.944361167148627e-06, |
| "loss": 1.6938464641571045, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.208, |
| "grad_norm": 3.59375, |
| "learning_rate": 4.943345139492662e-06, |
| "loss": 1.200679063796997, |
| "step": 312 |
| }, |
| { |
| "epoch": 0.20933333333333334, |
| "grad_norm": 1.875, |
| "learning_rate": 4.9423200519341e-06, |
| "loss": 1.150309681892395, |
| "step": 314 |
| }, |
| { |
| "epoch": 0.21066666666666667, |
| "grad_norm": 4.90625, |
| "learning_rate": 4.9412859092519195e-06, |
| "loss": 1.66481614112854, |
| "step": 316 |
| }, |
| { |
| "epoch": 0.212, |
| "grad_norm": 6.03125, |
| "learning_rate": 4.9402427162673025e-06, |
| "loss": 1.6321322917938232, |
| "step": 318 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 24.875, |
| "learning_rate": 4.939190477843634e-06, |
| "loss": 1.3526780605316162, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.21466666666666667, |
| "grad_norm": 5.9375, |
| "learning_rate": 4.938129198886462e-06, |
| "loss": 1.9712560176849365, |
| "step": 322 |
| }, |
| { |
| "epoch": 0.216, |
| "grad_norm": 4.6875, |
| "learning_rate": 4.937058884343484e-06, |
| "loss": 1.2531328201293945, |
| "step": 324 |
| }, |
| { |
| "epoch": 0.21733333333333332, |
| "grad_norm": 8.375, |
| "learning_rate": 4.9359795392045214e-06, |
| "loss": 1.63519287109375, |
| "step": 326 |
| }, |
| { |
| "epoch": 0.21866666666666668, |
| "grad_norm": 3.203125, |
| "learning_rate": 4.934891168501499e-06, |
| "loss": 1.183279275894165, |
| "step": 328 |
| }, |
| { |
| "epoch": 0.22, |
| "grad_norm": 5.6875, |
| "learning_rate": 4.933793777308415e-06, |
| "loss": 1.3079423904418945, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.22133333333333333, |
| "grad_norm": 2.703125, |
| "learning_rate": 4.932687370741321e-06, |
| "loss": 1.2213515043258667, |
| "step": 332 |
| }, |
| { |
| "epoch": 0.22266666666666668, |
| "grad_norm": 4.4375, |
| "learning_rate": 4.9315719539583015e-06, |
| "loss": 1.6351184844970703, |
| "step": 334 |
| }, |
| { |
| "epoch": 0.224, |
| "grad_norm": 2.140625, |
| "learning_rate": 4.930447532159446e-06, |
| "loss": 1.0444347858428955, |
| "step": 336 |
| }, |
| { |
| "epoch": 0.22533333333333333, |
| "grad_norm": 2.25, |
| "learning_rate": 4.9293141105868245e-06, |
| "loss": 1.169987678527832, |
| "step": 338 |
| }, |
| { |
| "epoch": 0.22666666666666666, |
| "grad_norm": 7.875, |
| "learning_rate": 4.928171694524464e-06, |
| "loss": 2.0248818397521973, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.228, |
| "grad_norm": 5.21875, |
| "learning_rate": 4.927020289298324e-06, |
| "loss": 1.7401028871536255, |
| "step": 342 |
| }, |
| { |
| "epoch": 0.22933333333333333, |
| "grad_norm": 4.0, |
| "learning_rate": 4.925859900276273e-06, |
| "loss": 1.1736500263214111, |
| "step": 344 |
| }, |
| { |
| "epoch": 0.23066666666666666, |
| "grad_norm": 4.78125, |
| "learning_rate": 4.924690532868062e-06, |
| "loss": 1.6478643417358398, |
| "step": 346 |
| }, |
| { |
| "epoch": 0.232, |
| "grad_norm": 10.75, |
| "learning_rate": 4.923512192525295e-06, |
| "loss": 2.1115689277648926, |
| "step": 348 |
| }, |
| { |
| "epoch": 0.23333333333333334, |
| "grad_norm": 6.25, |
| "learning_rate": 4.922324884741414e-06, |
| "loss": 1.1784987449645996, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.23466666666666666, |
| "grad_norm": 8.875, |
| "learning_rate": 4.921128615051664e-06, |
| "loss": 1.7437598705291748, |
| "step": 352 |
| }, |
| { |
| "epoch": 0.236, |
| "grad_norm": 2.0, |
| "learning_rate": 4.919923389033073e-06, |
| "loss": 1.086277961730957, |
| "step": 354 |
| }, |
| { |
| "epoch": 0.23733333333333334, |
| "grad_norm": 9.0625, |
| "learning_rate": 4.9187092123044185e-06, |
| "loss": 1.7361807823181152, |
| "step": 356 |
| }, |
| { |
| "epoch": 0.23866666666666667, |
| "grad_norm": 10.375, |
| "learning_rate": 4.9174860905262125e-06, |
| "loss": 2.1892127990722656, |
| "step": 358 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 10.5, |
| "learning_rate": 4.916254029400664e-06, |
| "loss": 1.6337263584136963, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.24133333333333334, |
| "grad_norm": 5.53125, |
| "learning_rate": 4.9150130346716616e-06, |
| "loss": 1.626597285270691, |
| "step": 362 |
| }, |
| { |
| "epoch": 0.24266666666666667, |
| "grad_norm": 4.625, |
| "learning_rate": 4.913763112124739e-06, |
| "loss": 1.7248157262802124, |
| "step": 364 |
| }, |
| { |
| "epoch": 0.244, |
| "grad_norm": 8.6875, |
| "learning_rate": 4.912504267587052e-06, |
| "loss": 2.0670700073242188, |
| "step": 366 |
| }, |
| { |
| "epoch": 0.24533333333333332, |
| "grad_norm": 4.5625, |
| "learning_rate": 4.911236506927353e-06, |
| "loss": 1.2027419805526733, |
| "step": 368 |
| }, |
| { |
| "epoch": 0.24666666666666667, |
| "grad_norm": 4.46875, |
| "learning_rate": 4.909959836055958e-06, |
| "loss": 1.6558904647827148, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.248, |
| "grad_norm": 3.734375, |
| "learning_rate": 4.90867426092473e-06, |
| "loss": 1.0571866035461426, |
| "step": 372 |
| }, |
| { |
| "epoch": 0.24933333333333332, |
| "grad_norm": 4.40625, |
| "learning_rate": 4.907379787527033e-06, |
| "loss": 1.663063883781433, |
| "step": 374 |
| }, |
| { |
| "epoch": 0.25066666666666665, |
| "grad_norm": 7.34375, |
| "learning_rate": 4.906076421897722e-06, |
| "loss": 1.614751935005188, |
| "step": 376 |
| }, |
| { |
| "epoch": 0.252, |
| "grad_norm": 10.375, |
| "learning_rate": 4.904764170113108e-06, |
| "loss": 1.6645468473434448, |
| "step": 378 |
| }, |
| { |
| "epoch": 0.25333333333333335, |
| "grad_norm": 2.9375, |
| "learning_rate": 4.903443038290924e-06, |
| "loss": 1.2448854446411133, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.25466666666666665, |
| "grad_norm": 4.8125, |
| "learning_rate": 4.902113032590307e-06, |
| "loss": 1.1429449319839478, |
| "step": 382 |
| }, |
| { |
| "epoch": 0.256, |
| "grad_norm": 1.9453125, |
| "learning_rate": 4.900774159211764e-06, |
| "loss": 1.2650675773620605, |
| "step": 384 |
| }, |
| { |
| "epoch": 0.25733333333333336, |
| "grad_norm": 4.34375, |
| "learning_rate": 4.899426424397139e-06, |
| "loss": 1.1405256986618042, |
| "step": 386 |
| }, |
| { |
| "epoch": 0.25866666666666666, |
| "grad_norm": 12.0, |
| "learning_rate": 4.898069834429593e-06, |
| "loss": 2.080951690673828, |
| "step": 388 |
| }, |
| { |
| "epoch": 0.26, |
| "grad_norm": 6.5, |
| "learning_rate": 4.896704395633565e-06, |
| "loss": 1.5934624671936035, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.2613333333333333, |
| "grad_norm": 12.25, |
| "learning_rate": 4.895330114374754e-06, |
| "loss": 2.1303348541259766, |
| "step": 392 |
| }, |
| { |
| "epoch": 0.26266666666666666, |
| "grad_norm": 3.953125, |
| "learning_rate": 4.893946997060075e-06, |
| "loss": 1.6423416137695312, |
| "step": 394 |
| }, |
| { |
| "epoch": 0.264, |
| "grad_norm": 5.59375, |
| "learning_rate": 4.892555050137642e-06, |
| "loss": 1.6157931089401245, |
| "step": 396 |
| }, |
| { |
| "epoch": 0.2653333333333333, |
| "grad_norm": 21.375, |
| "learning_rate": 4.891154280096731e-06, |
| "loss": 2.2374486923217773, |
| "step": 398 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 6.34375, |
| "learning_rate": 4.889744693467753e-06, |
| "loss": 0.9960446953773499, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.268, |
| "grad_norm": 14.25, |
| "learning_rate": 4.888326296822219e-06, |
| "loss": 1.7377135753631592, |
| "step": 402 |
| }, |
| { |
| "epoch": 0.2693333333333333, |
| "grad_norm": 2.671875, |
| "learning_rate": 4.886899096772716e-06, |
| "loss": 1.4004313945770264, |
| "step": 404 |
| }, |
| { |
| "epoch": 0.27066666666666667, |
| "grad_norm": 9.625, |
| "learning_rate": 4.885463099972869e-06, |
| "loss": 2.226583480834961, |
| "step": 406 |
| }, |
| { |
| "epoch": 0.272, |
| "grad_norm": 4.25, |
| "learning_rate": 4.884018313117317e-06, |
| "loss": 1.6933379173278809, |
| "step": 408 |
| }, |
| { |
| "epoch": 0.2733333333333333, |
| "grad_norm": 21.0, |
| "learning_rate": 4.882564742941677e-06, |
| "loss": 1.2351548671722412, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.27466666666666667, |
| "grad_norm": 2.28125, |
| "learning_rate": 4.881102396222511e-06, |
| "loss": 1.0993002653121948, |
| "step": 412 |
| }, |
| { |
| "epoch": 0.276, |
| "grad_norm": 2.265625, |
| "learning_rate": 4.879631279777303e-06, |
| "loss": 1.1669058799743652, |
| "step": 414 |
| }, |
| { |
| "epoch": 0.2773333333333333, |
| "grad_norm": 6.25, |
| "learning_rate": 4.878151400464418e-06, |
| "loss": 1.7067842483520508, |
| "step": 416 |
| }, |
| { |
| "epoch": 0.2786666666666667, |
| "grad_norm": 2.890625, |
| "learning_rate": 4.876662765183074e-06, |
| "loss": 1.1911600828170776, |
| "step": 418 |
| }, |
| { |
| "epoch": 0.28, |
| "grad_norm": 1.78125, |
| "learning_rate": 4.875165380873311e-06, |
| "loss": 1.3747963905334473, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.2813333333333333, |
| "grad_norm": 10.6875, |
| "learning_rate": 4.873659254515954e-06, |
| "loss": 1.6159579753875732, |
| "step": 422 |
| }, |
| { |
| "epoch": 0.2826666666666667, |
| "grad_norm": 2.265625, |
| "learning_rate": 4.872144393132588e-06, |
| "loss": 1.1511104106903076, |
| "step": 424 |
| }, |
| { |
| "epoch": 0.284, |
| "grad_norm": 4.25, |
| "learning_rate": 4.870620803785514e-06, |
| "loss": 1.5702983140945435, |
| "step": 426 |
| }, |
| { |
| "epoch": 0.2853333333333333, |
| "grad_norm": 7.25, |
| "learning_rate": 4.869088493577731e-06, |
| "loss": 1.2697384357452393, |
| "step": 428 |
| }, |
| { |
| "epoch": 0.2866666666666667, |
| "grad_norm": 12.75, |
| "learning_rate": 4.86754746965289e-06, |
| "loss": 2.1861681938171387, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.288, |
| "grad_norm": 7.0, |
| "learning_rate": 4.865997739195265e-06, |
| "loss": 1.9876891374588013, |
| "step": 432 |
| }, |
| { |
| "epoch": 0.28933333333333333, |
| "grad_norm": 11.0, |
| "learning_rate": 4.864439309429724e-06, |
| "loss": 1.7558832168579102, |
| "step": 434 |
| }, |
| { |
| "epoch": 0.2906666666666667, |
| "grad_norm": 5.4375, |
| "learning_rate": 4.862872187621685e-06, |
| "loss": 1.9074214696884155, |
| "step": 436 |
| }, |
| { |
| "epoch": 0.292, |
| "grad_norm": 5.28125, |
| "learning_rate": 4.861296381077095e-06, |
| "loss": 1.6114107370376587, |
| "step": 438 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 16.125, |
| "learning_rate": 4.859711897142386e-06, |
| "loss": 1.9621031284332275, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.2946666666666667, |
| "grad_norm": 7.03125, |
| "learning_rate": 4.858118743204444e-06, |
| "loss": 1.6151349544525146, |
| "step": 442 |
| }, |
| { |
| "epoch": 0.296, |
| "grad_norm": 6.21875, |
| "learning_rate": 4.856516926690576e-06, |
| "loss": 1.7121708393096924, |
| "step": 444 |
| }, |
| { |
| "epoch": 0.29733333333333334, |
| "grad_norm": 6.71875, |
| "learning_rate": 4.854906455068471e-06, |
| "loss": 1.1954957246780396, |
| "step": 446 |
| }, |
| { |
| "epoch": 0.2986666666666667, |
| "grad_norm": 9.0, |
| "learning_rate": 4.853287335846174e-06, |
| "loss": 2.0688719749450684, |
| "step": 448 |
| }, |
| { |
| "epoch": 0.3, |
| "grad_norm": 5.40625, |
| "learning_rate": 4.851659576572039e-06, |
| "loss": 1.677027702331543, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.30133333333333334, |
| "grad_norm": 6.03125, |
| "learning_rate": 4.850023184834703e-06, |
| "loss": 1.6223268508911133, |
| "step": 452 |
| }, |
| { |
| "epoch": 0.30266666666666664, |
| "grad_norm": 9.6875, |
| "learning_rate": 4.848378168263051e-06, |
| "loss": 1.6345758438110352, |
| "step": 454 |
| }, |
| { |
| "epoch": 0.304, |
| "grad_norm": 4.21875, |
| "learning_rate": 4.846724534526168e-06, |
| "loss": 1.7275407314300537, |
| "step": 456 |
| }, |
| { |
| "epoch": 0.30533333333333335, |
| "grad_norm": 6.90625, |
| "learning_rate": 4.845062291333322e-06, |
| "loss": 1.756260871887207, |
| "step": 458 |
| }, |
| { |
| "epoch": 0.30666666666666664, |
| "grad_norm": 14.75, |
| "learning_rate": 4.8433914464339136e-06, |
| "loss": 2.080754280090332, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.308, |
| "grad_norm": 20.375, |
| "learning_rate": 4.841712007617445e-06, |
| "loss": 1.7779812812805176, |
| "step": 462 |
| }, |
| { |
| "epoch": 0.30933333333333335, |
| "grad_norm": 4.40625, |
| "learning_rate": 4.840023982713483e-06, |
| "loss": 1.0725421905517578, |
| "step": 464 |
| }, |
| { |
| "epoch": 0.31066666666666665, |
| "grad_norm": 15.1875, |
| "learning_rate": 4.838327379591626e-06, |
| "loss": 1.982491135597229, |
| "step": 466 |
| }, |
| { |
| "epoch": 0.312, |
| "grad_norm": 2.109375, |
| "learning_rate": 4.836622206161458e-06, |
| "loss": 1.088759183883667, |
| "step": 468 |
| }, |
| { |
| "epoch": 0.31333333333333335, |
| "grad_norm": 7.0625, |
| "learning_rate": 4.834908470372525e-06, |
| "loss": 1.4255026578903198, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.31466666666666665, |
| "grad_norm": 11.9375, |
| "learning_rate": 4.833186180214287e-06, |
| "loss": 1.907231330871582, |
| "step": 472 |
| }, |
| { |
| "epoch": 0.316, |
| "grad_norm": 11.9375, |
| "learning_rate": 4.831455343716083e-06, |
| "loss": 2.125192642211914, |
| "step": 474 |
| }, |
| { |
| "epoch": 0.31733333333333336, |
| "grad_norm": 6.09375, |
| "learning_rate": 4.8297159689471e-06, |
| "loss": 1.6836061477661133, |
| "step": 476 |
| }, |
| { |
| "epoch": 0.31866666666666665, |
| "grad_norm": 4.34375, |
| "learning_rate": 4.827968064016326e-06, |
| "loss": 1.5955266952514648, |
| "step": 478 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 7.53125, |
| "learning_rate": 4.82621163707252e-06, |
| "loss": 1.5531877279281616, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.32133333333333336, |
| "grad_norm": 4.9375, |
| "learning_rate": 4.824446696304168e-06, |
| "loss": 1.5762629508972168, |
| "step": 482 |
| }, |
| { |
| "epoch": 0.32266666666666666, |
| "grad_norm": 20.875, |
| "learning_rate": 4.8226732499394504e-06, |
| "loss": 2.128744125366211, |
| "step": 484 |
| }, |
| { |
| "epoch": 0.324, |
| "grad_norm": 15.875, |
| "learning_rate": 4.820891306246197e-06, |
| "loss": 1.3488337993621826, |
| "step": 486 |
| }, |
| { |
| "epoch": 0.3253333333333333, |
| "grad_norm": 5.0, |
| "learning_rate": 4.8191008735318565e-06, |
| "loss": 1.7257015705108643, |
| "step": 488 |
| }, |
| { |
| "epoch": 0.32666666666666666, |
| "grad_norm": 5.96875, |
| "learning_rate": 4.817301960143453e-06, |
| "loss": 1.6011383533477783, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.328, |
| "grad_norm": 4.28125, |
| "learning_rate": 4.815494574467542e-06, |
| "loss": 1.690148115158081, |
| "step": 492 |
| }, |
| { |
| "epoch": 0.3293333333333333, |
| "grad_norm": 9.0625, |
| "learning_rate": 4.813678724930183e-06, |
| "loss": 1.9120967388153076, |
| "step": 494 |
| }, |
| { |
| "epoch": 0.33066666666666666, |
| "grad_norm": 7.9375, |
| "learning_rate": 4.811854419996894e-06, |
| "loss": 2.227816104888916, |
| "step": 496 |
| }, |
| { |
| "epoch": 0.332, |
| "grad_norm": 6.625, |
| "learning_rate": 4.81002166817261e-06, |
| "loss": 1.061286449432373, |
| "step": 498 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 8.9375, |
| "learning_rate": 4.808180478001644e-06, |
| "loss": 1.9699760675430298, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.33466666666666667, |
| "grad_norm": 5.21875, |
| "learning_rate": 4.806330858067652e-06, |
| "loss": 1.7396867275238037, |
| "step": 502 |
| }, |
| { |
| "epoch": 0.336, |
| "grad_norm": 2.9375, |
| "learning_rate": 4.804472816993587e-06, |
| "loss": 1.083378791809082, |
| "step": 504 |
| }, |
| { |
| "epoch": 0.3373333333333333, |
| "grad_norm": 4.75, |
| "learning_rate": 4.802606363441666e-06, |
| "loss": 1.575303554534912, |
| "step": 506 |
| }, |
| { |
| "epoch": 0.33866666666666667, |
| "grad_norm": 10.25, |
| "learning_rate": 4.800731506113319e-06, |
| "loss": 1.6470720767974854, |
| "step": 508 |
| }, |
| { |
| "epoch": 0.34, |
| "grad_norm": 8.125, |
| "learning_rate": 4.798848253749158e-06, |
| "loss": 1.6459286212921143, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.3413333333333333, |
| "grad_norm": 1.8671875, |
| "learning_rate": 4.796956615128933e-06, |
| "loss": 1.2288987636566162, |
| "step": 512 |
| }, |
| { |
| "epoch": 0.3426666666666667, |
| "grad_norm": 7.09375, |
| "learning_rate": 4.7950565990714894e-06, |
| "loss": 1.6872162818908691, |
| "step": 514 |
| }, |
| { |
| "epoch": 0.344, |
| "grad_norm": 3.765625, |
| "learning_rate": 4.79314821443473e-06, |
| "loss": 1.7207008600234985, |
| "step": 516 |
| }, |
| { |
| "epoch": 0.3453333333333333, |
| "grad_norm": 11.5625, |
| "learning_rate": 4.791231470115571e-06, |
| "loss": 2.0396337509155273, |
| "step": 518 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 2.40625, |
| "learning_rate": 4.7893063750498995e-06, |
| "loss": 1.1848084926605225, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.348, |
| "grad_norm": 5.28125, |
| "learning_rate": 4.787372938212537e-06, |
| "loss": 1.6492676734924316, |
| "step": 522 |
| }, |
| { |
| "epoch": 0.34933333333333333, |
| "grad_norm": 3.640625, |
| "learning_rate": 4.785431168617195e-06, |
| "loss": 1.5428884029388428, |
| "step": 524 |
| }, |
| { |
| "epoch": 0.3506666666666667, |
| "grad_norm": 3.703125, |
| "learning_rate": 4.78348107531643e-06, |
| "loss": 1.6366922855377197, |
| "step": 526 |
| }, |
| { |
| "epoch": 0.352, |
| "grad_norm": 5.40625, |
| "learning_rate": 4.781522667401604e-06, |
| "loss": 1.7472410202026367, |
| "step": 528 |
| }, |
| { |
| "epoch": 0.35333333333333333, |
| "grad_norm": 2.15625, |
| "learning_rate": 4.779555954002843e-06, |
| "loss": 1.2404601573944092, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.3546666666666667, |
| "grad_norm": 15.625, |
| "learning_rate": 4.777580944288991e-06, |
| "loss": 1.88511323928833, |
| "step": 532 |
| }, |
| { |
| "epoch": 0.356, |
| "grad_norm": 2.4375, |
| "learning_rate": 4.775597647467575e-06, |
| "loss": 1.0901260375976562, |
| "step": 534 |
| }, |
| { |
| "epoch": 0.35733333333333334, |
| "grad_norm": 5.25, |
| "learning_rate": 4.77360607278475e-06, |
| "loss": 1.555063009262085, |
| "step": 536 |
| }, |
| { |
| "epoch": 0.3586666666666667, |
| "grad_norm": 8.8125, |
| "learning_rate": 4.771606229525265e-06, |
| "loss": 1.9415209293365479, |
| "step": 538 |
| }, |
| { |
| "epoch": 0.36, |
| "grad_norm": 8.125, |
| "learning_rate": 4.769598127012421e-06, |
| "loss": 1.9015228748321533, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.36133333333333334, |
| "grad_norm": 4.15625, |
| "learning_rate": 4.767581774608016e-06, |
| "loss": 1.6610472202301025, |
| "step": 542 |
| }, |
| { |
| "epoch": 0.3626666666666667, |
| "grad_norm": 2.984375, |
| "learning_rate": 4.765557181712317e-06, |
| "loss": 1.0736007690429688, |
| "step": 544 |
| }, |
| { |
| "epoch": 0.364, |
| "grad_norm": 3.75, |
| "learning_rate": 4.763524357764004e-06, |
| "loss": 1.6187169551849365, |
| "step": 546 |
| }, |
| { |
| "epoch": 0.36533333333333334, |
| "grad_norm": 6.09375, |
| "learning_rate": 4.761483312240129e-06, |
| "loss": 1.6005005836486816, |
| "step": 548 |
| }, |
| { |
| "epoch": 0.36666666666666664, |
| "grad_norm": 15.125, |
| "learning_rate": 4.759434054656078e-06, |
| "loss": 2.02974796295166, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.368, |
| "grad_norm": 6.8125, |
| "learning_rate": 4.757376594565518e-06, |
| "loss": 1.6362042427062988, |
| "step": 552 |
| }, |
| { |
| "epoch": 0.36933333333333335, |
| "grad_norm": 12.5625, |
| "learning_rate": 4.755310941560356e-06, |
| "loss": 1.5618031024932861, |
| "step": 554 |
| }, |
| { |
| "epoch": 0.37066666666666664, |
| "grad_norm": 2.078125, |
| "learning_rate": 4.753237105270696e-06, |
| "loss": 1.2482681274414062, |
| "step": 556 |
| }, |
| { |
| "epoch": 0.372, |
| "grad_norm": 4.09375, |
| "learning_rate": 4.751155095364793e-06, |
| "loss": 1.620242953300476, |
| "step": 558 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 8.3125, |
| "learning_rate": 4.749064921549006e-06, |
| "loss": 2.135446071624756, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.37466666666666665, |
| "grad_norm": 5.40625, |
| "learning_rate": 4.746966593567756e-06, |
| "loss": 1.3215208053588867, |
| "step": 562 |
| }, |
| { |
| "epoch": 0.376, |
| "grad_norm": 8.375, |
| "learning_rate": 4.7448601212034765e-06, |
| "loss": 1.4838060140609741, |
| "step": 564 |
| }, |
| { |
| "epoch": 0.37733333333333335, |
| "grad_norm": 12.4375, |
| "learning_rate": 4.742745514276571e-06, |
| "loss": 1.6796302795410156, |
| "step": 566 |
| }, |
| { |
| "epoch": 0.37866666666666665, |
| "grad_norm": 12.8125, |
| "learning_rate": 4.74062278264537e-06, |
| "loss": 2.027433395385742, |
| "step": 568 |
| }, |
| { |
| "epoch": 0.38, |
| "grad_norm": 12.4375, |
| "learning_rate": 4.738491936206075e-06, |
| "loss": 1.9793848991394043, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.38133333333333336, |
| "grad_norm": 3.046875, |
| "learning_rate": 4.736352984892723e-06, |
| "loss": 0.9984286427497864, |
| "step": 572 |
| }, |
| { |
| "epoch": 0.38266666666666665, |
| "grad_norm": 5.78125, |
| "learning_rate": 4.734205938677139e-06, |
| "loss": 1.686956524848938, |
| "step": 574 |
| }, |
| { |
| "epoch": 0.384, |
| "grad_norm": 4.5, |
| "learning_rate": 4.732050807568878e-06, |
| "loss": 1.7226555347442627, |
| "step": 576 |
| }, |
| { |
| "epoch": 0.38533333333333336, |
| "grad_norm": 12.625, |
| "learning_rate": 4.729887601615194e-06, |
| "loss": 2.1920371055603027, |
| "step": 578 |
| }, |
| { |
| "epoch": 0.38666666666666666, |
| "grad_norm": 21.0, |
| "learning_rate": 4.727716330900984e-06, |
| "loss": 1.6783638000488281, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.388, |
| "grad_norm": 6.15625, |
| "learning_rate": 4.725537005548743e-06, |
| "loss": 1.344970703125, |
| "step": 582 |
| }, |
| { |
| "epoch": 0.3893333333333333, |
| "grad_norm": 3.046875, |
| "learning_rate": 4.723349635718515e-06, |
| "loss": 1.1667028665542603, |
| "step": 584 |
| }, |
| { |
| "epoch": 0.39066666666666666, |
| "grad_norm": 6.875, |
| "learning_rate": 4.721154231607851e-06, |
| "loss": 1.7253570556640625, |
| "step": 586 |
| }, |
| { |
| "epoch": 0.392, |
| "grad_norm": 6.875, |
| "learning_rate": 4.718950803451755e-06, |
| "loss": 1.813482403755188, |
| "step": 588 |
| }, |
| { |
| "epoch": 0.3933333333333333, |
| "grad_norm": 6.59375, |
| "learning_rate": 4.716739361522642e-06, |
| "loss": 1.6438264846801758, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.39466666666666667, |
| "grad_norm": 4.8125, |
| "learning_rate": 4.714519916130283e-06, |
| "loss": 1.6976796388626099, |
| "step": 592 |
| }, |
| { |
| "epoch": 0.396, |
| "grad_norm": 3.671875, |
| "learning_rate": 4.712292477621766e-06, |
| "loss": 1.6207929849624634, |
| "step": 594 |
| }, |
| { |
| "epoch": 0.3973333333333333, |
| "grad_norm": 6.6875, |
| "learning_rate": 4.710057056381439e-06, |
| "loss": 1.5759934186935425, |
| "step": 596 |
| }, |
| { |
| "epoch": 0.39866666666666667, |
| "grad_norm": 28.375, |
| "learning_rate": 4.707813662830871e-06, |
| "loss": 1.3628721237182617, |
| "step": 598 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 3.46875, |
| "learning_rate": 4.705562307428792e-06, |
| "loss": 1.591555118560791, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.4013333333333333, |
| "grad_norm": 6.125, |
| "learning_rate": 4.703303000671051e-06, |
| "loss": 1.7297916412353516, |
| "step": 602 |
| }, |
| { |
| "epoch": 0.4026666666666667, |
| "grad_norm": 2.375, |
| "learning_rate": 4.7010357530905715e-06, |
| "loss": 1.0203232765197754, |
| "step": 604 |
| }, |
| { |
| "epoch": 0.404, |
| "grad_norm": 7.6875, |
| "learning_rate": 4.698760575257292e-06, |
| "loss": 1.0827909708023071, |
| "step": 606 |
| }, |
| { |
| "epoch": 0.4053333333333333, |
| "grad_norm": 15.625, |
| "learning_rate": 4.6964774777781245e-06, |
| "loss": 1.1942954063415527, |
| "step": 608 |
| }, |
| { |
| "epoch": 0.4066666666666667, |
| "grad_norm": 8.6875, |
| "learning_rate": 4.6941864712969025e-06, |
| "loss": 1.9994385242462158, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.408, |
| "grad_norm": 5.0625, |
| "learning_rate": 4.691887566494328e-06, |
| "loss": 0.9512624740600586, |
| "step": 612 |
| }, |
| { |
| "epoch": 0.4093333333333333, |
| "grad_norm": 5.6875, |
| "learning_rate": 4.689580774087932e-06, |
| "loss": 1.6768784523010254, |
| "step": 614 |
| }, |
| { |
| "epoch": 0.4106666666666667, |
| "grad_norm": 4.875, |
| "learning_rate": 4.68726610483201e-06, |
| "loss": 1.5625501871109009, |
| "step": 616 |
| }, |
| { |
| "epoch": 0.412, |
| "grad_norm": 32.0, |
| "learning_rate": 4.6849435695175835e-06, |
| "loss": 2.0652124881744385, |
| "step": 618 |
| }, |
| { |
| "epoch": 0.41333333333333333, |
| "grad_norm": 5.1875, |
| "learning_rate": 4.682613178972346e-06, |
| "loss": 1.673771619796753, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.4146666666666667, |
| "grad_norm": 22.875, |
| "learning_rate": 4.680274944060611e-06, |
| "loss": 1.8690307140350342, |
| "step": 622 |
| }, |
| { |
| "epoch": 0.416, |
| "grad_norm": 3.5625, |
| "learning_rate": 4.677928875683263e-06, |
| "loss": 1.4643995761871338, |
| "step": 624 |
| }, |
| { |
| "epoch": 0.41733333333333333, |
| "grad_norm": 10.4375, |
| "learning_rate": 4.675574984777705e-06, |
| "loss": 1.976689338684082, |
| "step": 626 |
| }, |
| { |
| "epoch": 0.4186666666666667, |
| "grad_norm": 4.96875, |
| "learning_rate": 4.67321328231781e-06, |
| "loss": 1.1396830081939697, |
| "step": 628 |
| }, |
| { |
| "epoch": 0.42, |
| "grad_norm": 5.40625, |
| "learning_rate": 4.67084377931387e-06, |
| "loss": 1.2085014581680298, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.42133333333333334, |
| "grad_norm": 3.390625, |
| "learning_rate": 4.668466486812539e-06, |
| "loss": 1.0501954555511475, |
| "step": 632 |
| }, |
| { |
| "epoch": 0.4226666666666667, |
| "grad_norm": 8.8125, |
| "learning_rate": 4.66608141589679e-06, |
| "loss": 1.7985272407531738, |
| "step": 634 |
| }, |
| { |
| "epoch": 0.424, |
| "grad_norm": 8.0625, |
| "learning_rate": 4.663688577685859e-06, |
| "loss": 1.6298389434814453, |
| "step": 636 |
| }, |
| { |
| "epoch": 0.42533333333333334, |
| "grad_norm": 30.875, |
| "learning_rate": 4.661287983335188e-06, |
| "loss": 1.0675194263458252, |
| "step": 638 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 9.1875, |
| "learning_rate": 4.658879644036383e-06, |
| "loss": 1.6258975267410278, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.428, |
| "grad_norm": 4.8125, |
| "learning_rate": 4.656463571017159e-06, |
| "loss": 1.4670131206512451, |
| "step": 642 |
| }, |
| { |
| "epoch": 0.42933333333333334, |
| "grad_norm": 12.875, |
| "learning_rate": 4.654039775541279e-06, |
| "loss": 1.5779855251312256, |
| "step": 644 |
| }, |
| { |
| "epoch": 0.43066666666666664, |
| "grad_norm": 5.09375, |
| "learning_rate": 4.651608268908513e-06, |
| "loss": 1.165670394897461, |
| "step": 646 |
| }, |
| { |
| "epoch": 0.432, |
| "grad_norm": 4.03125, |
| "learning_rate": 4.649169062454581e-06, |
| "loss": 1.5870051383972168, |
| "step": 648 |
| }, |
| { |
| "epoch": 0.43333333333333335, |
| "grad_norm": 14.5, |
| "learning_rate": 4.646722167551095e-06, |
| "loss": 2.0407092571258545, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.43466666666666665, |
| "grad_norm": 6.875, |
| "learning_rate": 4.644267595605518e-06, |
| "loss": 1.6178638935089111, |
| "step": 652 |
| }, |
| { |
| "epoch": 0.436, |
| "grad_norm": 6.0625, |
| "learning_rate": 4.6418053580610934e-06, |
| "loss": 1.6280204057693481, |
| "step": 654 |
| }, |
| { |
| "epoch": 0.43733333333333335, |
| "grad_norm": 101.5, |
| "learning_rate": 4.639335466396812e-06, |
| "loss": 1.7070868015289307, |
| "step": 656 |
| }, |
| { |
| "epoch": 0.43866666666666665, |
| "grad_norm": 8.75, |
| "learning_rate": 4.636857932127344e-06, |
| "loss": 1.6747055053710938, |
| "step": 658 |
| }, |
| { |
| "epoch": 0.44, |
| "grad_norm": 9.0, |
| "learning_rate": 4.634372766802986e-06, |
| "loss": 1.4893217086791992, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.44133333333333336, |
| "grad_norm": 12.0, |
| "learning_rate": 4.631879982009617e-06, |
| "loss": 1.6209745407104492, |
| "step": 662 |
| }, |
| { |
| "epoch": 0.44266666666666665, |
| "grad_norm": 2.1875, |
| "learning_rate": 4.6293795893686335e-06, |
| "loss": 1.1486353874206543, |
| "step": 664 |
| }, |
| { |
| "epoch": 0.444, |
| "grad_norm": 5.625, |
| "learning_rate": 4.626871600536901e-06, |
| "loss": 1.9780635833740234, |
| "step": 666 |
| }, |
| { |
| "epoch": 0.44533333333333336, |
| "grad_norm": 4.4375, |
| "learning_rate": 4.6243560272067014e-06, |
| "loss": 1.5998198986053467, |
| "step": 668 |
| }, |
| { |
| "epoch": 0.44666666666666666, |
| "grad_norm": 1.21875, |
| "learning_rate": 4.6218328811056704e-06, |
| "loss": 1.1909828186035156, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.448, |
| "grad_norm": 4.75, |
| "learning_rate": 4.619302173996753e-06, |
| "loss": 1.4504064321517944, |
| "step": 672 |
| }, |
| { |
| "epoch": 0.4493333333333333, |
| "grad_norm": 5.4375, |
| "learning_rate": 4.6167639176781395e-06, |
| "loss": 1.688302993774414, |
| "step": 674 |
| }, |
| { |
| "epoch": 0.45066666666666666, |
| "grad_norm": 6.875, |
| "learning_rate": 4.614218123983219e-06, |
| "loss": 1.7892383337020874, |
| "step": 676 |
| }, |
| { |
| "epoch": 0.452, |
| "grad_norm": 2.0625, |
| "learning_rate": 4.611664804780517e-06, |
| "loss": 1.0726022720336914, |
| "step": 678 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 7.96875, |
| "learning_rate": 4.609103971973644e-06, |
| "loss": 1.877305030822754, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.45466666666666666, |
| "grad_norm": 5.78125, |
| "learning_rate": 4.606535637501238e-06, |
| "loss": 1.6311051845550537, |
| "step": 682 |
| }, |
| { |
| "epoch": 0.456, |
| "grad_norm": 5.125, |
| "learning_rate": 4.603959813336911e-06, |
| "loss": 1.6753770112991333, |
| "step": 684 |
| }, |
| { |
| "epoch": 0.4573333333333333, |
| "grad_norm": 5.09375, |
| "learning_rate": 4.601376511489193e-06, |
| "loss": 1.477659821510315, |
| "step": 686 |
| }, |
| { |
| "epoch": 0.45866666666666667, |
| "grad_norm": 5.125, |
| "learning_rate": 4.598785744001473e-06, |
| "loss": 1.5649811029434204, |
| "step": 688 |
| }, |
| { |
| "epoch": 0.46, |
| "grad_norm": 4.03125, |
| "learning_rate": 4.596187522951945e-06, |
| "loss": 1.5314197540283203, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.4613333333333333, |
| "grad_norm": 29.0, |
| "learning_rate": 4.593581860453553e-06, |
| "loss": 1.951949119567871, |
| "step": 692 |
| }, |
| { |
| "epoch": 0.46266666666666667, |
| "grad_norm": 7.34375, |
| "learning_rate": 4.590968768653933e-06, |
| "loss": 1.8065054416656494, |
| "step": 694 |
| }, |
| { |
| "epoch": 0.464, |
| "grad_norm": 86.5, |
| "learning_rate": 4.5883482597353555e-06, |
| "loss": 1.4217579364776611, |
| "step": 696 |
| }, |
| { |
| "epoch": 0.4653333333333333, |
| "grad_norm": 48.25, |
| "learning_rate": 4.585720345914671e-06, |
| "loss": 1.402038335800171, |
| "step": 698 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 3.515625, |
| "learning_rate": 4.583085039443249e-06, |
| "loss": 1.546642780303955, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.468, |
| "grad_norm": 6.96875, |
| "learning_rate": 4.580442352606928e-06, |
| "loss": 1.8113808631896973, |
| "step": 702 |
| }, |
| { |
| "epoch": 0.4693333333333333, |
| "grad_norm": 3.234375, |
| "learning_rate": 4.57779229772595e-06, |
| "loss": 1.235628366470337, |
| "step": 704 |
| }, |
| { |
| "epoch": 0.4706666666666667, |
| "grad_norm": 4.65625, |
| "learning_rate": 4.575134887154909e-06, |
| "loss": 1.591590166091919, |
| "step": 706 |
| }, |
| { |
| "epoch": 0.472, |
| "grad_norm": 6.125, |
| "learning_rate": 4.572470133282691e-06, |
| "loss": 1.5594894886016846, |
| "step": 708 |
| }, |
| { |
| "epoch": 0.47333333333333333, |
| "grad_norm": 5.4375, |
| "learning_rate": 4.569798048532416e-06, |
| "loss": 1.6119413375854492, |
| "step": 710 |
| }, |
| { |
| "epoch": 0.4746666666666667, |
| "grad_norm": 16.75, |
| "learning_rate": 4.56711864536138e-06, |
| "loss": 2.1140735149383545, |
| "step": 712 |
| }, |
| { |
| "epoch": 0.476, |
| "grad_norm": 3.328125, |
| "learning_rate": 4.564431936261001e-06, |
| "loss": 1.0822668075561523, |
| "step": 714 |
| }, |
| { |
| "epoch": 0.47733333333333333, |
| "grad_norm": 9.6875, |
| "learning_rate": 4.561737933756752e-06, |
| "loss": 1.572784185409546, |
| "step": 716 |
| }, |
| { |
| "epoch": 0.4786666666666667, |
| "grad_norm": 4.0625, |
| "learning_rate": 4.559036650408114e-06, |
| "loss": 1.5953166484832764, |
| "step": 718 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 4.4375, |
| "learning_rate": 4.556328098808506e-06, |
| "loss": 1.5809223651885986, |
| "step": 720 |
| }, |
| { |
| "epoch": 0.48133333333333334, |
| "grad_norm": 4.9375, |
| "learning_rate": 4.553612291585234e-06, |
| "loss": 1.7776161432266235, |
| "step": 722 |
| }, |
| { |
| "epoch": 0.4826666666666667, |
| "grad_norm": 2.71875, |
| "learning_rate": 4.550889241399431e-06, |
| "loss": 1.1778576374053955, |
| "step": 724 |
| }, |
| { |
| "epoch": 0.484, |
| "grad_norm": 16.375, |
| "learning_rate": 4.5481589609459945e-06, |
| "loss": 1.919342041015625, |
| "step": 726 |
| }, |
| { |
| "epoch": 0.48533333333333334, |
| "grad_norm": 4.03125, |
| "learning_rate": 4.545421462953531e-06, |
| "loss": 1.5503928661346436, |
| "step": 728 |
| }, |
| { |
| "epoch": 0.4866666666666667, |
| "grad_norm": 6.96875, |
| "learning_rate": 4.542676760184296e-06, |
| "loss": 2.023519992828369, |
| "step": 730 |
| }, |
| { |
| "epoch": 0.488, |
| "grad_norm": 4.40625, |
| "learning_rate": 4.539924865434131e-06, |
| "loss": 1.6147465705871582, |
| "step": 732 |
| }, |
| { |
| "epoch": 0.48933333333333334, |
| "grad_norm": 5.4375, |
| "learning_rate": 4.53716579153241e-06, |
| "loss": 1.701406717300415, |
| "step": 734 |
| }, |
| { |
| "epoch": 0.49066666666666664, |
| "grad_norm": 6.03125, |
| "learning_rate": 4.5343995513419725e-06, |
| "loss": 1.9945590496063232, |
| "step": 736 |
| }, |
| { |
| "epoch": 0.492, |
| "grad_norm": 3.046875, |
| "learning_rate": 4.531626157759072e-06, |
| "loss": 1.1337153911590576, |
| "step": 738 |
| }, |
| { |
| "epoch": 0.49333333333333335, |
| "grad_norm": 1.734375, |
| "learning_rate": 4.528845623713307e-06, |
| "loss": 1.0001354217529297, |
| "step": 740 |
| }, |
| { |
| "epoch": 0.49466666666666664, |
| "grad_norm": 7.46875, |
| "learning_rate": 4.526057962167567e-06, |
| "loss": 1.6229677200317383, |
| "step": 742 |
| }, |
| { |
| "epoch": 0.496, |
| "grad_norm": 45.75, |
| "learning_rate": 4.52326318611797e-06, |
| "loss": 1.9723401069641113, |
| "step": 744 |
| }, |
| { |
| "epoch": 0.49733333333333335, |
| "grad_norm": 2.453125, |
| "learning_rate": 4.520461308593801e-06, |
| "loss": 1.0949461460113525, |
| "step": 746 |
| }, |
| { |
| "epoch": 0.49866666666666665, |
| "grad_norm": 1.765625, |
| "learning_rate": 4.5176523426574535e-06, |
| "loss": 1.124253273010254, |
| "step": 748 |
| }, |
| { |
| "epoch": 0.5, |
| "grad_norm": 5.03125, |
| "learning_rate": 4.514836301404367e-06, |
| "loss": 1.6151834726333618, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.5013333333333333, |
| "grad_norm": 11.75, |
| "learning_rate": 4.5120131979629635e-06, |
| "loss": 1.9495484828948975, |
| "step": 752 |
| }, |
| { |
| "epoch": 0.5026666666666667, |
| "grad_norm": 3.515625, |
| "learning_rate": 4.509183045494593e-06, |
| "loss": 1.092561960220337, |
| "step": 754 |
| }, |
| { |
| "epoch": 0.504, |
| "grad_norm": 10.875, |
| "learning_rate": 4.506345857193467e-06, |
| "loss": 2.0824429988861084, |
| "step": 756 |
| }, |
| { |
| "epoch": 0.5053333333333333, |
| "grad_norm": 12.3125, |
| "learning_rate": 4.503501646286596e-06, |
| "loss": 1.9892358779907227, |
| "step": 758 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 2.890625, |
| "learning_rate": 4.500650426033732e-06, |
| "loss": 1.1249581575393677, |
| "step": 760 |
| }, |
| { |
| "epoch": 0.508, |
| "grad_norm": 8.3125, |
| "learning_rate": 4.497792209727304e-06, |
| "loss": 2.0044803619384766, |
| "step": 762 |
| }, |
| { |
| "epoch": 0.5093333333333333, |
| "grad_norm": 3.234375, |
| "learning_rate": 4.494927010692358e-06, |
| "loss": 1.162718415260315, |
| "step": 764 |
| }, |
| { |
| "epoch": 0.5106666666666667, |
| "grad_norm": 10.0625, |
| "learning_rate": 4.492054842286493e-06, |
| "loss": 1.6656391620635986, |
| "step": 766 |
| }, |
| { |
| "epoch": 0.512, |
| "grad_norm": 3.765625, |
| "learning_rate": 4.489175717899796e-06, |
| "loss": 1.6391451358795166, |
| "step": 768 |
| }, |
| { |
| "epoch": 0.5133333333333333, |
| "grad_norm": 5.28125, |
| "learning_rate": 4.486289650954789e-06, |
| "loss": 1.5884838104248047, |
| "step": 770 |
| }, |
| { |
| "epoch": 0.5146666666666667, |
| "grad_norm": 1.2890625, |
| "learning_rate": 4.483396654906356e-06, |
| "loss": 0.9799174070358276, |
| "step": 772 |
| }, |
| { |
| "epoch": 0.516, |
| "grad_norm": 1.703125, |
| "learning_rate": 4.480496743241683e-06, |
| "loss": 1.0725151300430298, |
| "step": 774 |
| }, |
| { |
| "epoch": 0.5173333333333333, |
| "grad_norm": 17.375, |
| "learning_rate": 4.477589929480203e-06, |
| "loss": 2.1492419242858887, |
| "step": 776 |
| }, |
| { |
| "epoch": 0.5186666666666667, |
| "grad_norm": 5.8125, |
| "learning_rate": 4.4746762271735214e-06, |
| "loss": 1.7624104022979736, |
| "step": 778 |
| }, |
| { |
| "epoch": 0.52, |
| "grad_norm": 16.625, |
| "learning_rate": 4.4717556499053584e-06, |
| "loss": 2.1565475463867188, |
| "step": 780 |
| }, |
| { |
| "epoch": 0.5213333333333333, |
| "grad_norm": 3.234375, |
| "learning_rate": 4.46882821129149e-06, |
| "loss": 1.2971224784851074, |
| "step": 782 |
| }, |
| { |
| "epoch": 0.5226666666666666, |
| "grad_norm": 4.90625, |
| "learning_rate": 4.465893924979673e-06, |
| "loss": 1.0319178104400635, |
| "step": 784 |
| }, |
| { |
| "epoch": 0.524, |
| "grad_norm": 8.125, |
| "learning_rate": 4.462952804649593e-06, |
| "loss": 1.9379088878631592, |
| "step": 786 |
| }, |
| { |
| "epoch": 0.5253333333333333, |
| "grad_norm": 5.6875, |
| "learning_rate": 4.460004864012796e-06, |
| "loss": 1.6146807670593262, |
| "step": 788 |
| }, |
| { |
| "epoch": 0.5266666666666666, |
| "grad_norm": 2.296875, |
| "learning_rate": 4.4570501168126205e-06, |
| "loss": 0.9778133630752563, |
| "step": 790 |
| }, |
| { |
| "epoch": 0.528, |
| "grad_norm": 1.640625, |
| "learning_rate": 4.454088576824143e-06, |
| "loss": 1.121327519416809, |
| "step": 792 |
| }, |
| { |
| "epoch": 0.5293333333333333, |
| "grad_norm": 5.90625, |
| "learning_rate": 4.451120257854101e-06, |
| "loss": 1.7932809591293335, |
| "step": 794 |
| }, |
| { |
| "epoch": 0.5306666666666666, |
| "grad_norm": 11.0625, |
| "learning_rate": 4.448145173740844e-06, |
| "loss": 1.5648019313812256, |
| "step": 796 |
| }, |
| { |
| "epoch": 0.532, |
| "grad_norm": 1.5234375, |
| "learning_rate": 4.445163338354253e-06, |
| "loss": 1.1240180730819702, |
| "step": 798 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 1.875, |
| "learning_rate": 4.442174765595688e-06, |
| "loss": 1.1813502311706543, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.5346666666666666, |
| "grad_norm": 13.4375, |
| "learning_rate": 4.439179469397918e-06, |
| "loss": 1.7995562553405762, |
| "step": 802 |
| }, |
| { |
| "epoch": 0.536, |
| "grad_norm": 3.328125, |
| "learning_rate": 4.436177463725057e-06, |
| "loss": 1.1335866451263428, |
| "step": 804 |
| }, |
| { |
| "epoch": 0.5373333333333333, |
| "grad_norm": 11.3125, |
| "learning_rate": 4.433168762572495e-06, |
| "loss": 2.0559403896331787, |
| "step": 806 |
| }, |
| { |
| "epoch": 0.5386666666666666, |
| "grad_norm": 1.8046875, |
| "learning_rate": 4.4301533799668414e-06, |
| "loss": 1.1813790798187256, |
| "step": 808 |
| }, |
| { |
| "epoch": 0.54, |
| "grad_norm": 6.21875, |
| "learning_rate": 4.427131329965854e-06, |
| "loss": 1.7660613059997559, |
| "step": 810 |
| }, |
| { |
| "epoch": 0.5413333333333333, |
| "grad_norm": 10.6875, |
| "learning_rate": 4.4241026266583705e-06, |
| "loss": 1.9616385698318481, |
| "step": 812 |
| }, |
| { |
| "epoch": 0.5426666666666666, |
| "grad_norm": 6.25, |
| "learning_rate": 4.42106728416425e-06, |
| "loss": 1.9410457611083984, |
| "step": 814 |
| }, |
| { |
| "epoch": 0.544, |
| "grad_norm": 6.03125, |
| "learning_rate": 4.418025316634301e-06, |
| "loss": 1.6492912769317627, |
| "step": 816 |
| }, |
| { |
| "epoch": 0.5453333333333333, |
| "grad_norm": 6.1875, |
| "learning_rate": 4.4149767382502205e-06, |
| "loss": 1.769735336303711, |
| "step": 818 |
| }, |
| { |
| "epoch": 0.5466666666666666, |
| "grad_norm": 33.5, |
| "learning_rate": 4.4119215632245235e-06, |
| "loss": 1.4241745471954346, |
| "step": 820 |
| }, |
| { |
| "epoch": 0.548, |
| "grad_norm": 6.3125, |
| "learning_rate": 4.408859805800481e-06, |
| "loss": 1.6003971099853516, |
| "step": 822 |
| }, |
| { |
| "epoch": 0.5493333333333333, |
| "grad_norm": 8.5625, |
| "learning_rate": 4.405791480252046e-06, |
| "loss": 1.998405933380127, |
| "step": 824 |
| }, |
| { |
| "epoch": 0.5506666666666666, |
| "grad_norm": 21.25, |
| "learning_rate": 4.4027166008837996e-06, |
| "loss": 2.0935518741607666, |
| "step": 826 |
| }, |
| { |
| "epoch": 0.552, |
| "grad_norm": 5.71875, |
| "learning_rate": 4.399635182030869e-06, |
| "loss": 1.7479844093322754, |
| "step": 828 |
| }, |
| { |
| "epoch": 0.5533333333333333, |
| "grad_norm": 5.09375, |
| "learning_rate": 4.396547238058876e-06, |
| "loss": 1.6909379959106445, |
| "step": 830 |
| }, |
| { |
| "epoch": 0.5546666666666666, |
| "grad_norm": 7.5, |
| "learning_rate": 4.393452783363857e-06, |
| "loss": 1.9220030307769775, |
| "step": 832 |
| }, |
| { |
| "epoch": 0.556, |
| "grad_norm": 13.375, |
| "learning_rate": 4.390351832372206e-06, |
| "loss": 1.959233045578003, |
| "step": 834 |
| }, |
| { |
| "epoch": 0.5573333333333333, |
| "grad_norm": 6.78125, |
| "learning_rate": 4.387244399540599e-06, |
| "loss": 1.5985342264175415, |
| "step": 836 |
| }, |
| { |
| "epoch": 0.5586666666666666, |
| "grad_norm": 3.359375, |
| "learning_rate": 4.384130499355931e-06, |
| "loss": 1.2405080795288086, |
| "step": 838 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 33.5, |
| "learning_rate": 4.381010146335249e-06, |
| "loss": 1.2756681442260742, |
| "step": 840 |
| }, |
| { |
| "epoch": 0.5613333333333334, |
| "grad_norm": 72.5, |
| "learning_rate": 4.377883355025686e-06, |
| "loss": 1.2579646110534668, |
| "step": 842 |
| }, |
| { |
| "epoch": 0.5626666666666666, |
| "grad_norm": 16.625, |
| "learning_rate": 4.374750140004383e-06, |
| "loss": 1.0350561141967773, |
| "step": 844 |
| }, |
| { |
| "epoch": 0.564, |
| "grad_norm": 4.78125, |
| "learning_rate": 4.371610515878436e-06, |
| "loss": 1.5376999378204346, |
| "step": 846 |
| }, |
| { |
| "epoch": 0.5653333333333334, |
| "grad_norm": 4.71875, |
| "learning_rate": 4.3684644972848166e-06, |
| "loss": 1.540494680404663, |
| "step": 848 |
| }, |
| { |
| "epoch": 0.5666666666666667, |
| "grad_norm": 3.84375, |
| "learning_rate": 4.365312098890308e-06, |
| "loss": 1.5681653022766113, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.568, |
| "grad_norm": 7.71875, |
| "learning_rate": 4.362153335391436e-06, |
| "loss": 2.0566165447235107, |
| "step": 852 |
| }, |
| { |
| "epoch": 0.5693333333333334, |
| "grad_norm": 1.421875, |
| "learning_rate": 4.358988221514399e-06, |
| "loss": 1.065299391746521, |
| "step": 854 |
| }, |
| { |
| "epoch": 0.5706666666666667, |
| "grad_norm": 8.0625, |
| "learning_rate": 4.355816772015007e-06, |
| "loss": 1.5944557189941406, |
| "step": 856 |
| }, |
| { |
| "epoch": 0.572, |
| "grad_norm": 9.5, |
| "learning_rate": 4.352639001678599e-06, |
| "loss": 1.5592529773712158, |
| "step": 858 |
| }, |
| { |
| "epoch": 0.5733333333333334, |
| "grad_norm": 4.25, |
| "learning_rate": 4.349454925319986e-06, |
| "loss": 1.6201512813568115, |
| "step": 860 |
| }, |
| { |
| "epoch": 0.5746666666666667, |
| "grad_norm": 6.9375, |
| "learning_rate": 4.346264557783379e-06, |
| "loss": 1.5860223770141602, |
| "step": 862 |
| }, |
| { |
| "epoch": 0.576, |
| "grad_norm": 5.34375, |
| "learning_rate": 4.343067913942314e-06, |
| "loss": 1.6586430072784424, |
| "step": 864 |
| }, |
| { |
| "epoch": 0.5773333333333334, |
| "grad_norm": 7.71875, |
| "learning_rate": 4.339865008699592e-06, |
| "loss": 1.4852830171585083, |
| "step": 866 |
| }, |
| { |
| "epoch": 0.5786666666666667, |
| "grad_norm": 3.90625, |
| "learning_rate": 4.336655856987201e-06, |
| "loss": 1.5025522708892822, |
| "step": 868 |
| }, |
| { |
| "epoch": 0.58, |
| "grad_norm": 8.875, |
| "learning_rate": 4.333440473766253e-06, |
| "loss": 1.8594863414764404, |
| "step": 870 |
| }, |
| { |
| "epoch": 0.5813333333333334, |
| "grad_norm": 3.828125, |
| "learning_rate": 4.33021887402691e-06, |
| "loss": 1.5938358306884766, |
| "step": 872 |
| }, |
| { |
| "epoch": 0.5826666666666667, |
| "grad_norm": 7.4375, |
| "learning_rate": 4.326991072788315e-06, |
| "loss": 1.713855266571045, |
| "step": 874 |
| }, |
| { |
| "epoch": 0.584, |
| "grad_norm": 2.890625, |
| "learning_rate": 4.323757085098524e-06, |
| "loss": 0.9895963668823242, |
| "step": 876 |
| }, |
| { |
| "epoch": 0.5853333333333334, |
| "grad_norm": 6.09375, |
| "learning_rate": 4.320516926034434e-06, |
| "loss": 1.524658203125, |
| "step": 878 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 10.0625, |
| "learning_rate": 4.31727061070171e-06, |
| "loss": 1.939576268196106, |
| "step": 880 |
| }, |
| { |
| "epoch": 0.588, |
| "grad_norm": 8.125, |
| "learning_rate": 4.314018154234722e-06, |
| "loss": 1.504568338394165, |
| "step": 882 |
| }, |
| { |
| "epoch": 0.5893333333333334, |
| "grad_norm": 13.25, |
| "learning_rate": 4.310759571796469e-06, |
| "loss": 1.8733505010604858, |
| "step": 884 |
| }, |
| { |
| "epoch": 0.5906666666666667, |
| "grad_norm": 8.9375, |
| "learning_rate": 4.307494878578505e-06, |
| "loss": 2.1683549880981445, |
| "step": 886 |
| }, |
| { |
| "epoch": 0.592, |
| "grad_norm": 3.34375, |
| "learning_rate": 4.3042240898008805e-06, |
| "loss": 1.0660171508789062, |
| "step": 888 |
| }, |
| { |
| "epoch": 0.5933333333333334, |
| "grad_norm": 4.875, |
| "learning_rate": 4.300947220712056e-06, |
| "loss": 1.6291861534118652, |
| "step": 890 |
| }, |
| { |
| "epoch": 0.5946666666666667, |
| "grad_norm": 6.8125, |
| "learning_rate": 4.297664286588844e-06, |
| "loss": 1.6542470455169678, |
| "step": 892 |
| }, |
| { |
| "epoch": 0.596, |
| "grad_norm": 5.53125, |
| "learning_rate": 4.294375302736328e-06, |
| "loss": 1.5474224090576172, |
| "step": 894 |
| }, |
| { |
| "epoch": 0.5973333333333334, |
| "grad_norm": 8.25, |
| "learning_rate": 4.291080284487797e-06, |
| "loss": 1.8157379627227783, |
| "step": 896 |
| }, |
| { |
| "epoch": 0.5986666666666667, |
| "grad_norm": 4.28125, |
| "learning_rate": 4.287779247204675e-06, |
| "loss": 1.239814281463623, |
| "step": 898 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 6.21875, |
| "learning_rate": 4.284472206276443e-06, |
| "loss": 1.558706283569336, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.6013333333333334, |
| "grad_norm": 8.625, |
| "learning_rate": 4.281159177120574e-06, |
| "loss": 2.167874336242676, |
| "step": 902 |
| }, |
| { |
| "epoch": 0.6026666666666667, |
| "grad_norm": 3.171875, |
| "learning_rate": 4.2778401751824565e-06, |
| "loss": 1.0401667356491089, |
| "step": 904 |
| }, |
| { |
| "epoch": 0.604, |
| "grad_norm": 32.25, |
| "learning_rate": 4.274515215935322e-06, |
| "loss": 1.2682547569274902, |
| "step": 906 |
| }, |
| { |
| "epoch": 0.6053333333333333, |
| "grad_norm": 3.578125, |
| "learning_rate": 4.271184314880181e-06, |
| "loss": 1.533789873123169, |
| "step": 908 |
| }, |
| { |
| "epoch": 0.6066666666666667, |
| "grad_norm": 3.9375, |
| "learning_rate": 4.267847487545741e-06, |
| "loss": 1.5725165605545044, |
| "step": 910 |
| }, |
| { |
| "epoch": 0.608, |
| "grad_norm": 4.875, |
| "learning_rate": 4.264504749488336e-06, |
| "loss": 1.630423665046692, |
| "step": 912 |
| }, |
| { |
| "epoch": 0.6093333333333333, |
| "grad_norm": 4.28125, |
| "learning_rate": 4.261156116291862e-06, |
| "loss": 1.0812149047851562, |
| "step": 914 |
| }, |
| { |
| "epoch": 0.6106666666666667, |
| "grad_norm": 4.3125, |
| "learning_rate": 4.257801603567689e-06, |
| "loss": 1.5762662887573242, |
| "step": 916 |
| }, |
| { |
| "epoch": 0.612, |
| "grad_norm": 7.25, |
| "learning_rate": 4.254441226954608e-06, |
| "loss": 1.642853021621704, |
| "step": 918 |
| }, |
| { |
| "epoch": 0.6133333333333333, |
| "grad_norm": 8.4375, |
| "learning_rate": 4.251075002118741e-06, |
| "loss": 1.8817405700683594, |
| "step": 920 |
| }, |
| { |
| "epoch": 0.6146666666666667, |
| "grad_norm": 8.625, |
| "learning_rate": 4.2477029447534744e-06, |
| "loss": 1.8150745630264282, |
| "step": 922 |
| }, |
| { |
| "epoch": 0.616, |
| "grad_norm": 4.46875, |
| "learning_rate": 4.244325070579391e-06, |
| "loss": 1.6018476486206055, |
| "step": 924 |
| }, |
| { |
| "epoch": 0.6173333333333333, |
| "grad_norm": 11.75, |
| "learning_rate": 4.240941395344182e-06, |
| "loss": 1.8347196578979492, |
| "step": 926 |
| }, |
| { |
| "epoch": 0.6186666666666667, |
| "grad_norm": 9.6875, |
| "learning_rate": 4.2375519348225946e-06, |
| "loss": 1.8900158405303955, |
| "step": 928 |
| }, |
| { |
| "epoch": 0.62, |
| "grad_norm": 4.75, |
| "learning_rate": 4.23415670481634e-06, |
| "loss": 1.5854055881500244, |
| "step": 930 |
| }, |
| { |
| "epoch": 0.6213333333333333, |
| "grad_norm": 15.75, |
| "learning_rate": 4.2307557211540296e-06, |
| "loss": 2.090912342071533, |
| "step": 932 |
| }, |
| { |
| "epoch": 0.6226666666666667, |
| "grad_norm": 5.125, |
| "learning_rate": 4.227348999691096e-06, |
| "loss": 1.1517055034637451, |
| "step": 934 |
| }, |
| { |
| "epoch": 0.624, |
| "grad_norm": 22.5, |
| "learning_rate": 4.223936556309723e-06, |
| "loss": 1.033469796180725, |
| "step": 936 |
| }, |
| { |
| "epoch": 0.6253333333333333, |
| "grad_norm": 5.125, |
| "learning_rate": 4.220518406918771e-06, |
| "loss": 1.536806344985962, |
| "step": 938 |
| }, |
| { |
| "epoch": 0.6266666666666667, |
| "grad_norm": 9.1875, |
| "learning_rate": 4.2170945674537015e-06, |
| "loss": 2.028916835784912, |
| "step": 940 |
| }, |
| { |
| "epoch": 0.628, |
| "grad_norm": 7.0, |
| "learning_rate": 4.2136650538765e-06, |
| "loss": 1.6300554275512695, |
| "step": 942 |
| }, |
| { |
| "epoch": 0.6293333333333333, |
| "grad_norm": 6.71875, |
| "learning_rate": 4.210229882175611e-06, |
| "loss": 1.740851640701294, |
| "step": 944 |
| }, |
| { |
| "epoch": 0.6306666666666667, |
| "grad_norm": 4.90625, |
| "learning_rate": 4.2067890683658495e-06, |
| "loss": 1.5381369590759277, |
| "step": 946 |
| }, |
| { |
| "epoch": 0.632, |
| "grad_norm": 4.84375, |
| "learning_rate": 4.203342628488342e-06, |
| "loss": 1.6090049743652344, |
| "step": 948 |
| }, |
| { |
| "epoch": 0.6333333333333333, |
| "grad_norm": 2.703125, |
| "learning_rate": 4.1998905786104386e-06, |
| "loss": 1.1410777568817139, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.6346666666666667, |
| "grad_norm": 1.90625, |
| "learning_rate": 4.196432934825644e-06, |
| "loss": 1.1576334238052368, |
| "step": 952 |
| }, |
| { |
| "epoch": 0.636, |
| "grad_norm": 8.8125, |
| "learning_rate": 4.192969713253544e-06, |
| "loss": 1.8281700611114502, |
| "step": 954 |
| }, |
| { |
| "epoch": 0.6373333333333333, |
| "grad_norm": 1.8203125, |
| "learning_rate": 4.189500930039726e-06, |
| "loss": 1.1463249921798706, |
| "step": 956 |
| }, |
| { |
| "epoch": 0.6386666666666667, |
| "grad_norm": 11.375, |
| "learning_rate": 4.186026601355706e-06, |
| "loss": 1.3184925317764282, |
| "step": 958 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 2.375, |
| "learning_rate": 4.182546743398855e-06, |
| "loss": 1.1309475898742676, |
| "step": 960 |
| }, |
| { |
| "epoch": 0.6413333333333333, |
| "grad_norm": 6.28125, |
| "learning_rate": 4.179061372392319e-06, |
| "loss": 2.0938892364501953, |
| "step": 962 |
| }, |
| { |
| "epoch": 0.6426666666666667, |
| "grad_norm": 5.125, |
| "learning_rate": 4.1755705045849474e-06, |
| "loss": 1.8526628017425537, |
| "step": 964 |
| }, |
| { |
| "epoch": 0.644, |
| "grad_norm": 11.5625, |
| "learning_rate": 4.172074156251215e-06, |
| "loss": 1.9665130376815796, |
| "step": 966 |
| }, |
| { |
| "epoch": 0.6453333333333333, |
| "grad_norm": 7.65625, |
| "learning_rate": 4.168572343691147e-06, |
| "loss": 1.5805991888046265, |
| "step": 968 |
| }, |
| { |
| "epoch": 0.6466666666666666, |
| "grad_norm": 103.5, |
| "learning_rate": 4.165065083230245e-06, |
| "loss": 1.496896505355835, |
| "step": 970 |
| }, |
| { |
| "epoch": 0.648, |
| "grad_norm": 19.375, |
| "learning_rate": 4.161552391219406e-06, |
| "loss": 1.1086199283599854, |
| "step": 972 |
| }, |
| { |
| "epoch": 0.6493333333333333, |
| "grad_norm": 26.5, |
| "learning_rate": 4.158034284034849e-06, |
| "loss": 1.9410427808761597, |
| "step": 974 |
| }, |
| { |
| "epoch": 0.6506666666666666, |
| "grad_norm": 11.8125, |
| "learning_rate": 4.154510778078039e-06, |
| "loss": 1.9177557229995728, |
| "step": 976 |
| }, |
| { |
| "epoch": 0.652, |
| "grad_norm": 10.4375, |
| "learning_rate": 4.150981889775614e-06, |
| "loss": 1.9715896844863892, |
| "step": 978 |
| }, |
| { |
| "epoch": 0.6533333333333333, |
| "grad_norm": 18.25, |
| "learning_rate": 4.147447635579299e-06, |
| "loss": 1.1010019779205322, |
| "step": 980 |
| }, |
| { |
| "epoch": 0.6546666666666666, |
| "grad_norm": 4.34375, |
| "learning_rate": 4.143908031965837e-06, |
| "loss": 1.5735809803009033, |
| "step": 982 |
| }, |
| { |
| "epoch": 0.656, |
| "grad_norm": 2.140625, |
| "learning_rate": 4.140363095436912e-06, |
| "loss": 1.1293983459472656, |
| "step": 984 |
| }, |
| { |
| "epoch": 0.6573333333333333, |
| "grad_norm": 5.46875, |
| "learning_rate": 4.136812842519067e-06, |
| "loss": 1.9613256454467773, |
| "step": 986 |
| }, |
| { |
| "epoch": 0.6586666666666666, |
| "grad_norm": 2.421875, |
| "learning_rate": 4.13325728976363e-06, |
| "loss": 0.9995434880256653, |
| "step": 988 |
| }, |
| { |
| "epoch": 0.66, |
| "grad_norm": 4.65625, |
| "learning_rate": 4.129696453746642e-06, |
| "loss": 1.6232421398162842, |
| "step": 990 |
| }, |
| { |
| "epoch": 0.6613333333333333, |
| "grad_norm": 5.09375, |
| "learning_rate": 4.126130351068768e-06, |
| "loss": 1.6333463191986084, |
| "step": 992 |
| }, |
| { |
| "epoch": 0.6626666666666666, |
| "grad_norm": 9.0625, |
| "learning_rate": 4.122558998355229e-06, |
| "loss": 1.931457757949829, |
| "step": 994 |
| }, |
| { |
| "epoch": 0.664, |
| "grad_norm": 2.90625, |
| "learning_rate": 4.118982412255725e-06, |
| "loss": 1.1441792249679565, |
| "step": 996 |
| }, |
| { |
| "epoch": 0.6653333333333333, |
| "grad_norm": 6.375, |
| "learning_rate": 4.115400609444349e-06, |
| "loss": 1.8410940170288086, |
| "step": 998 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 13.25, |
| "learning_rate": 4.111813606619517e-06, |
| "loss": 1.7064735889434814, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.668, |
| "grad_norm": 21.5, |
| "learning_rate": 4.1082214205038864e-06, |
| "loss": 2.002370834350586, |
| "step": 1002 |
| }, |
| { |
| "epoch": 0.6693333333333333, |
| "grad_norm": 8.0625, |
| "learning_rate": 4.104624067844281e-06, |
| "loss": 1.1194469928741455, |
| "step": 1004 |
| }, |
| { |
| "epoch": 0.6706666666666666, |
| "grad_norm": 5.21875, |
| "learning_rate": 4.1010215654116084e-06, |
| "loss": 1.5584155321121216, |
| "step": 1006 |
| }, |
| { |
| "epoch": 0.672, |
| "grad_norm": 7.375, |
| "learning_rate": 4.0974139300007855e-06, |
| "loss": 1.5594654083251953, |
| "step": 1008 |
| }, |
| { |
| "epoch": 0.6733333333333333, |
| "grad_norm": 17.75, |
| "learning_rate": 4.093801178430663e-06, |
| "loss": 1.9932979345321655, |
| "step": 1010 |
| }, |
| { |
| "epoch": 0.6746666666666666, |
| "grad_norm": 7.75, |
| "learning_rate": 4.090183327543937e-06, |
| "loss": 1.4730606079101562, |
| "step": 1012 |
| }, |
| { |
| "epoch": 0.676, |
| "grad_norm": 24.375, |
| "learning_rate": 4.086560394207081e-06, |
| "loss": 2.038485050201416, |
| "step": 1014 |
| }, |
| { |
| "epoch": 0.6773333333333333, |
| "grad_norm": 9.0625, |
| "learning_rate": 4.082932395310261e-06, |
| "loss": 1.8734180927276611, |
| "step": 1016 |
| }, |
| { |
| "epoch": 0.6786666666666666, |
| "grad_norm": 9.0625, |
| "learning_rate": 4.07929934776726e-06, |
| "loss": 2.1227965354919434, |
| "step": 1018 |
| }, |
| { |
| "epoch": 0.68, |
| "grad_norm": 2.578125, |
| "learning_rate": 4.075661268515395e-06, |
| "loss": 1.21480393409729, |
| "step": 1020 |
| }, |
| { |
| "epoch": 0.6813333333333333, |
| "grad_norm": 9.625, |
| "learning_rate": 4.072018174515446e-06, |
| "loss": 1.6561039686203003, |
| "step": 1022 |
| }, |
| { |
| "epoch": 0.6826666666666666, |
| "grad_norm": 4.09375, |
| "learning_rate": 4.068370082751567e-06, |
| "loss": 1.6361010074615479, |
| "step": 1024 |
| }, |
| { |
| "epoch": 0.684, |
| "grad_norm": 1.8046875, |
| "learning_rate": 4.064717010231214e-06, |
| "loss": 1.1598769426345825, |
| "step": 1026 |
| }, |
| { |
| "epoch": 0.6853333333333333, |
| "grad_norm": 2.90625, |
| "learning_rate": 4.061058973985064e-06, |
| "loss": 1.2839393615722656, |
| "step": 1028 |
| }, |
| { |
| "epoch": 0.6866666666666666, |
| "grad_norm": 10.6875, |
| "learning_rate": 4.0573959910669316e-06, |
| "loss": 1.272928237915039, |
| "step": 1030 |
| }, |
| { |
| "epoch": 0.688, |
| "grad_norm": 3.96875, |
| "learning_rate": 4.0537280785536955e-06, |
| "loss": 1.5582289695739746, |
| "step": 1032 |
| }, |
| { |
| "epoch": 0.6893333333333334, |
| "grad_norm": 8.1875, |
| "learning_rate": 4.050055253545219e-06, |
| "loss": 1.6847953796386719, |
| "step": 1034 |
| }, |
| { |
| "epoch": 0.6906666666666667, |
| "grad_norm": 10.0625, |
| "learning_rate": 4.0463775331642605e-06, |
| "loss": 2.000561237335205, |
| "step": 1036 |
| }, |
| { |
| "epoch": 0.692, |
| "grad_norm": 4.34375, |
| "learning_rate": 4.042694934556407e-06, |
| "loss": 1.596095085144043, |
| "step": 1038 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 8.1875, |
| "learning_rate": 4.039007474889983e-06, |
| "loss": 1.8276232481002808, |
| "step": 1040 |
| }, |
| { |
| "epoch": 0.6946666666666667, |
| "grad_norm": 14.5625, |
| "learning_rate": 4.035315171355981e-06, |
| "loss": 1.7133440971374512, |
| "step": 1042 |
| }, |
| { |
| "epoch": 0.696, |
| "grad_norm": 4.5625, |
| "learning_rate": 4.031618041167969e-06, |
| "loss": 1.6173053979873657, |
| "step": 1044 |
| }, |
| { |
| "epoch": 0.6973333333333334, |
| "grad_norm": 29.625, |
| "learning_rate": 4.027916101562024e-06, |
| "loss": 0.8435451984405518, |
| "step": 1046 |
| }, |
| { |
| "epoch": 0.6986666666666667, |
| "grad_norm": 7.1875, |
| "learning_rate": 4.024209369796638e-06, |
| "loss": 1.728581428527832, |
| "step": 1048 |
| }, |
| { |
| "epoch": 0.7, |
| "grad_norm": 2.453125, |
| "learning_rate": 4.020497863152647e-06, |
| "loss": 1.4456583261489868, |
| "step": 1050 |
| }, |
| { |
| "epoch": 0.7013333333333334, |
| "grad_norm": 20.625, |
| "learning_rate": 4.0167815989331505e-06, |
| "loss": 1.5146148204803467, |
| "step": 1052 |
| }, |
| { |
| "epoch": 0.7026666666666667, |
| "grad_norm": 5.1875, |
| "learning_rate": 4.013060594463422e-06, |
| "loss": 1.0910983085632324, |
| "step": 1054 |
| }, |
| { |
| "epoch": 0.704, |
| "grad_norm": 4.53125, |
| "learning_rate": 4.009334867090839e-06, |
| "loss": 1.5269734859466553, |
| "step": 1056 |
| }, |
| { |
| "epoch": 0.7053333333333334, |
| "grad_norm": 8.375, |
| "learning_rate": 4.005604434184793e-06, |
| "loss": 2.0650410652160645, |
| "step": 1058 |
| }, |
| { |
| "epoch": 0.7066666666666667, |
| "grad_norm": 3.765625, |
| "learning_rate": 4.0018693131366185e-06, |
| "loss": 1.6046576499938965, |
| "step": 1060 |
| }, |
| { |
| "epoch": 0.708, |
| "grad_norm": 3.9375, |
| "learning_rate": 3.998129521359499e-06, |
| "loss": 1.0697150230407715, |
| "step": 1062 |
| }, |
| { |
| "epoch": 0.7093333333333334, |
| "grad_norm": 2.09375, |
| "learning_rate": 3.994385076288399e-06, |
| "loss": 1.048234224319458, |
| "step": 1064 |
| }, |
| { |
| "epoch": 0.7106666666666667, |
| "grad_norm": 2.578125, |
| "learning_rate": 3.990635995379975e-06, |
| "loss": 1.0379292964935303, |
| "step": 1066 |
| }, |
| { |
| "epoch": 0.712, |
| "grad_norm": 8.9375, |
| "learning_rate": 3.986882296112495e-06, |
| "loss": 2.008152961730957, |
| "step": 1068 |
| }, |
| { |
| "epoch": 0.7133333333333334, |
| "grad_norm": 4.21875, |
| "learning_rate": 3.983123995985757e-06, |
| "loss": 1.593372106552124, |
| "step": 1070 |
| }, |
| { |
| "epoch": 0.7146666666666667, |
| "grad_norm": 10.0, |
| "learning_rate": 3.979361112521011e-06, |
| "loss": 1.7745264768600464, |
| "step": 1072 |
| }, |
| { |
| "epoch": 0.716, |
| "grad_norm": 9.6875, |
| "learning_rate": 3.975593663260872e-06, |
| "loss": 1.8867788314819336, |
| "step": 1074 |
| }, |
| { |
| "epoch": 0.7173333333333334, |
| "grad_norm": 8.25, |
| "learning_rate": 3.971821665769241e-06, |
| "loss": 1.751440167427063, |
| "step": 1076 |
| }, |
| { |
| "epoch": 0.7186666666666667, |
| "grad_norm": 22.75, |
| "learning_rate": 3.968045137631226e-06, |
| "loss": 1.5239152908325195, |
| "step": 1078 |
| }, |
| { |
| "epoch": 0.72, |
| "grad_norm": 4.9375, |
| "learning_rate": 3.964264096453055e-06, |
| "loss": 1.5637166500091553, |
| "step": 1080 |
| }, |
| { |
| "epoch": 0.7213333333333334, |
| "grad_norm": 5.65625, |
| "learning_rate": 3.960478559861992e-06, |
| "loss": 1.5539973974227905, |
| "step": 1082 |
| }, |
| { |
| "epoch": 0.7226666666666667, |
| "grad_norm": 31.25, |
| "learning_rate": 3.956688545506266e-06, |
| "loss": 2.123660087585449, |
| "step": 1084 |
| }, |
| { |
| "epoch": 0.724, |
| "grad_norm": 6.625, |
| "learning_rate": 3.952894071054976e-06, |
| "loss": 1.5803725719451904, |
| "step": 1086 |
| }, |
| { |
| "epoch": 0.7253333333333334, |
| "grad_norm": 4.15625, |
| "learning_rate": 3.949095154198015e-06, |
| "loss": 1.592582106590271, |
| "step": 1088 |
| }, |
| { |
| "epoch": 0.7266666666666667, |
| "grad_norm": 4.9375, |
| "learning_rate": 3.945291812645989e-06, |
| "loss": 1.5624558925628662, |
| "step": 1090 |
| }, |
| { |
| "epoch": 0.728, |
| "grad_norm": 31.5, |
| "learning_rate": 3.941484064130129e-06, |
| "loss": 0.7563271522521973, |
| "step": 1092 |
| }, |
| { |
| "epoch": 0.7293333333333333, |
| "grad_norm": 2.25, |
| "learning_rate": 3.937671926402213e-06, |
| "loss": 1.1665401458740234, |
| "step": 1094 |
| }, |
| { |
| "epoch": 0.7306666666666667, |
| "grad_norm": 6.40625, |
| "learning_rate": 3.933855417234481e-06, |
| "loss": 1.601196527481079, |
| "step": 1096 |
| }, |
| { |
| "epoch": 0.732, |
| "grad_norm": 4.59375, |
| "learning_rate": 3.930034554419554e-06, |
| "loss": 1.6145453453063965, |
| "step": 1098 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 1.453125, |
| "learning_rate": 3.926209355770348e-06, |
| "loss": 1.085764765739441, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.7346666666666667, |
| "grad_norm": 5.1875, |
| "learning_rate": 3.922379839119991e-06, |
| "loss": 1.493807077407837, |
| "step": 1102 |
| }, |
| { |
| "epoch": 0.736, |
| "grad_norm": 11.5625, |
| "learning_rate": 3.9185460223217464e-06, |
| "loss": 1.9608560800552368, |
| "step": 1104 |
| }, |
| { |
| "epoch": 0.7373333333333333, |
| "grad_norm": 2.640625, |
| "learning_rate": 3.914707923248923e-06, |
| "loss": 1.1575837135314941, |
| "step": 1106 |
| }, |
| { |
| "epoch": 0.7386666666666667, |
| "grad_norm": 4.78125, |
| "learning_rate": 3.910865559794791e-06, |
| "loss": 1.6585121154785156, |
| "step": 1108 |
| }, |
| { |
| "epoch": 0.74, |
| "grad_norm": 5.625, |
| "learning_rate": 3.907018949872504e-06, |
| "loss": 1.608562707901001, |
| "step": 1110 |
| }, |
| { |
| "epoch": 0.7413333333333333, |
| "grad_norm": 1.90625, |
| "learning_rate": 3.903168111415013e-06, |
| "loss": 1.0436785221099854, |
| "step": 1112 |
| }, |
| { |
| "epoch": 0.7426666666666667, |
| "grad_norm": 5.09375, |
| "learning_rate": 3.899313062374981e-06, |
| "loss": 1.571044921875, |
| "step": 1114 |
| }, |
| { |
| "epoch": 0.744, |
| "grad_norm": 4.75, |
| "learning_rate": 3.895453820724699e-06, |
| "loss": 1.6325924396514893, |
| "step": 1116 |
| }, |
| { |
| "epoch": 0.7453333333333333, |
| "grad_norm": 7.1875, |
| "learning_rate": 3.891590404456011e-06, |
| "loss": 1.6957452297210693, |
| "step": 1118 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 4.8125, |
| "learning_rate": 3.8877228315802154e-06, |
| "loss": 1.0871795415878296, |
| "step": 1120 |
| }, |
| { |
| "epoch": 0.748, |
| "grad_norm": 2.234375, |
| "learning_rate": 3.883851120127991e-06, |
| "loss": 1.1415892839431763, |
| "step": 1122 |
| }, |
| { |
| "epoch": 0.7493333333333333, |
| "grad_norm": 6.46875, |
| "learning_rate": 3.879975288149313e-06, |
| "loss": 1.5673210620880127, |
| "step": 1124 |
| }, |
| { |
| "epoch": 0.7506666666666667, |
| "grad_norm": 3.0, |
| "learning_rate": 3.876095353713365e-06, |
| "loss": 1.2196298837661743, |
| "step": 1126 |
| }, |
| { |
| "epoch": 0.752, |
| "grad_norm": 5.03125, |
| "learning_rate": 3.872211334908457e-06, |
| "loss": 1.531401515007019, |
| "step": 1128 |
| }, |
| { |
| "epoch": 0.7533333333333333, |
| "grad_norm": 2.921875, |
| "learning_rate": 3.868323249841938e-06, |
| "loss": 1.157065749168396, |
| "step": 1130 |
| }, |
| { |
| "epoch": 0.7546666666666667, |
| "grad_norm": 7.375, |
| "learning_rate": 3.864431116640116e-06, |
| "loss": 1.9410104751586914, |
| "step": 1132 |
| }, |
| { |
| "epoch": 0.756, |
| "grad_norm": 1.8046875, |
| "learning_rate": 3.860534953448172e-06, |
| "loss": 1.1366026401519775, |
| "step": 1134 |
| }, |
| { |
| "epoch": 0.7573333333333333, |
| "grad_norm": 6.59375, |
| "learning_rate": 3.8566347784300736e-06, |
| "loss": 1.7256261110305786, |
| "step": 1136 |
| }, |
| { |
| "epoch": 0.7586666666666667, |
| "grad_norm": 10.25, |
| "learning_rate": 3.852730609768493e-06, |
| "loss": 1.6122360229492188, |
| "step": 1138 |
| }, |
| { |
| "epoch": 0.76, |
| "grad_norm": 5.4375, |
| "learning_rate": 3.8488224656647175e-06, |
| "loss": 1.6505470275878906, |
| "step": 1140 |
| }, |
| { |
| "epoch": 0.7613333333333333, |
| "grad_norm": 4.1875, |
| "learning_rate": 3.844910364338574e-06, |
| "loss": 1.6339609622955322, |
| "step": 1142 |
| }, |
| { |
| "epoch": 0.7626666666666667, |
| "grad_norm": 1.6796875, |
| "learning_rate": 3.84099432402833e-06, |
| "loss": 1.1175481081008911, |
| "step": 1144 |
| }, |
| { |
| "epoch": 0.764, |
| "grad_norm": 9.9375, |
| "learning_rate": 3.837074362990624e-06, |
| "loss": 2.268331527709961, |
| "step": 1146 |
| }, |
| { |
| "epoch": 0.7653333333333333, |
| "grad_norm": 14.125, |
| "learning_rate": 3.833150499500369e-06, |
| "loss": 1.9729036092758179, |
| "step": 1148 |
| }, |
| { |
| "epoch": 0.7666666666666667, |
| "grad_norm": 1.796875, |
| "learning_rate": 3.829222751850673e-06, |
| "loss": 1.1577950716018677, |
| "step": 1150 |
| }, |
| { |
| "epoch": 0.768, |
| "grad_norm": 9.875, |
| "learning_rate": 3.8252911383527505e-06, |
| "loss": 2.0585074424743652, |
| "step": 1152 |
| }, |
| { |
| "epoch": 0.7693333333333333, |
| "grad_norm": 4.46875, |
| "learning_rate": 3.821355677335839e-06, |
| "loss": 1.5769875049591064, |
| "step": 1154 |
| }, |
| { |
| "epoch": 0.7706666666666667, |
| "grad_norm": 8.0625, |
| "learning_rate": 3.817416387147114e-06, |
| "loss": 1.9496655464172363, |
| "step": 1156 |
| }, |
| { |
| "epoch": 0.772, |
| "grad_norm": 6.21875, |
| "learning_rate": 3.813473286151601e-06, |
| "loss": 1.529472827911377, |
| "step": 1158 |
| }, |
| { |
| "epoch": 0.7733333333333333, |
| "grad_norm": 5.9375, |
| "learning_rate": 3.8095263927320945e-06, |
| "loss": 1.6636042594909668, |
| "step": 1160 |
| }, |
| { |
| "epoch": 0.7746666666666666, |
| "grad_norm": 6.78125, |
| "learning_rate": 3.8055757252890677e-06, |
| "loss": 1.729430913925171, |
| "step": 1162 |
| }, |
| { |
| "epoch": 0.776, |
| "grad_norm": 14.125, |
| "learning_rate": 3.801621302240588e-06, |
| "loss": 1.8068076372146606, |
| "step": 1164 |
| }, |
| { |
| "epoch": 0.7773333333333333, |
| "grad_norm": 10.25, |
| "learning_rate": 3.797663142022231e-06, |
| "loss": 2.0321993827819824, |
| "step": 1166 |
| }, |
| { |
| "epoch": 0.7786666666666666, |
| "grad_norm": 7.09375, |
| "learning_rate": 3.793701263086995e-06, |
| "loss": 1.7701747417449951, |
| "step": 1168 |
| }, |
| { |
| "epoch": 0.78, |
| "grad_norm": 9.25, |
| "learning_rate": 3.789735683905218e-06, |
| "loss": 1.120033621788025, |
| "step": 1170 |
| }, |
| { |
| "epoch": 0.7813333333333333, |
| "grad_norm": 4.40625, |
| "learning_rate": 3.785766422964484e-06, |
| "loss": 1.5124024152755737, |
| "step": 1172 |
| }, |
| { |
| "epoch": 0.7826666666666666, |
| "grad_norm": 2.703125, |
| "learning_rate": 3.781793498769546e-06, |
| "loss": 1.2949274778366089, |
| "step": 1174 |
| }, |
| { |
| "epoch": 0.784, |
| "grad_norm": 7.03125, |
| "learning_rate": 3.777816929842232e-06, |
| "loss": 1.6004828214645386, |
| "step": 1176 |
| }, |
| { |
| "epoch": 0.7853333333333333, |
| "grad_norm": 7.0, |
| "learning_rate": 3.7738367347213623e-06, |
| "loss": 1.5260186195373535, |
| "step": 1178 |
| }, |
| { |
| "epoch": 0.7866666666666666, |
| "grad_norm": 2.171875, |
| "learning_rate": 3.7698529319626633e-06, |
| "loss": 1.0432777404785156, |
| "step": 1180 |
| }, |
| { |
| "epoch": 0.788, |
| "grad_norm": 4.5, |
| "learning_rate": 3.765865540138679e-06, |
| "loss": 1.6023154258728027, |
| "step": 1182 |
| }, |
| { |
| "epoch": 0.7893333333333333, |
| "grad_norm": 5.84375, |
| "learning_rate": 3.7618745778386888e-06, |
| "loss": 1.6582971811294556, |
| "step": 1184 |
| }, |
| { |
| "epoch": 0.7906666666666666, |
| "grad_norm": 7.21875, |
| "learning_rate": 3.757880063668614e-06, |
| "loss": 2.0822949409484863, |
| "step": 1186 |
| }, |
| { |
| "epoch": 0.792, |
| "grad_norm": 9.875, |
| "learning_rate": 3.753882016250936e-06, |
| "loss": 1.8574600219726562, |
| "step": 1188 |
| }, |
| { |
| "epoch": 0.7933333333333333, |
| "grad_norm": 3.34375, |
| "learning_rate": 3.74988045422461e-06, |
| "loss": 1.2435466051101685, |
| "step": 1190 |
| }, |
| { |
| "epoch": 0.7946666666666666, |
| "grad_norm": 10.125, |
| "learning_rate": 3.7458753962449747e-06, |
| "loss": 1.7264337539672852, |
| "step": 1192 |
| }, |
| { |
| "epoch": 0.796, |
| "grad_norm": 5.25, |
| "learning_rate": 3.741866860983665e-06, |
| "loss": 1.8587850332260132, |
| "step": 1194 |
| }, |
| { |
| "epoch": 0.7973333333333333, |
| "grad_norm": 7.46875, |
| "learning_rate": 3.737854867128531e-06, |
| "loss": 1.72437584400177, |
| "step": 1196 |
| }, |
| { |
| "epoch": 0.7986666666666666, |
| "grad_norm": 7.65625, |
| "learning_rate": 3.733839433383545e-06, |
| "loss": 1.894095778465271, |
| "step": 1198 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 1.6796875, |
| "learning_rate": 3.729820578468716e-06, |
| "loss": 1.0513193607330322, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.8013333333333333, |
| "grad_norm": 1.109375, |
| "learning_rate": 3.725798321120001e-06, |
| "loss": 1.066056728363037, |
| "step": 1202 |
| }, |
| { |
| "epoch": 0.8026666666666666, |
| "grad_norm": 11.625, |
| "learning_rate": 3.7217726800892227e-06, |
| "loss": 1.6573752164840698, |
| "step": 1204 |
| }, |
| { |
| "epoch": 0.804, |
| "grad_norm": 7.65625, |
| "learning_rate": 3.7177436741439755e-06, |
| "loss": 1.9016170501708984, |
| "step": 1206 |
| }, |
| { |
| "epoch": 0.8053333333333333, |
| "grad_norm": 5.84375, |
| "learning_rate": 3.7137113220675436e-06, |
| "loss": 1.5036678314208984, |
| "step": 1208 |
| }, |
| { |
| "epoch": 0.8066666666666666, |
| "grad_norm": 3.8125, |
| "learning_rate": 3.709675642658809e-06, |
| "loss": 1.4776989221572876, |
| "step": 1210 |
| }, |
| { |
| "epoch": 0.808, |
| "grad_norm": 8.25, |
| "learning_rate": 3.7056366547321655e-06, |
| "loss": 1.8003324270248413, |
| "step": 1212 |
| }, |
| { |
| "epoch": 0.8093333333333333, |
| "grad_norm": 4.71875, |
| "learning_rate": 3.701594377117431e-06, |
| "loss": 1.521277666091919, |
| "step": 1214 |
| }, |
| { |
| "epoch": 0.8106666666666666, |
| "grad_norm": 5.34375, |
| "learning_rate": 3.697548828659765e-06, |
| "loss": 1.5993854999542236, |
| "step": 1216 |
| }, |
| { |
| "epoch": 0.812, |
| "grad_norm": 4.4375, |
| "learning_rate": 3.6935000282195687e-06, |
| "loss": 1.6389127969741821, |
| "step": 1218 |
| }, |
| { |
| "epoch": 0.8133333333333334, |
| "grad_norm": 4.9375, |
| "learning_rate": 3.689447994672407e-06, |
| "loss": 1.6071922779083252, |
| "step": 1220 |
| }, |
| { |
| "epoch": 0.8146666666666667, |
| "grad_norm": 6.84375, |
| "learning_rate": 3.68539274690892e-06, |
| "loss": 1.8381483554840088, |
| "step": 1222 |
| }, |
| { |
| "epoch": 0.816, |
| "grad_norm": 6.125, |
| "learning_rate": 3.6813343038347284e-06, |
| "loss": 1.6339752674102783, |
| "step": 1224 |
| }, |
| { |
| "epoch": 0.8173333333333334, |
| "grad_norm": 7.5625, |
| "learning_rate": 3.677272684370352e-06, |
| "loss": 1.5650919675827026, |
| "step": 1226 |
| }, |
| { |
| "epoch": 0.8186666666666667, |
| "grad_norm": 4.71875, |
| "learning_rate": 3.6732079074511186e-06, |
| "loss": 1.6217875480651855, |
| "step": 1228 |
| }, |
| { |
| "epoch": 0.82, |
| "grad_norm": 5.1875, |
| "learning_rate": 3.669139992027074e-06, |
| "loss": 1.3875737190246582, |
| "step": 1230 |
| }, |
| { |
| "epoch": 0.8213333333333334, |
| "grad_norm": 2.5625, |
| "learning_rate": 3.6650689570629005e-06, |
| "loss": 1.1723411083221436, |
| "step": 1232 |
| }, |
| { |
| "epoch": 0.8226666666666667, |
| "grad_norm": 3.03125, |
| "learning_rate": 3.6609948215378176e-06, |
| "loss": 1.1628097295761108, |
| "step": 1234 |
| }, |
| { |
| "epoch": 0.824, |
| "grad_norm": 3.46875, |
| "learning_rate": 3.656917604445506e-06, |
| "loss": 1.2432491779327393, |
| "step": 1236 |
| }, |
| { |
| "epoch": 0.8253333333333334, |
| "grad_norm": 8.4375, |
| "learning_rate": 3.6528373247940085e-06, |
| "loss": 1.8964778184890747, |
| "step": 1238 |
| }, |
| { |
| "epoch": 0.8266666666666667, |
| "grad_norm": 7.65625, |
| "learning_rate": 3.6487540016056455e-06, |
| "loss": 2.0520777702331543, |
| "step": 1240 |
| }, |
| { |
| "epoch": 0.828, |
| "grad_norm": 4.125, |
| "learning_rate": 3.644667653916929e-06, |
| "loss": 1.1067545413970947, |
| "step": 1242 |
| }, |
| { |
| "epoch": 0.8293333333333334, |
| "grad_norm": 4.90625, |
| "learning_rate": 3.640578300778469e-06, |
| "loss": 1.6915913820266724, |
| "step": 1244 |
| }, |
| { |
| "epoch": 0.8306666666666667, |
| "grad_norm": 5.46875, |
| "learning_rate": 3.6364859612548888e-06, |
| "loss": 1.6206862926483154, |
| "step": 1246 |
| }, |
| { |
| "epoch": 0.832, |
| "grad_norm": 4.90625, |
| "learning_rate": 3.6323906544247323e-06, |
| "loss": 1.6607365608215332, |
| "step": 1248 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "grad_norm": 8.75, |
| "learning_rate": 3.628292399380379e-06, |
| "loss": 1.6489142179489136, |
| "step": 1250 |
| }, |
| { |
| "epoch": 0.8346666666666667, |
| "grad_norm": 7.59375, |
| "learning_rate": 3.6241912152279492e-06, |
| "loss": 1.9431458711624146, |
| "step": 1252 |
| }, |
| { |
| "epoch": 0.836, |
| "grad_norm": 7.40625, |
| "learning_rate": 3.620087121087226e-06, |
| "loss": 1.875465750694275, |
| "step": 1254 |
| }, |
| { |
| "epoch": 0.8373333333333334, |
| "grad_norm": 4.9375, |
| "learning_rate": 3.6159801360915513e-06, |
| "loss": 1.6114364862442017, |
| "step": 1256 |
| }, |
| { |
| "epoch": 0.8386666666666667, |
| "grad_norm": 7.375, |
| "learning_rate": 3.611870279387748e-06, |
| "loss": 1.6327881813049316, |
| "step": 1258 |
| }, |
| { |
| "epoch": 0.84, |
| "grad_norm": 5.90625, |
| "learning_rate": 3.6077575701360267e-06, |
| "loss": 2.0225255489349365, |
| "step": 1260 |
| }, |
| { |
| "epoch": 0.8413333333333334, |
| "grad_norm": 10.875, |
| "learning_rate": 3.603642027509897e-06, |
| "loss": 1.468903660774231, |
| "step": 1262 |
| }, |
| { |
| "epoch": 0.8426666666666667, |
| "grad_norm": 3.96875, |
| "learning_rate": 3.5995236706960757e-06, |
| "loss": 1.4783247709274292, |
| "step": 1264 |
| }, |
| { |
| "epoch": 0.844, |
| "grad_norm": 5.375, |
| "learning_rate": 3.595402518894402e-06, |
| "loss": 1.5046296119689941, |
| "step": 1266 |
| }, |
| { |
| "epoch": 0.8453333333333334, |
| "grad_norm": 2.3125, |
| "learning_rate": 3.5912785913177417e-06, |
| "loss": 1.090078592300415, |
| "step": 1268 |
| }, |
| { |
| "epoch": 0.8466666666666667, |
| "grad_norm": 1.2421875, |
| "learning_rate": 3.5871519071919058e-06, |
| "loss": 1.0590107440948486, |
| "step": 1270 |
| }, |
| { |
| "epoch": 0.848, |
| "grad_norm": 4.8125, |
| "learning_rate": 3.583022485755554e-06, |
| "loss": 1.0319173336029053, |
| "step": 1272 |
| }, |
| { |
| "epoch": 0.8493333333333334, |
| "grad_norm": 4.4375, |
| "learning_rate": 3.5788903462601065e-06, |
| "loss": 1.6474723815917969, |
| "step": 1274 |
| }, |
| { |
| "epoch": 0.8506666666666667, |
| "grad_norm": 4.375, |
| "learning_rate": 3.574755507969657e-06, |
| "loss": 1.6048872470855713, |
| "step": 1276 |
| }, |
| { |
| "epoch": 0.852, |
| "grad_norm": 6.125, |
| "learning_rate": 3.5706179901608795e-06, |
| "loss": 1.5846049785614014, |
| "step": 1278 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 4.4375, |
| "learning_rate": 3.5664778121229414e-06, |
| "loss": 1.5983173847198486, |
| "step": 1280 |
| }, |
| { |
| "epoch": 0.8546666666666667, |
| "grad_norm": 14.625, |
| "learning_rate": 3.5623349931574113e-06, |
| "loss": 0.8655703067779541, |
| "step": 1282 |
| }, |
| { |
| "epoch": 0.856, |
| "grad_norm": 4.71875, |
| "learning_rate": 3.5581895525781706e-06, |
| "loss": 1.6905121803283691, |
| "step": 1284 |
| }, |
| { |
| "epoch": 0.8573333333333333, |
| "grad_norm": 3.8125, |
| "learning_rate": 3.5540415097113212e-06, |
| "loss": 1.1031184196472168, |
| "step": 1286 |
| }, |
| { |
| "epoch": 0.8586666666666667, |
| "grad_norm": 4.1875, |
| "learning_rate": 3.5498908838950976e-06, |
| "loss": 1.6588813066482544, |
| "step": 1288 |
| }, |
| { |
| "epoch": 0.86, |
| "grad_norm": 9.6875, |
| "learning_rate": 3.545737694479777e-06, |
| "loss": 1.1068980693817139, |
| "step": 1290 |
| }, |
| { |
| "epoch": 0.8613333333333333, |
| "grad_norm": 8.375, |
| "learning_rate": 3.541581960827586e-06, |
| "loss": 1.858797311782837, |
| "step": 1292 |
| }, |
| { |
| "epoch": 0.8626666666666667, |
| "grad_norm": 22.5, |
| "learning_rate": 3.5374237023126157e-06, |
| "loss": 1.3582959175109863, |
| "step": 1294 |
| }, |
| { |
| "epoch": 0.864, |
| "grad_norm": 1.8359375, |
| "learning_rate": 3.533262938320724e-06, |
| "loss": 1.1611998081207275, |
| "step": 1296 |
| }, |
| { |
| "epoch": 0.8653333333333333, |
| "grad_norm": 1.09375, |
| "learning_rate": 3.5290996882494533e-06, |
| "loss": 1.2682225704193115, |
| "step": 1298 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 3.5, |
| "learning_rate": 3.5249339715079343e-06, |
| "loss": 1.1011674404144287, |
| "step": 1300 |
| }, |
| { |
| "epoch": 0.868, |
| "grad_norm": 2.09375, |
| "learning_rate": 3.5207658075167972e-06, |
| "loss": 1.168353796005249, |
| "step": 1302 |
| }, |
| { |
| "epoch": 0.8693333333333333, |
| "grad_norm": 12.375, |
| "learning_rate": 3.516595215708082e-06, |
| "loss": 2.0601859092712402, |
| "step": 1304 |
| }, |
| { |
| "epoch": 0.8706666666666667, |
| "grad_norm": 5.21875, |
| "learning_rate": 3.5124222155251454e-06, |
| "loss": 1.5306146144866943, |
| "step": 1306 |
| }, |
| { |
| "epoch": 0.872, |
| "grad_norm": 5.375, |
| "learning_rate": 3.5082468264225754e-06, |
| "loss": 1.5819231271743774, |
| "step": 1308 |
| }, |
| { |
| "epoch": 0.8733333333333333, |
| "grad_norm": 12.3125, |
| "learning_rate": 3.504069067866094e-06, |
| "loss": 1.9946259260177612, |
| "step": 1310 |
| }, |
| { |
| "epoch": 0.8746666666666667, |
| "grad_norm": 2.875, |
| "learning_rate": 3.4998889593324715e-06, |
| "loss": 1.1388391256332397, |
| "step": 1312 |
| }, |
| { |
| "epoch": 0.876, |
| "grad_norm": 7.8125, |
| "learning_rate": 3.495706520309432e-06, |
| "loss": 1.6211680173873901, |
| "step": 1314 |
| }, |
| { |
| "epoch": 0.8773333333333333, |
| "grad_norm": 7.25, |
| "learning_rate": 3.4915217702955674e-06, |
| "loss": 1.8492045402526855, |
| "step": 1316 |
| }, |
| { |
| "epoch": 0.8786666666666667, |
| "grad_norm": 11.1875, |
| "learning_rate": 3.487334728800239e-06, |
| "loss": 1.5768213272094727, |
| "step": 1318 |
| }, |
| { |
| "epoch": 0.88, |
| "grad_norm": 2.140625, |
| "learning_rate": 3.4831454153434967e-06, |
| "loss": 1.0622522830963135, |
| "step": 1320 |
| }, |
| { |
| "epoch": 0.8813333333333333, |
| "grad_norm": 2.234375, |
| "learning_rate": 3.478953849455977e-06, |
| "loss": 1.1389195919036865, |
| "step": 1322 |
| }, |
| { |
| "epoch": 0.8826666666666667, |
| "grad_norm": 5.71875, |
| "learning_rate": 3.4747600506788206e-06, |
| "loss": 1.699198842048645, |
| "step": 1324 |
| }, |
| { |
| "epoch": 0.884, |
| "grad_norm": 6.21875, |
| "learning_rate": 3.470564038563576e-06, |
| "loss": 1.1638987064361572, |
| "step": 1326 |
| }, |
| { |
| "epoch": 0.8853333333333333, |
| "grad_norm": 9.9375, |
| "learning_rate": 3.466365832672112e-06, |
| "loss": 1.9894802570343018, |
| "step": 1328 |
| }, |
| { |
| "epoch": 0.8866666666666667, |
| "grad_norm": 3.90625, |
| "learning_rate": 3.462165452576523e-06, |
| "loss": 1.5490775108337402, |
| "step": 1330 |
| }, |
| { |
| "epoch": 0.888, |
| "grad_norm": 4.6875, |
| "learning_rate": 3.457962917859041e-06, |
| "loss": 1.6606712341308594, |
| "step": 1332 |
| }, |
| { |
| "epoch": 0.8893333333333333, |
| "grad_norm": 2.21875, |
| "learning_rate": 3.4537582481119435e-06, |
| "loss": 0.9603934288024902, |
| "step": 1334 |
| }, |
| { |
| "epoch": 0.8906666666666667, |
| "grad_norm": 9.625, |
| "learning_rate": 3.4495514629374595e-06, |
| "loss": 1.3755745887756348, |
| "step": 1336 |
| }, |
| { |
| "epoch": 0.892, |
| "grad_norm": 6.75, |
| "learning_rate": 3.4453425819476804e-06, |
| "loss": 1.5730741024017334, |
| "step": 1338 |
| }, |
| { |
| "epoch": 0.8933333333333333, |
| "grad_norm": 5.65625, |
| "learning_rate": 3.441131624764471e-06, |
| "loss": 1.7277932167053223, |
| "step": 1340 |
| }, |
| { |
| "epoch": 0.8946666666666667, |
| "grad_norm": 4.1875, |
| "learning_rate": 3.4369186110193707e-06, |
| "loss": 1.558158278465271, |
| "step": 1342 |
| }, |
| { |
| "epoch": 0.896, |
| "grad_norm": 2.640625, |
| "learning_rate": 3.4327035603535126e-06, |
| "loss": 1.1294000148773193, |
| "step": 1344 |
| }, |
| { |
| "epoch": 0.8973333333333333, |
| "grad_norm": 7.0625, |
| "learning_rate": 3.42848649241752e-06, |
| "loss": 1.7495123147964478, |
| "step": 1346 |
| }, |
| { |
| "epoch": 0.8986666666666666, |
| "grad_norm": 1.5625, |
| "learning_rate": 3.4242674268714243e-06, |
| "loss": 1.104962944984436, |
| "step": 1348 |
| }, |
| { |
| "epoch": 0.9, |
| "grad_norm": 8.625, |
| "learning_rate": 3.42004638338457e-06, |
| "loss": 1.8600108623504639, |
| "step": 1350 |
| }, |
| { |
| "epoch": 0.9013333333333333, |
| "grad_norm": 3.96875, |
| "learning_rate": 3.415823381635519e-06, |
| "loss": 1.2579452991485596, |
| "step": 1352 |
| }, |
| { |
| "epoch": 0.9026666666666666, |
| "grad_norm": 5.53125, |
| "learning_rate": 3.4115984413119676e-06, |
| "loss": 1.4979395866394043, |
| "step": 1354 |
| }, |
| { |
| "epoch": 0.904, |
| "grad_norm": 7.625, |
| "learning_rate": 3.407371582110647e-06, |
| "loss": 1.5508317947387695, |
| "step": 1356 |
| }, |
| { |
| "epoch": 0.9053333333333333, |
| "grad_norm": 11.25, |
| "learning_rate": 3.4031428237372343e-06, |
| "loss": 1.851904034614563, |
| "step": 1358 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 3.34375, |
| "learning_rate": 3.3989121859062624e-06, |
| "loss": 1.0736128091812134, |
| "step": 1360 |
| }, |
| { |
| "epoch": 0.908, |
| "grad_norm": 5.0625, |
| "learning_rate": 3.3946796883410225e-06, |
| "loss": 1.609264850616455, |
| "step": 1362 |
| }, |
| { |
| "epoch": 0.9093333333333333, |
| "grad_norm": 4.8125, |
| "learning_rate": 3.39044535077348e-06, |
| "loss": 1.1035856008529663, |
| "step": 1364 |
| }, |
| { |
| "epoch": 0.9106666666666666, |
| "grad_norm": 2.21875, |
| "learning_rate": 3.3862091929441764e-06, |
| "loss": 1.1078152656555176, |
| "step": 1366 |
| }, |
| { |
| "epoch": 0.912, |
| "grad_norm": 1.984375, |
| "learning_rate": 3.3819712346021392e-06, |
| "loss": 1.1677632331848145, |
| "step": 1368 |
| }, |
| { |
| "epoch": 0.9133333333333333, |
| "grad_norm": 4.8125, |
| "learning_rate": 3.37773149550479e-06, |
| "loss": 1.5922446250915527, |
| "step": 1370 |
| }, |
| { |
| "epoch": 0.9146666666666666, |
| "grad_norm": 13.8125, |
| "learning_rate": 3.3734899954178534e-06, |
| "loss": 1.8471770286560059, |
| "step": 1372 |
| }, |
| { |
| "epoch": 0.916, |
| "grad_norm": 8.625, |
| "learning_rate": 3.369246754115262e-06, |
| "loss": 1.8968651294708252, |
| "step": 1374 |
| }, |
| { |
| "epoch": 0.9173333333333333, |
| "grad_norm": 5.40625, |
| "learning_rate": 3.365001791379068e-06, |
| "loss": 1.5288443565368652, |
| "step": 1376 |
| }, |
| { |
| "epoch": 0.9186666666666666, |
| "grad_norm": 8.9375, |
| "learning_rate": 3.360755126999347e-06, |
| "loss": 1.6761029958724976, |
| "step": 1378 |
| }, |
| { |
| "epoch": 0.92, |
| "grad_norm": 9.375, |
| "learning_rate": 3.3565067807741093e-06, |
| "loss": 1.8433051109313965, |
| "step": 1380 |
| }, |
| { |
| "epoch": 0.9213333333333333, |
| "grad_norm": 8.125, |
| "learning_rate": 3.352256772509205e-06, |
| "loss": 1.642780065536499, |
| "step": 1382 |
| }, |
| { |
| "epoch": 0.9226666666666666, |
| "grad_norm": 9.5, |
| "learning_rate": 3.348005122018232e-06, |
| "loss": 1.9076459407806396, |
| "step": 1384 |
| }, |
| { |
| "epoch": 0.924, |
| "grad_norm": 3.265625, |
| "learning_rate": 3.3437518491224464e-06, |
| "loss": 1.042888879776001, |
| "step": 1386 |
| }, |
| { |
| "epoch": 0.9253333333333333, |
| "grad_norm": 12.0, |
| "learning_rate": 3.3394969736506656e-06, |
| "loss": 2.10634708404541, |
| "step": 1388 |
| }, |
| { |
| "epoch": 0.9266666666666666, |
| "grad_norm": 12.9375, |
| "learning_rate": 3.33524051543918e-06, |
| "loss": 1.8503813743591309, |
| "step": 1390 |
| }, |
| { |
| "epoch": 0.928, |
| "grad_norm": 10.125, |
| "learning_rate": 3.3309824943316593e-06, |
| "loss": 1.7067197561264038, |
| "step": 1392 |
| }, |
| { |
| "epoch": 0.9293333333333333, |
| "grad_norm": 7.84375, |
| "learning_rate": 3.3267229301790562e-06, |
| "loss": 1.9710360765457153, |
| "step": 1394 |
| }, |
| { |
| "epoch": 0.9306666666666666, |
| "grad_norm": 2.125, |
| "learning_rate": 3.32246184283952e-06, |
| "loss": 1.1389985084533691, |
| "step": 1396 |
| }, |
| { |
| "epoch": 0.932, |
| "grad_norm": 10.0625, |
| "learning_rate": 3.3181992521783e-06, |
| "loss": 1.9844406843185425, |
| "step": 1398 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 7.90625, |
| "learning_rate": 3.313935178067656e-06, |
| "loss": 1.700979232788086, |
| "step": 1400 |
| }, |
| { |
| "epoch": 0.9346666666666666, |
| "grad_norm": 3.234375, |
| "learning_rate": 3.30966964038676e-06, |
| "loss": 0.9724457263946533, |
| "step": 1402 |
| }, |
| { |
| "epoch": 0.936, |
| "grad_norm": 5.90625, |
| "learning_rate": 3.3054026590216092e-06, |
| "loss": 1.6514759063720703, |
| "step": 1404 |
| }, |
| { |
| "epoch": 0.9373333333333334, |
| "grad_norm": 3.546875, |
| "learning_rate": 3.3011342538649325e-06, |
| "loss": 1.581580638885498, |
| "step": 1406 |
| }, |
| { |
| "epoch": 0.9386666666666666, |
| "grad_norm": 11.0625, |
| "learning_rate": 3.2968644448160946e-06, |
| "loss": 1.3123493194580078, |
| "step": 1408 |
| }, |
| { |
| "epoch": 0.94, |
| "grad_norm": 20.75, |
| "learning_rate": 3.2925932517810057e-06, |
| "loss": 2.246950149536133, |
| "step": 1410 |
| }, |
| { |
| "epoch": 0.9413333333333334, |
| "grad_norm": 8.375, |
| "learning_rate": 3.288320694672028e-06, |
| "loss": 1.4993822574615479, |
| "step": 1412 |
| }, |
| { |
| "epoch": 0.9426666666666667, |
| "grad_norm": 3.03125, |
| "learning_rate": 3.2840467934078845e-06, |
| "loss": 1.228714942932129, |
| "step": 1414 |
| }, |
| { |
| "epoch": 0.944, |
| "grad_norm": 11.8125, |
| "learning_rate": 3.279771567913562e-06, |
| "loss": 1.83895742893219, |
| "step": 1416 |
| }, |
| { |
| "epoch": 0.9453333333333334, |
| "grad_norm": 1.9453125, |
| "learning_rate": 3.2754950381202243e-06, |
| "loss": 1.0585711002349854, |
| "step": 1418 |
| }, |
| { |
| "epoch": 0.9466666666666667, |
| "grad_norm": 3.421875, |
| "learning_rate": 3.2712172239651106e-06, |
| "loss": 1.1873035430908203, |
| "step": 1420 |
| }, |
| { |
| "epoch": 0.948, |
| "grad_norm": 4.875, |
| "learning_rate": 3.2669381453914552e-06, |
| "loss": 1.6478772163391113, |
| "step": 1422 |
| }, |
| { |
| "epoch": 0.9493333333333334, |
| "grad_norm": 3.9375, |
| "learning_rate": 3.26265782234838e-06, |
| "loss": 1.157041072845459, |
| "step": 1424 |
| }, |
| { |
| "epoch": 0.9506666666666667, |
| "grad_norm": 7.75, |
| "learning_rate": 3.2583762747908134e-06, |
| "loss": 1.9819687604904175, |
| "step": 1426 |
| }, |
| { |
| "epoch": 0.952, |
| "grad_norm": 4.46875, |
| "learning_rate": 3.25409352267939e-06, |
| "loss": 1.4531431198120117, |
| "step": 1428 |
| }, |
| { |
| "epoch": 0.9533333333333334, |
| "grad_norm": 3.90625, |
| "learning_rate": 3.249809585980361e-06, |
| "loss": 1.5999106168746948, |
| "step": 1430 |
| }, |
| { |
| "epoch": 0.9546666666666667, |
| "grad_norm": 7.3125, |
| "learning_rate": 3.245524484665501e-06, |
| "loss": 1.8473896980285645, |
| "step": 1432 |
| }, |
| { |
| "epoch": 0.956, |
| "grad_norm": 4.71875, |
| "learning_rate": 3.2412382387120112e-06, |
| "loss": 1.5177754163742065, |
| "step": 1434 |
| }, |
| { |
| "epoch": 0.9573333333333334, |
| "grad_norm": 2.09375, |
| "learning_rate": 3.236950868102432e-06, |
| "loss": 1.2477397918701172, |
| "step": 1436 |
| }, |
| { |
| "epoch": 0.9586666666666667, |
| "grad_norm": 6.0625, |
| "learning_rate": 3.232662392824547e-06, |
| "loss": 1.6189217567443848, |
| "step": 1438 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 10.4375, |
| "learning_rate": 3.2283728328712877e-06, |
| "loss": 1.6426982879638672, |
| "step": 1440 |
| }, |
| { |
| "epoch": 0.9613333333333334, |
| "grad_norm": 7.1875, |
| "learning_rate": 3.224082208240643e-06, |
| "loss": 1.27528715133667, |
| "step": 1442 |
| }, |
| { |
| "epoch": 0.9626666666666667, |
| "grad_norm": 22.5, |
| "learning_rate": 3.219790538935566e-06, |
| "loss": 0.6726552248001099, |
| "step": 1444 |
| }, |
| { |
| "epoch": 0.964, |
| "grad_norm": 3.15625, |
| "learning_rate": 3.215497844963881e-06, |
| "loss": 1.2849948406219482, |
| "step": 1446 |
| }, |
| { |
| "epoch": 0.9653333333333334, |
| "grad_norm": 4.84375, |
| "learning_rate": 3.211204146338187e-06, |
| "loss": 1.6178771257400513, |
| "step": 1448 |
| }, |
| { |
| "epoch": 0.9666666666666667, |
| "grad_norm": 1.84375, |
| "learning_rate": 3.206909463075768e-06, |
| "loss": 1.1476926803588867, |
| "step": 1450 |
| }, |
| { |
| "epoch": 0.968, |
| "grad_norm": 9.6875, |
| "learning_rate": 3.2026138151984987e-06, |
| "loss": 1.3063325881958008, |
| "step": 1452 |
| }, |
| { |
| "epoch": 0.9693333333333334, |
| "grad_norm": 3.875, |
| "learning_rate": 3.1983172227327495e-06, |
| "loss": 1.0711333751678467, |
| "step": 1454 |
| }, |
| { |
| "epoch": 0.9706666666666667, |
| "grad_norm": 2.578125, |
| "learning_rate": 3.194019705709297e-06, |
| "loss": 1.2706935405731201, |
| "step": 1456 |
| }, |
| { |
| "epoch": 0.972, |
| "grad_norm": 3.875, |
| "learning_rate": 3.189721284163225e-06, |
| "loss": 1.5907695293426514, |
| "step": 1458 |
| }, |
| { |
| "epoch": 0.9733333333333334, |
| "grad_norm": 5.9375, |
| "learning_rate": 3.1854219781338358e-06, |
| "loss": 1.630199670791626, |
| "step": 1460 |
| }, |
| { |
| "epoch": 0.9746666666666667, |
| "grad_norm": 7.15625, |
| "learning_rate": 3.181121807664556e-06, |
| "loss": 1.8257417678833008, |
| "step": 1462 |
| }, |
| { |
| "epoch": 0.976, |
| "grad_norm": 11.25, |
| "learning_rate": 3.1768207928028405e-06, |
| "loss": 1.8316962718963623, |
| "step": 1464 |
| }, |
| { |
| "epoch": 0.9773333333333334, |
| "grad_norm": 4.28125, |
| "learning_rate": 3.1725189536000823e-06, |
| "loss": 1.4978811740875244, |
| "step": 1466 |
| }, |
| { |
| "epoch": 0.9786666666666667, |
| "grad_norm": 11.625, |
| "learning_rate": 3.168216310111516e-06, |
| "loss": 2.125202178955078, |
| "step": 1468 |
| }, |
| { |
| "epoch": 0.98, |
| "grad_norm": 6.46875, |
| "learning_rate": 3.1639128823961275e-06, |
| "loss": 1.5529388189315796, |
| "step": 1470 |
| }, |
| { |
| "epoch": 0.9813333333333333, |
| "grad_norm": 6.1875, |
| "learning_rate": 3.1596086905165556e-06, |
| "loss": 1.8385839462280273, |
| "step": 1472 |
| }, |
| { |
| "epoch": 0.9826666666666667, |
| "grad_norm": 1.546875, |
| "learning_rate": 3.1553037545390077e-06, |
| "loss": 0.97187340259552, |
| "step": 1474 |
| }, |
| { |
| "epoch": 0.984, |
| "grad_norm": 9.125, |
| "learning_rate": 3.150998094533152e-06, |
| "loss": 2.0341556072235107, |
| "step": 1476 |
| }, |
| { |
| "epoch": 0.9853333333333333, |
| "grad_norm": 5.09375, |
| "learning_rate": 3.146691730572039e-06, |
| "loss": 1.839565396308899, |
| "step": 1478 |
| }, |
| { |
| "epoch": 0.9866666666666667, |
| "grad_norm": 16.625, |
| "learning_rate": 3.1423846827319994e-06, |
| "loss": 1.7883915901184082, |
| "step": 1480 |
| }, |
| { |
| "epoch": 0.988, |
| "grad_norm": 9.75, |
| "learning_rate": 3.1380769710925494e-06, |
| "loss": 1.6055920124053955, |
| "step": 1482 |
| }, |
| { |
| "epoch": 0.9893333333333333, |
| "grad_norm": 1.8515625, |
| "learning_rate": 3.133768615736302e-06, |
| "loss": 1.1589007377624512, |
| "step": 1484 |
| }, |
| { |
| "epoch": 0.9906666666666667, |
| "grad_norm": 7.90625, |
| "learning_rate": 3.1294596367488715e-06, |
| "loss": 1.8504548072814941, |
| "step": 1486 |
| }, |
| { |
| "epoch": 0.992, |
| "grad_norm": 9.0, |
| "learning_rate": 3.1251500542187798e-06, |
| "loss": 1.8369858264923096, |
| "step": 1488 |
| }, |
| { |
| "epoch": 0.9933333333333333, |
| "grad_norm": 5.40625, |
| "learning_rate": 3.12083988823736e-06, |
| "loss": 1.6977782249450684, |
| "step": 1490 |
| }, |
| { |
| "epoch": 0.9946666666666667, |
| "grad_norm": 4.8125, |
| "learning_rate": 3.116529158898668e-06, |
| "loss": 1.6213133335113525, |
| "step": 1492 |
| }, |
| { |
| "epoch": 0.996, |
| "grad_norm": 1.8359375, |
| "learning_rate": 3.112217886299385e-06, |
| "loss": 1.1973605155944824, |
| "step": 1494 |
| }, |
| { |
| "epoch": 0.9973333333333333, |
| "grad_norm": 7.59375, |
| "learning_rate": 3.107906090538725e-06, |
| "loss": 1.7736064195632935, |
| "step": 1496 |
| }, |
| { |
| "epoch": 0.9986666666666667, |
| "grad_norm": 4.4375, |
| "learning_rate": 3.1035937917183414e-06, |
| "loss": 1.4783213138580322, |
| "step": 1498 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 1.5, |
| "learning_rate": 3.099281009942231e-06, |
| "loss": 1.0851173400878906, |
| "step": 1500 |
| }, |
| { |
| "epoch": 1.0013333333333334, |
| "grad_norm": 0.69921875, |
| "learning_rate": 3.0949677653166453e-06, |
| "loss": 1.3752434253692627, |
| "step": 1502 |
| }, |
| { |
| "epoch": 1.0026666666666666, |
| "grad_norm": 2.171875, |
| "learning_rate": 3.0906540779499916e-06, |
| "loss": 0.9937149286270142, |
| "step": 1504 |
| }, |
| { |
| "epoch": 1.004, |
| "grad_norm": 12.625, |
| "learning_rate": 3.0863399679527408e-06, |
| "loss": 2.0265655517578125, |
| "step": 1506 |
| }, |
| { |
| "epoch": 1.0053333333333334, |
| "grad_norm": 6.75, |
| "learning_rate": 3.0820254554373345e-06, |
| "loss": 1.6888525485992432, |
| "step": 1508 |
| }, |
| { |
| "epoch": 1.0066666666666666, |
| "grad_norm": 18.25, |
| "learning_rate": 3.0777105605180923e-06, |
| "loss": 1.7616627216339111, |
| "step": 1510 |
| }, |
| { |
| "epoch": 1.008, |
| "grad_norm": 5.28125, |
| "learning_rate": 3.0733953033111153e-06, |
| "loss": 1.5890424251556396, |
| "step": 1512 |
| }, |
| { |
| "epoch": 1.0093333333333334, |
| "grad_norm": 4.8125, |
| "learning_rate": 3.0690797039341936e-06, |
| "loss": 1.5777063369750977, |
| "step": 1514 |
| }, |
| { |
| "epoch": 1.0106666666666666, |
| "grad_norm": 7.03125, |
| "learning_rate": 3.0647637825067125e-06, |
| "loss": 1.8093584775924683, |
| "step": 1516 |
| }, |
| { |
| "epoch": 1.012, |
| "grad_norm": 10.4375, |
| "learning_rate": 3.0604475591495587e-06, |
| "loss": 2.03692626953125, |
| "step": 1518 |
| }, |
| { |
| "epoch": 1.0133333333333334, |
| "grad_norm": 6.6875, |
| "learning_rate": 3.056131053985028e-06, |
| "loss": 1.6062037944793701, |
| "step": 1520 |
| }, |
| { |
| "epoch": 1.0146666666666666, |
| "grad_norm": 3.3125, |
| "learning_rate": 3.051814287136727e-06, |
| "loss": 1.497098684310913, |
| "step": 1522 |
| }, |
| { |
| "epoch": 1.016, |
| "grad_norm": 3.609375, |
| "learning_rate": 3.0474972787294852e-06, |
| "loss": 1.5099387168884277, |
| "step": 1524 |
| }, |
| { |
| "epoch": 1.0173333333333334, |
| "grad_norm": 6.75, |
| "learning_rate": 3.043180048889256e-06, |
| "loss": 1.0779247283935547, |
| "step": 1526 |
| }, |
| { |
| "epoch": 1.0186666666666666, |
| "grad_norm": 6.75, |
| "learning_rate": 3.038862617743027e-06, |
| "loss": 1.5594415664672852, |
| "step": 1528 |
| }, |
| { |
| "epoch": 1.02, |
| "grad_norm": 6.125, |
| "learning_rate": 3.034545005418723e-06, |
| "loss": 1.5969600677490234, |
| "step": 1530 |
| }, |
| { |
| "epoch": 1.0213333333333334, |
| "grad_norm": 4.9375, |
| "learning_rate": 3.030227232045114e-06, |
| "loss": 1.633499264717102, |
| "step": 1532 |
| }, |
| { |
| "epoch": 1.0226666666666666, |
| "grad_norm": 10.6875, |
| "learning_rate": 3.0259093177517213e-06, |
| "loss": 1.1812535524368286, |
| "step": 1534 |
| }, |
| { |
| "epoch": 1.024, |
| "grad_norm": 5.875, |
| "learning_rate": 3.021591282668721e-06, |
| "loss": 1.7009207010269165, |
| "step": 1536 |
| }, |
| { |
| "epoch": 1.0253333333333334, |
| "grad_norm": 0.79296875, |
| "learning_rate": 3.0172731469268545e-06, |
| "loss": 1.2874627113342285, |
| "step": 1538 |
| }, |
| { |
| "epoch": 1.0266666666666666, |
| "grad_norm": 6.71875, |
| "learning_rate": 3.0129549306573323e-06, |
| "loss": 1.6079018115997314, |
| "step": 1540 |
| }, |
| { |
| "epoch": 1.028, |
| "grad_norm": 7.46875, |
| "learning_rate": 3.00863665399174e-06, |
| "loss": 1.9101991653442383, |
| "step": 1542 |
| }, |
| { |
| "epoch": 1.0293333333333334, |
| "grad_norm": 20.125, |
| "learning_rate": 3.0043183370619445e-06, |
| "loss": 1.7360703945159912, |
| "step": 1544 |
| }, |
| { |
| "epoch": 1.0306666666666666, |
| "grad_norm": 5.53125, |
| "learning_rate": 3.0000000000000005e-06, |
| "loss": 1.664625644683838, |
| "step": 1546 |
| }, |
| { |
| "epoch": 1.032, |
| "grad_norm": 8.125, |
| "learning_rate": 2.9956816629380557e-06, |
| "loss": 1.6770424842834473, |
| "step": 1548 |
| }, |
| { |
| "epoch": 1.0333333333333334, |
| "grad_norm": 1.8515625, |
| "learning_rate": 2.9913633460082604e-06, |
| "loss": 1.0641461610794067, |
| "step": 1550 |
| }, |
| { |
| "epoch": 1.0346666666666666, |
| "grad_norm": 9.8125, |
| "learning_rate": 2.9870450693426683e-06, |
| "loss": 2.1422629356384277, |
| "step": 1552 |
| }, |
| { |
| "epoch": 1.036, |
| "grad_norm": 9.9375, |
| "learning_rate": 2.982726853073147e-06, |
| "loss": 1.7939167022705078, |
| "step": 1554 |
| }, |
| { |
| "epoch": 1.0373333333333334, |
| "grad_norm": 8.875, |
| "learning_rate": 2.9784087173312804e-06, |
| "loss": 1.9452416896820068, |
| "step": 1556 |
| }, |
| { |
| "epoch": 1.0386666666666666, |
| "grad_norm": 13.9375, |
| "learning_rate": 2.9740906822482797e-06, |
| "loss": 2.0147793292999268, |
| "step": 1558 |
| }, |
| { |
| "epoch": 1.04, |
| "grad_norm": 1.828125, |
| "learning_rate": 2.9697727679548864e-06, |
| "loss": 1.0894575119018555, |
| "step": 1560 |
| }, |
| { |
| "epoch": 1.0413333333333332, |
| "grad_norm": 7.625, |
| "learning_rate": 2.965454994581277e-06, |
| "loss": 1.9521132707595825, |
| "step": 1562 |
| }, |
| { |
| "epoch": 1.0426666666666666, |
| "grad_norm": 17.625, |
| "learning_rate": 2.9611373822569735e-06, |
| "loss": 1.7252278327941895, |
| "step": 1564 |
| }, |
| { |
| "epoch": 1.044, |
| "grad_norm": 2.40625, |
| "learning_rate": 2.9568199511107448e-06, |
| "loss": 0.9713205695152283, |
| "step": 1566 |
| }, |
| { |
| "epoch": 1.0453333333333332, |
| "grad_norm": 2.984375, |
| "learning_rate": 2.9525027212705158e-06, |
| "loss": 0.9757088422775269, |
| "step": 1568 |
| }, |
| { |
| "epoch": 1.0466666666666666, |
| "grad_norm": 5.625, |
| "learning_rate": 2.9481857128632742e-06, |
| "loss": 1.5996389389038086, |
| "step": 1570 |
| }, |
| { |
| "epoch": 1.048, |
| "grad_norm": 28.5, |
| "learning_rate": 2.943868946014973e-06, |
| "loss": 0.7404099106788635, |
| "step": 1572 |
| }, |
| { |
| "epoch": 1.0493333333333332, |
| "grad_norm": 1.59375, |
| "learning_rate": 2.9395524408504427e-06, |
| "loss": 1.0925877094268799, |
| "step": 1574 |
| }, |
| { |
| "epoch": 1.0506666666666666, |
| "grad_norm": 12.625, |
| "learning_rate": 2.935236217493289e-06, |
| "loss": 1.9147734642028809, |
| "step": 1576 |
| }, |
| { |
| "epoch": 1.052, |
| "grad_norm": 8.25, |
| "learning_rate": 2.930920296065808e-06, |
| "loss": 1.5937700271606445, |
| "step": 1578 |
| }, |
| { |
| "epoch": 1.0533333333333332, |
| "grad_norm": 3.0, |
| "learning_rate": 2.926604696688886e-06, |
| "loss": 1.1637517213821411, |
| "step": 1580 |
| }, |
| { |
| "epoch": 1.0546666666666666, |
| "grad_norm": 10.75, |
| "learning_rate": 2.922289439481909e-06, |
| "loss": 1.9980616569519043, |
| "step": 1582 |
| }, |
| { |
| "epoch": 1.056, |
| "grad_norm": 10.6875, |
| "learning_rate": 2.9179745445626673e-06, |
| "loss": 1.5037312507629395, |
| "step": 1584 |
| }, |
| { |
| "epoch": 1.0573333333333332, |
| "grad_norm": 4.78125, |
| "learning_rate": 2.9136600320472606e-06, |
| "loss": 1.5640144348144531, |
| "step": 1586 |
| }, |
| { |
| "epoch": 1.0586666666666666, |
| "grad_norm": 4.75, |
| "learning_rate": 2.90934592205001e-06, |
| "loss": 1.4845762252807617, |
| "step": 1588 |
| }, |
| { |
| "epoch": 1.06, |
| "grad_norm": 1.6796875, |
| "learning_rate": 2.905032234683356e-06, |
| "loss": 1.1452919244766235, |
| "step": 1590 |
| }, |
| { |
| "epoch": 1.0613333333333332, |
| "grad_norm": 1.6875, |
| "learning_rate": 2.9007189900577694e-06, |
| "loss": 0.9397138357162476, |
| "step": 1592 |
| }, |
| { |
| "epoch": 1.0626666666666666, |
| "grad_norm": 6.4375, |
| "learning_rate": 2.896406208281659e-06, |
| "loss": 1.4903689622879028, |
| "step": 1594 |
| }, |
| { |
| "epoch": 1.064, |
| "grad_norm": 6.46875, |
| "learning_rate": 2.8920939094612756e-06, |
| "loss": 1.7486934661865234, |
| "step": 1596 |
| }, |
| { |
| "epoch": 1.0653333333333332, |
| "grad_norm": 6.78125, |
| "learning_rate": 2.8877821137006156e-06, |
| "loss": 1.5886731147766113, |
| "step": 1598 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 4.0625, |
| "learning_rate": 2.8834708411013323e-06, |
| "loss": 1.5811033248901367, |
| "step": 1600 |
| }, |
| { |
| "epoch": 1.068, |
| "grad_norm": 7.03125, |
| "learning_rate": 2.879160111762641e-06, |
| "loss": 1.4661691188812256, |
| "step": 1602 |
| }, |
| { |
| "epoch": 1.0693333333333332, |
| "grad_norm": 4.53125, |
| "learning_rate": 2.8748499457812212e-06, |
| "loss": 1.6812434196472168, |
| "step": 1604 |
| }, |
| { |
| "epoch": 1.0706666666666667, |
| "grad_norm": 6.625, |
| "learning_rate": 2.8705403632511286e-06, |
| "loss": 1.653494119644165, |
| "step": 1606 |
| }, |
| { |
| "epoch": 1.072, |
| "grad_norm": 12.1875, |
| "learning_rate": 2.866231384263698e-06, |
| "loss": 1.531437873840332, |
| "step": 1608 |
| }, |
| { |
| "epoch": 1.0733333333333333, |
| "grad_norm": 7.09375, |
| "learning_rate": 2.8619230289074516e-06, |
| "loss": 1.8403922319412231, |
| "step": 1610 |
| }, |
| { |
| "epoch": 1.0746666666666667, |
| "grad_norm": 7.90625, |
| "learning_rate": 2.857615317268001e-06, |
| "loss": 1.9845728874206543, |
| "step": 1612 |
| }, |
| { |
| "epoch": 1.076, |
| "grad_norm": 5.125, |
| "learning_rate": 2.8533082694279614e-06, |
| "loss": 1.1663343906402588, |
| "step": 1614 |
| }, |
| { |
| "epoch": 1.0773333333333333, |
| "grad_norm": 4.4375, |
| "learning_rate": 2.8490019054668488e-06, |
| "loss": 1.5892982482910156, |
| "step": 1616 |
| }, |
| { |
| "epoch": 1.0786666666666667, |
| "grad_norm": 2.21875, |
| "learning_rate": 2.8446962454609938e-06, |
| "loss": 1.2441880702972412, |
| "step": 1618 |
| }, |
| { |
| "epoch": 1.08, |
| "grad_norm": 3.890625, |
| "learning_rate": 2.8403913094834446e-06, |
| "loss": 1.556786298751831, |
| "step": 1620 |
| }, |
| { |
| "epoch": 1.0813333333333333, |
| "grad_norm": 6.65625, |
| "learning_rate": 2.836087117603874e-06, |
| "loss": 1.6569768190383911, |
| "step": 1622 |
| }, |
| { |
| "epoch": 1.0826666666666667, |
| "grad_norm": 7.875, |
| "learning_rate": 2.831783689888485e-06, |
| "loss": 1.2390692234039307, |
| "step": 1624 |
| }, |
| { |
| "epoch": 1.084, |
| "grad_norm": 3.21875, |
| "learning_rate": 2.827481046399919e-06, |
| "loss": 1.24364173412323, |
| "step": 1626 |
| }, |
| { |
| "epoch": 1.0853333333333333, |
| "grad_norm": 3.953125, |
| "learning_rate": 2.8231792071971596e-06, |
| "loss": 1.1136494874954224, |
| "step": 1628 |
| }, |
| { |
| "epoch": 1.0866666666666667, |
| "grad_norm": 2.46875, |
| "learning_rate": 2.818878192335445e-06, |
| "loss": 1.3179781436920166, |
| "step": 1630 |
| }, |
| { |
| "epoch": 1.088, |
| "grad_norm": 6.0, |
| "learning_rate": 2.8145780218661652e-06, |
| "loss": 1.8306783437728882, |
| "step": 1632 |
| }, |
| { |
| "epoch": 1.0893333333333333, |
| "grad_norm": 7.40625, |
| "learning_rate": 2.8102787158367762e-06, |
| "loss": 1.8992735147476196, |
| "step": 1634 |
| }, |
| { |
| "epoch": 1.0906666666666667, |
| "grad_norm": 5.78125, |
| "learning_rate": 2.8059802942907045e-06, |
| "loss": 1.5470423698425293, |
| "step": 1636 |
| }, |
| { |
| "epoch": 1.092, |
| "grad_norm": 7.03125, |
| "learning_rate": 2.8016827772672515e-06, |
| "loss": 1.8855934143066406, |
| "step": 1638 |
| }, |
| { |
| "epoch": 1.0933333333333333, |
| "grad_norm": 1.9375, |
| "learning_rate": 2.7973861848015028e-06, |
| "loss": 1.3518332242965698, |
| "step": 1640 |
| }, |
| { |
| "epoch": 1.0946666666666667, |
| "grad_norm": 7.0, |
| "learning_rate": 2.793090536924233e-06, |
| "loss": 1.6882765293121338, |
| "step": 1642 |
| }, |
| { |
| "epoch": 1.096, |
| "grad_norm": 1.625, |
| "learning_rate": 2.7887958536618143e-06, |
| "loss": 1.0547984838485718, |
| "step": 1644 |
| }, |
| { |
| "epoch": 1.0973333333333333, |
| "grad_norm": 21.875, |
| "learning_rate": 2.78450215503612e-06, |
| "loss": 0.577151894569397, |
| "step": 1646 |
| }, |
| { |
| "epoch": 1.0986666666666667, |
| "grad_norm": 4.75, |
| "learning_rate": 2.7802094610644346e-06, |
| "loss": 1.5353561639785767, |
| "step": 1648 |
| }, |
| { |
| "epoch": 1.1, |
| "grad_norm": 4.96875, |
| "learning_rate": 2.775917791759358e-06, |
| "loss": 1.4958857297897339, |
| "step": 1650 |
| }, |
| { |
| "epoch": 1.1013333333333333, |
| "grad_norm": 7.0625, |
| "learning_rate": 2.7716271671287133e-06, |
| "loss": 1.8528183698654175, |
| "step": 1652 |
| }, |
| { |
| "epoch": 1.1026666666666667, |
| "grad_norm": 4.34375, |
| "learning_rate": 2.767337607175454e-06, |
| "loss": 1.679598331451416, |
| "step": 1654 |
| }, |
| { |
| "epoch": 1.104, |
| "grad_norm": 8.0625, |
| "learning_rate": 2.7630491318975683e-06, |
| "loss": 1.5526305437088013, |
| "step": 1656 |
| }, |
| { |
| "epoch": 1.1053333333333333, |
| "grad_norm": 1.6171875, |
| "learning_rate": 2.75876176128799e-06, |
| "loss": 1.0565264225006104, |
| "step": 1658 |
| }, |
| { |
| "epoch": 1.1066666666666667, |
| "grad_norm": 11.5, |
| "learning_rate": 2.7544755153345004e-06, |
| "loss": 1.4916378259658813, |
| "step": 1660 |
| }, |
| { |
| "epoch": 1.108, |
| "grad_norm": 4.78125, |
| "learning_rate": 2.75019041401964e-06, |
| "loss": 1.5577830076217651, |
| "step": 1662 |
| }, |
| { |
| "epoch": 1.1093333333333333, |
| "grad_norm": 4.65625, |
| "learning_rate": 2.7459064773206112e-06, |
| "loss": 1.6151214838027954, |
| "step": 1664 |
| }, |
| { |
| "epoch": 1.1106666666666667, |
| "grad_norm": 1.40625, |
| "learning_rate": 2.741623725209188e-06, |
| "loss": 1.078333854675293, |
| "step": 1666 |
| }, |
| { |
| "epoch": 1.112, |
| "grad_norm": 5.40625, |
| "learning_rate": 2.737342177651621e-06, |
| "loss": 1.70587158203125, |
| "step": 1668 |
| }, |
| { |
| "epoch": 1.1133333333333333, |
| "grad_norm": 6.28125, |
| "learning_rate": 2.733061854608546e-06, |
| "loss": 1.6127488613128662, |
| "step": 1670 |
| }, |
| { |
| "epoch": 1.1146666666666667, |
| "grad_norm": 5.28125, |
| "learning_rate": 2.7287827760348895e-06, |
| "loss": 1.5487406253814697, |
| "step": 1672 |
| }, |
| { |
| "epoch": 1.116, |
| "grad_norm": 4.125, |
| "learning_rate": 2.7245049618797776e-06, |
| "loss": 1.0803545713424683, |
| "step": 1674 |
| }, |
| { |
| "epoch": 1.1173333333333333, |
| "grad_norm": 2.90625, |
| "learning_rate": 2.7202284320864393e-06, |
| "loss": 1.207014799118042, |
| "step": 1676 |
| }, |
| { |
| "epoch": 1.1186666666666667, |
| "grad_norm": 6.90625, |
| "learning_rate": 2.715953206592117e-06, |
| "loss": 1.7723512649536133, |
| "step": 1678 |
| }, |
| { |
| "epoch": 1.12, |
| "grad_norm": 11.3125, |
| "learning_rate": 2.711679305327973e-06, |
| "loss": 1.7852306365966797, |
| "step": 1680 |
| }, |
| { |
| "epoch": 1.1213333333333333, |
| "grad_norm": 5.09375, |
| "learning_rate": 2.7074067482189957e-06, |
| "loss": 1.533666968345642, |
| "step": 1682 |
| }, |
| { |
| "epoch": 1.1226666666666667, |
| "grad_norm": 5.96875, |
| "learning_rate": 2.7031355551839056e-06, |
| "loss": 1.528637409210205, |
| "step": 1684 |
| }, |
| { |
| "epoch": 1.124, |
| "grad_norm": 3.796875, |
| "learning_rate": 2.6988657461350676e-06, |
| "loss": 1.445178508758545, |
| "step": 1686 |
| }, |
| { |
| "epoch": 1.1253333333333333, |
| "grad_norm": 17.875, |
| "learning_rate": 2.694597340978391e-06, |
| "loss": 1.4634462594985962, |
| "step": 1688 |
| }, |
| { |
| "epoch": 1.1266666666666667, |
| "grad_norm": 5.75, |
| "learning_rate": 2.690330359613241e-06, |
| "loss": 1.637460470199585, |
| "step": 1690 |
| }, |
| { |
| "epoch": 1.1280000000000001, |
| "grad_norm": 6.8125, |
| "learning_rate": 2.686064821932345e-06, |
| "loss": 1.4969818592071533, |
| "step": 1692 |
| }, |
| { |
| "epoch": 1.1293333333333333, |
| "grad_norm": 3.28125, |
| "learning_rate": 2.6818007478217e-06, |
| "loss": 1.0365345478057861, |
| "step": 1694 |
| }, |
| { |
| "epoch": 1.1306666666666667, |
| "grad_norm": 5.84375, |
| "learning_rate": 2.677538157160481e-06, |
| "loss": 1.9270894527435303, |
| "step": 1696 |
| }, |
| { |
| "epoch": 1.1320000000000001, |
| "grad_norm": 5.78125, |
| "learning_rate": 2.6732770698209448e-06, |
| "loss": 1.5478744506835938, |
| "step": 1698 |
| }, |
| { |
| "epoch": 1.1333333333333333, |
| "grad_norm": 1.390625, |
| "learning_rate": 2.6690175056683417e-06, |
| "loss": 1.1369259357452393, |
| "step": 1700 |
| }, |
| { |
| "epoch": 1.1346666666666667, |
| "grad_norm": 7.0625, |
| "learning_rate": 2.6647594845608204e-06, |
| "loss": 1.628596305847168, |
| "step": 1702 |
| }, |
| { |
| "epoch": 1.1360000000000001, |
| "grad_norm": 16.125, |
| "learning_rate": 2.660503026349335e-06, |
| "loss": 2.0064220428466797, |
| "step": 1704 |
| }, |
| { |
| "epoch": 1.1373333333333333, |
| "grad_norm": 7.9375, |
| "learning_rate": 2.6562481508775546e-06, |
| "loss": 1.5023362636566162, |
| "step": 1706 |
| }, |
| { |
| "epoch": 1.1386666666666667, |
| "grad_norm": 5.6875, |
| "learning_rate": 2.6519948779817685e-06, |
| "loss": 1.6183425188064575, |
| "step": 1708 |
| }, |
| { |
| "epoch": 1.1400000000000001, |
| "grad_norm": 2.09375, |
| "learning_rate": 2.647743227490796e-06, |
| "loss": 1.0072540044784546, |
| "step": 1710 |
| }, |
| { |
| "epoch": 1.1413333333333333, |
| "grad_norm": 5.21875, |
| "learning_rate": 2.6434932192258912e-06, |
| "loss": 1.5038986206054688, |
| "step": 1712 |
| }, |
| { |
| "epoch": 1.1426666666666667, |
| "grad_norm": 8.0625, |
| "learning_rate": 2.6392448730006536e-06, |
| "loss": 1.941042423248291, |
| "step": 1714 |
| }, |
| { |
| "epoch": 1.144, |
| "grad_norm": 3.84375, |
| "learning_rate": 2.6349982086209324e-06, |
| "loss": 1.1978323459625244, |
| "step": 1716 |
| }, |
| { |
| "epoch": 1.1453333333333333, |
| "grad_norm": 8.0625, |
| "learning_rate": 2.6307532458847386e-06, |
| "loss": 1.8174412250518799, |
| "step": 1718 |
| }, |
| { |
| "epoch": 1.1466666666666667, |
| "grad_norm": 6.125, |
| "learning_rate": 2.626510004582148e-06, |
| "loss": 1.5800225734710693, |
| "step": 1720 |
| }, |
| { |
| "epoch": 1.148, |
| "grad_norm": 7.78125, |
| "learning_rate": 2.6222685044952106e-06, |
| "loss": 1.6541552543640137, |
| "step": 1722 |
| }, |
| { |
| "epoch": 1.1493333333333333, |
| "grad_norm": 6.6875, |
| "learning_rate": 2.618028765397862e-06, |
| "loss": 1.5724791288375854, |
| "step": 1724 |
| }, |
| { |
| "epoch": 1.1506666666666667, |
| "grad_norm": 9.0625, |
| "learning_rate": 2.613790807055825e-06, |
| "loss": 1.9914119243621826, |
| "step": 1726 |
| }, |
| { |
| "epoch": 1.152, |
| "grad_norm": 24.5, |
| "learning_rate": 2.6095546492265204e-06, |
| "loss": 0.9788597822189331, |
| "step": 1728 |
| }, |
| { |
| "epoch": 1.1533333333333333, |
| "grad_norm": 4.90625, |
| "learning_rate": 2.605320311658978e-06, |
| "loss": 1.5182876586914062, |
| "step": 1730 |
| }, |
| { |
| "epoch": 1.1546666666666667, |
| "grad_norm": 6.1875, |
| "learning_rate": 2.601087814093739e-06, |
| "loss": 1.6977787017822266, |
| "step": 1732 |
| }, |
| { |
| "epoch": 1.156, |
| "grad_norm": 21.0, |
| "learning_rate": 2.596857176262766e-06, |
| "loss": 1.313176155090332, |
| "step": 1734 |
| }, |
| { |
| "epoch": 1.1573333333333333, |
| "grad_norm": 4.65625, |
| "learning_rate": 2.5926284178893533e-06, |
| "loss": 1.6549556255340576, |
| "step": 1736 |
| }, |
| { |
| "epoch": 1.1586666666666667, |
| "grad_norm": 13.0625, |
| "learning_rate": 2.588401558688033e-06, |
| "loss": 2.004779577255249, |
| "step": 1738 |
| }, |
| { |
| "epoch": 1.16, |
| "grad_norm": 3.21875, |
| "learning_rate": 2.5841766183644824e-06, |
| "loss": 1.2679145336151123, |
| "step": 1740 |
| }, |
| { |
| "epoch": 1.1613333333333333, |
| "grad_norm": 9.125, |
| "learning_rate": 2.5799536166154314e-06, |
| "loss": 1.4783008098602295, |
| "step": 1742 |
| }, |
| { |
| "epoch": 1.1626666666666667, |
| "grad_norm": 10.875, |
| "learning_rate": 2.5757325731285767e-06, |
| "loss": 1.916029691696167, |
| "step": 1744 |
| }, |
| { |
| "epoch": 1.164, |
| "grad_norm": 4.34375, |
| "learning_rate": 2.571513507582481e-06, |
| "loss": 1.3801783323287964, |
| "step": 1746 |
| }, |
| { |
| "epoch": 1.1653333333333333, |
| "grad_norm": 3.921875, |
| "learning_rate": 2.5672964396464884e-06, |
| "loss": 1.4577257633209229, |
| "step": 1748 |
| }, |
| { |
| "epoch": 1.1666666666666667, |
| "grad_norm": 6.03125, |
| "learning_rate": 2.5630813889806294e-06, |
| "loss": 1.5916978120803833, |
| "step": 1750 |
| }, |
| { |
| "epoch": 1.168, |
| "grad_norm": 6.875, |
| "learning_rate": 2.55886837523553e-06, |
| "loss": 1.5933470726013184, |
| "step": 1752 |
| }, |
| { |
| "epoch": 1.1693333333333333, |
| "grad_norm": 1.2578125, |
| "learning_rate": 2.554657418052321e-06, |
| "loss": 1.0478358268737793, |
| "step": 1754 |
| }, |
| { |
| "epoch": 1.1706666666666667, |
| "grad_norm": 4.53125, |
| "learning_rate": 2.550448537062542e-06, |
| "loss": 1.6661409139633179, |
| "step": 1756 |
| }, |
| { |
| "epoch": 1.172, |
| "grad_norm": 4.09375, |
| "learning_rate": 2.546241751888058e-06, |
| "loss": 1.266357421875, |
| "step": 1758 |
| }, |
| { |
| "epoch": 1.1733333333333333, |
| "grad_norm": 5.875, |
| "learning_rate": 2.5420370821409603e-06, |
| "loss": 1.9419959783554077, |
| "step": 1760 |
| }, |
| { |
| "epoch": 1.1746666666666667, |
| "grad_norm": 4.28125, |
| "learning_rate": 2.5378345474234777e-06, |
| "loss": 1.5483953952789307, |
| "step": 1762 |
| }, |
| { |
| "epoch": 1.176, |
| "grad_norm": 1.703125, |
| "learning_rate": 2.5336341673278896e-06, |
| "loss": 1.253208875656128, |
| "step": 1764 |
| }, |
| { |
| "epoch": 1.1773333333333333, |
| "grad_norm": 11.0, |
| "learning_rate": 2.529435961436425e-06, |
| "loss": 1.7776868343353271, |
| "step": 1766 |
| }, |
| { |
| "epoch": 1.1786666666666668, |
| "grad_norm": 7.21875, |
| "learning_rate": 2.525239949321181e-06, |
| "loss": 1.5882803201675415, |
| "step": 1768 |
| }, |
| { |
| "epoch": 1.18, |
| "grad_norm": 75.0, |
| "learning_rate": 2.5210461505440243e-06, |
| "loss": 1.0166734457015991, |
| "step": 1770 |
| }, |
| { |
| "epoch": 1.1813333333333333, |
| "grad_norm": 2.59375, |
| "learning_rate": 2.516854584656505e-06, |
| "loss": 1.4092483520507812, |
| "step": 1772 |
| }, |
| { |
| "epoch": 1.1826666666666668, |
| "grad_norm": 3.625, |
| "learning_rate": 2.5126652711997613e-06, |
| "loss": 1.493394136428833, |
| "step": 1774 |
| }, |
| { |
| "epoch": 1.184, |
| "grad_norm": 5.9375, |
| "learning_rate": 2.508478229704434e-06, |
| "loss": 1.5544865131378174, |
| "step": 1776 |
| }, |
| { |
| "epoch": 1.1853333333333333, |
| "grad_norm": 8.75, |
| "learning_rate": 2.5042934796905682e-06, |
| "loss": 1.7734179496765137, |
| "step": 1778 |
| }, |
| { |
| "epoch": 1.1866666666666668, |
| "grad_norm": 1.9296875, |
| "learning_rate": 2.50011104066753e-06, |
| "loss": 1.1469995975494385, |
| "step": 1780 |
| }, |
| { |
| "epoch": 1.188, |
| "grad_norm": 1.9375, |
| "learning_rate": 2.495930932133907e-06, |
| "loss": 1.056424617767334, |
| "step": 1782 |
| }, |
| { |
| "epoch": 1.1893333333333334, |
| "grad_norm": 4.5, |
| "learning_rate": 2.491753173577426e-06, |
| "loss": 1.584565281867981, |
| "step": 1784 |
| }, |
| { |
| "epoch": 1.1906666666666668, |
| "grad_norm": 7.03125, |
| "learning_rate": 2.4875777844748556e-06, |
| "loss": 1.1618425846099854, |
| "step": 1786 |
| }, |
| { |
| "epoch": 1.192, |
| "grad_norm": 2.453125, |
| "learning_rate": 2.4834047842919195e-06, |
| "loss": 0.9867179989814758, |
| "step": 1788 |
| }, |
| { |
| "epoch": 1.1933333333333334, |
| "grad_norm": 2.59375, |
| "learning_rate": 2.479234192483204e-06, |
| "loss": 1.1931567192077637, |
| "step": 1790 |
| }, |
| { |
| "epoch": 1.1946666666666665, |
| "grad_norm": 4.0, |
| "learning_rate": 2.4750660284920663e-06, |
| "loss": 1.6453449726104736, |
| "step": 1792 |
| }, |
| { |
| "epoch": 1.196, |
| "grad_norm": 7.59375, |
| "learning_rate": 2.4709003117505473e-06, |
| "loss": 1.5443363189697266, |
| "step": 1794 |
| }, |
| { |
| "epoch": 1.1973333333333334, |
| "grad_norm": 5.15625, |
| "learning_rate": 2.466737061679277e-06, |
| "loss": 1.6797435283660889, |
| "step": 1796 |
| }, |
| { |
| "epoch": 1.1986666666666665, |
| "grad_norm": 5.28125, |
| "learning_rate": 2.4625762976873857e-06, |
| "loss": 1.4136509895324707, |
| "step": 1798 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 9.3125, |
| "learning_rate": 2.4584180391724148e-06, |
| "loss": 1.5729784965515137, |
| "step": 1800 |
| }, |
| { |
| "epoch": 1.2013333333333334, |
| "grad_norm": 12.75, |
| "learning_rate": 2.4542623055202242e-06, |
| "loss": 1.860079288482666, |
| "step": 1802 |
| }, |
| { |
| "epoch": 1.2026666666666666, |
| "grad_norm": 7.03125, |
| "learning_rate": 2.450109116104903e-06, |
| "loss": 1.5427799224853516, |
| "step": 1804 |
| }, |
| { |
| "epoch": 1.204, |
| "grad_norm": 1.9375, |
| "learning_rate": 2.4459584902886798e-06, |
| "loss": 1.1774003505706787, |
| "step": 1806 |
| }, |
| { |
| "epoch": 1.2053333333333334, |
| "grad_norm": 7.9375, |
| "learning_rate": 2.44181044742183e-06, |
| "loss": 1.9959464073181152, |
| "step": 1808 |
| }, |
| { |
| "epoch": 1.2066666666666666, |
| "grad_norm": 5.4375, |
| "learning_rate": 2.437665006842589e-06, |
| "loss": 1.5742697715759277, |
| "step": 1810 |
| }, |
| { |
| "epoch": 1.208, |
| "grad_norm": 1.9921875, |
| "learning_rate": 2.433522187877059e-06, |
| "loss": 1.152430772781372, |
| "step": 1812 |
| }, |
| { |
| "epoch": 1.2093333333333334, |
| "grad_norm": 1.6640625, |
| "learning_rate": 2.4293820098391206e-06, |
| "loss": 1.106142282485962, |
| "step": 1814 |
| }, |
| { |
| "epoch": 1.2106666666666666, |
| "grad_norm": 7.09375, |
| "learning_rate": 2.4252444920303442e-06, |
| "loss": 1.5196865797042847, |
| "step": 1816 |
| }, |
| { |
| "epoch": 1.212, |
| "grad_norm": 4.46875, |
| "learning_rate": 2.4211096537398945e-06, |
| "loss": 1.5185796022415161, |
| "step": 1818 |
| }, |
| { |
| "epoch": 1.2133333333333334, |
| "grad_norm": 10.5625, |
| "learning_rate": 2.4169775142444472e-06, |
| "loss": 0.9786717295646667, |
| "step": 1820 |
| }, |
| { |
| "epoch": 1.2146666666666666, |
| "grad_norm": 5.1875, |
| "learning_rate": 2.412848092808095e-06, |
| "loss": 1.836982011795044, |
| "step": 1822 |
| }, |
| { |
| "epoch": 1.216, |
| "grad_norm": 3.953125, |
| "learning_rate": 2.408721408682259e-06, |
| "loss": 1.1979806423187256, |
| "step": 1824 |
| }, |
| { |
| "epoch": 1.2173333333333334, |
| "grad_norm": 4.8125, |
| "learning_rate": 2.4045974811055995e-06, |
| "loss": 1.5440890789031982, |
| "step": 1826 |
| }, |
| { |
| "epoch": 1.2186666666666666, |
| "grad_norm": 3.65625, |
| "learning_rate": 2.4004763293039253e-06, |
| "loss": 1.1417531967163086, |
| "step": 1828 |
| }, |
| { |
| "epoch": 1.22, |
| "grad_norm": 2.796875, |
| "learning_rate": 2.396357972490104e-06, |
| "loss": 1.2566338777542114, |
| "step": 1830 |
| }, |
| { |
| "epoch": 1.2213333333333334, |
| "grad_norm": 5.71875, |
| "learning_rate": 2.392242429863974e-06, |
| "loss": 1.178492546081543, |
| "step": 1832 |
| }, |
| { |
| "epoch": 1.2226666666666666, |
| "grad_norm": 5.09375, |
| "learning_rate": 2.3881297206122526e-06, |
| "loss": 1.5269526243209839, |
| "step": 1834 |
| }, |
| { |
| "epoch": 1.224, |
| "grad_norm": 3.171875, |
| "learning_rate": 2.38401986390845e-06, |
| "loss": 1.0146985054016113, |
| "step": 1836 |
| }, |
| { |
| "epoch": 1.2253333333333334, |
| "grad_norm": 2.359375, |
| "learning_rate": 2.3799128789127756e-06, |
| "loss": 1.1452817916870117, |
| "step": 1838 |
| }, |
| { |
| "epoch": 1.2266666666666666, |
| "grad_norm": 5.0625, |
| "learning_rate": 2.3758087847720518e-06, |
| "loss": 1.9190927743911743, |
| "step": 1840 |
| }, |
| { |
| "epoch": 1.228, |
| "grad_norm": 6.0, |
| "learning_rate": 2.3717076006196234e-06, |
| "loss": 1.6128742694854736, |
| "step": 1842 |
| }, |
| { |
| "epoch": 1.2293333333333334, |
| "grad_norm": 2.015625, |
| "learning_rate": 2.3676093455752695e-06, |
| "loss": 1.142547845840454, |
| "step": 1844 |
| }, |
| { |
| "epoch": 1.2306666666666666, |
| "grad_norm": 5.0625, |
| "learning_rate": 2.363514038745113e-06, |
| "loss": 1.5303454399108887, |
| "step": 1846 |
| }, |
| { |
| "epoch": 1.232, |
| "grad_norm": 7.0625, |
| "learning_rate": 2.3594216992215324e-06, |
| "loss": 1.9574984312057495, |
| "step": 1848 |
| }, |
| { |
| "epoch": 1.2333333333333334, |
| "grad_norm": 3.125, |
| "learning_rate": 2.3553323460830723e-06, |
| "loss": 1.140625238418579, |
| "step": 1850 |
| }, |
| { |
| "epoch": 1.2346666666666666, |
| "grad_norm": 4.375, |
| "learning_rate": 2.351245998394356e-06, |
| "loss": 1.6304525136947632, |
| "step": 1852 |
| }, |
| { |
| "epoch": 1.236, |
| "grad_norm": 6.84375, |
| "learning_rate": 2.347162675205993e-06, |
| "loss": 1.058687448501587, |
| "step": 1854 |
| }, |
| { |
| "epoch": 1.2373333333333334, |
| "grad_norm": 8.9375, |
| "learning_rate": 2.3430823955544947e-06, |
| "loss": 1.610640287399292, |
| "step": 1856 |
| }, |
| { |
| "epoch": 1.2386666666666666, |
| "grad_norm": 11.875, |
| "learning_rate": 2.339005178462183e-06, |
| "loss": 2.0690908432006836, |
| "step": 1858 |
| }, |
| { |
| "epoch": 1.24, |
| "grad_norm": 4.9375, |
| "learning_rate": 2.3349310429371014e-06, |
| "loss": 1.5361344814300537, |
| "step": 1860 |
| }, |
| { |
| "epoch": 1.2413333333333334, |
| "grad_norm": 6.46875, |
| "learning_rate": 2.330860007972927e-06, |
| "loss": 1.52693510055542, |
| "step": 1862 |
| }, |
| { |
| "epoch": 1.2426666666666666, |
| "grad_norm": 3.9375, |
| "learning_rate": 2.3267920925488833e-06, |
| "loss": 1.5994844436645508, |
| "step": 1864 |
| }, |
| { |
| "epoch": 1.244, |
| "grad_norm": 7.53125, |
| "learning_rate": 2.3227273156296486e-06, |
| "loss": 1.8968441486358643, |
| "step": 1866 |
| }, |
| { |
| "epoch": 1.2453333333333334, |
| "grad_norm": 4.71875, |
| "learning_rate": 2.3186656961652722e-06, |
| "loss": 1.1545343399047852, |
| "step": 1868 |
| }, |
| { |
| "epoch": 1.2466666666666666, |
| "grad_norm": 10.6875, |
| "learning_rate": 2.3146072530910804e-06, |
| "loss": 1.5420873165130615, |
| "step": 1870 |
| }, |
| { |
| "epoch": 1.248, |
| "grad_norm": 1.4296875, |
| "learning_rate": 2.3105520053275928e-06, |
| "loss": 1.0231177806854248, |
| "step": 1872 |
| }, |
| { |
| "epoch": 1.2493333333333334, |
| "grad_norm": 15.6875, |
| "learning_rate": 2.306499971780432e-06, |
| "loss": 1.553828239440918, |
| "step": 1874 |
| }, |
| { |
| "epoch": 1.2506666666666666, |
| "grad_norm": 4.84375, |
| "learning_rate": 2.3024511713402358e-06, |
| "loss": 1.510333776473999, |
| "step": 1876 |
| }, |
| { |
| "epoch": 1.252, |
| "grad_norm": 4.59375, |
| "learning_rate": 2.298405622882569e-06, |
| "loss": 1.556577444076538, |
| "step": 1878 |
| }, |
| { |
| "epoch": 1.2533333333333334, |
| "grad_norm": 1.875, |
| "learning_rate": 2.294363345267836e-06, |
| "loss": 1.2078943252563477, |
| "step": 1880 |
| }, |
| { |
| "epoch": 1.2546666666666666, |
| "grad_norm": 1.640625, |
| "learning_rate": 2.2903243573411926e-06, |
| "loss": 1.112194299697876, |
| "step": 1882 |
| }, |
| { |
| "epoch": 1.256, |
| "grad_norm": 1.7734375, |
| "learning_rate": 2.286288677932457e-06, |
| "loss": 1.247178554534912, |
| "step": 1884 |
| }, |
| { |
| "epoch": 1.2573333333333334, |
| "grad_norm": 2.4375, |
| "learning_rate": 2.282256325856025e-06, |
| "loss": 1.1059410572052002, |
| "step": 1886 |
| }, |
| { |
| "epoch": 1.2586666666666666, |
| "grad_norm": 8.0, |
| "learning_rate": 2.2782273199107783e-06, |
| "loss": 1.9317150115966797, |
| "step": 1888 |
| }, |
| { |
| "epoch": 1.26, |
| "grad_norm": 5.25, |
| "learning_rate": 2.2742016788799996e-06, |
| "loss": 1.4922699928283691, |
| "step": 1890 |
| }, |
| { |
| "epoch": 1.2613333333333334, |
| "grad_norm": 11.5, |
| "learning_rate": 2.2701794215312854e-06, |
| "loss": 1.8612873554229736, |
| "step": 1892 |
| }, |
| { |
| "epoch": 1.2626666666666666, |
| "grad_norm": 6.53125, |
| "learning_rate": 2.266160566616456e-06, |
| "loss": 1.5477168560028076, |
| "step": 1894 |
| }, |
| { |
| "epoch": 1.264, |
| "grad_norm": 4.65625, |
| "learning_rate": 2.26214513287147e-06, |
| "loss": 1.510019063949585, |
| "step": 1896 |
| }, |
| { |
| "epoch": 1.2653333333333334, |
| "grad_norm": 9.0625, |
| "learning_rate": 2.2581331390163364e-06, |
| "loss": 2.0930213928222656, |
| "step": 1898 |
| }, |
| { |
| "epoch": 1.2666666666666666, |
| "grad_norm": 3.0625, |
| "learning_rate": 2.254124603755027e-06, |
| "loss": 0.9632862210273743, |
| "step": 1900 |
| }, |
| { |
| "epoch": 1.268, |
| "grad_norm": 4.84375, |
| "learning_rate": 2.2501195457753912e-06, |
| "loss": 1.6332876682281494, |
| "step": 1902 |
| }, |
| { |
| "epoch": 1.2693333333333334, |
| "grad_norm": 8.5625, |
| "learning_rate": 2.2461179837490648e-06, |
| "loss": 1.3594850301742554, |
| "step": 1904 |
| }, |
| { |
| "epoch": 1.2706666666666666, |
| "grad_norm": 10.4375, |
| "learning_rate": 2.242119936331387e-06, |
| "loss": 2.073132038116455, |
| "step": 1906 |
| }, |
| { |
| "epoch": 1.272, |
| "grad_norm": 9.3125, |
| "learning_rate": 2.2381254221613122e-06, |
| "loss": 1.5879173278808594, |
| "step": 1908 |
| }, |
| { |
| "epoch": 1.2733333333333334, |
| "grad_norm": 31.875, |
| "learning_rate": 2.2341344598613212e-06, |
| "loss": 0.8240858912467957, |
| "step": 1910 |
| }, |
| { |
| "epoch": 1.2746666666666666, |
| "grad_norm": 2.84375, |
| "learning_rate": 2.230147068037338e-06, |
| "loss": 1.0706063508987427, |
| "step": 1912 |
| }, |
| { |
| "epoch": 1.276, |
| "grad_norm": 2.828125, |
| "learning_rate": 2.226163265278639e-06, |
| "loss": 1.1408822536468506, |
| "step": 1914 |
| }, |
| { |
| "epoch": 1.2773333333333334, |
| "grad_norm": 27.25, |
| "learning_rate": 2.2221830701577695e-06, |
| "loss": 1.6000707149505615, |
| "step": 1916 |
| }, |
| { |
| "epoch": 1.2786666666666666, |
| "grad_norm": 2.640625, |
| "learning_rate": 2.218206501230455e-06, |
| "loss": 1.1268792152404785, |
| "step": 1918 |
| }, |
| { |
| "epoch": 1.28, |
| "grad_norm": 3.234375, |
| "learning_rate": 2.2142335770355166e-06, |
| "loss": 1.3399468660354614, |
| "step": 1920 |
| }, |
| { |
| "epoch": 1.2813333333333334, |
| "grad_norm": 6.09375, |
| "learning_rate": 2.2102643160947834e-06, |
| "loss": 1.5325706005096436, |
| "step": 1922 |
| }, |
| { |
| "epoch": 1.2826666666666666, |
| "grad_norm": 1.640625, |
| "learning_rate": 2.2062987369130062e-06, |
| "loss": 1.1318565607070923, |
| "step": 1924 |
| }, |
| { |
| "epoch": 1.284, |
| "grad_norm": 6.0625, |
| "learning_rate": 2.2023368579777706e-06, |
| "loss": 1.484031319618225, |
| "step": 1926 |
| }, |
| { |
| "epoch": 1.2853333333333334, |
| "grad_norm": 2.8125, |
| "learning_rate": 2.198378697759413e-06, |
| "loss": 1.2130866050720215, |
| "step": 1928 |
| }, |
| { |
| "epoch": 1.2866666666666666, |
| "grad_norm": 9.4375, |
| "learning_rate": 2.1944242747109333e-06, |
| "loss": 2.0494606494903564, |
| "step": 1930 |
| }, |
| { |
| "epoch": 1.288, |
| "grad_norm": 5.8125, |
| "learning_rate": 2.190473607267906e-06, |
| "loss": 1.8861929178237915, |
| "step": 1932 |
| }, |
| { |
| "epoch": 1.2893333333333334, |
| "grad_norm": 4.90625, |
| "learning_rate": 2.1865267138484004e-06, |
| "loss": 1.6522796154022217, |
| "step": 1934 |
| }, |
| { |
| "epoch": 1.2906666666666666, |
| "grad_norm": 5.9375, |
| "learning_rate": 2.1825836128528884e-06, |
| "loss": 1.8132810592651367, |
| "step": 1936 |
| }, |
| { |
| "epoch": 1.292, |
| "grad_norm": 4.3125, |
| "learning_rate": 2.178644322664163e-06, |
| "loss": 1.5035209655761719, |
| "step": 1938 |
| }, |
| { |
| "epoch": 1.2933333333333334, |
| "grad_norm": 15.1875, |
| "learning_rate": 2.1747088616472517e-06, |
| "loss": 1.7719671726226807, |
| "step": 1940 |
| }, |
| { |
| "epoch": 1.2946666666666666, |
| "grad_norm": 4.0625, |
| "learning_rate": 2.1707772481493286e-06, |
| "loss": 1.5210639238357544, |
| "step": 1942 |
| }, |
| { |
| "epoch": 1.296, |
| "grad_norm": 6.0625, |
| "learning_rate": 2.166849500499632e-06, |
| "loss": 1.6196399927139282, |
| "step": 1944 |
| }, |
| { |
| "epoch": 1.2973333333333334, |
| "grad_norm": 7.4375, |
| "learning_rate": 2.162925637009377e-06, |
| "loss": 1.1646780967712402, |
| "step": 1946 |
| }, |
| { |
| "epoch": 1.2986666666666666, |
| "grad_norm": 11.5625, |
| "learning_rate": 2.1590056759716712e-06, |
| "loss": 1.9841561317443848, |
| "step": 1948 |
| }, |
| { |
| "epoch": 1.3, |
| "grad_norm": 6.8125, |
| "learning_rate": 2.1550896356614282e-06, |
| "loss": 1.5786137580871582, |
| "step": 1950 |
| }, |
| { |
| "epoch": 1.3013333333333335, |
| "grad_norm": 5.375, |
| "learning_rate": 2.1511775343352835e-06, |
| "loss": 1.5352140665054321, |
| "step": 1952 |
| }, |
| { |
| "epoch": 1.3026666666666666, |
| "grad_norm": 6.75, |
| "learning_rate": 2.147269390231509e-06, |
| "loss": 1.5395886898040771, |
| "step": 1954 |
| }, |
| { |
| "epoch": 1.304, |
| "grad_norm": 6.25, |
| "learning_rate": 2.143365221569927e-06, |
| "loss": 1.6343798637390137, |
| "step": 1956 |
| }, |
| { |
| "epoch": 1.3053333333333335, |
| "grad_norm": 6.0, |
| "learning_rate": 2.139465046551829e-06, |
| "loss": 1.6449880599975586, |
| "step": 1958 |
| }, |
| { |
| "epoch": 1.3066666666666666, |
| "grad_norm": 11.375, |
| "learning_rate": 2.135568883359885e-06, |
| "loss": 1.9318366050720215, |
| "step": 1960 |
| }, |
| { |
| "epoch": 1.308, |
| "grad_norm": 17.875, |
| "learning_rate": 2.1316767501580636e-06, |
| "loss": 1.664994478225708, |
| "step": 1962 |
| }, |
| { |
| "epoch": 1.3093333333333335, |
| "grad_norm": 1.9765625, |
| "learning_rate": 2.127788665091545e-06, |
| "loss": 1.0485271215438843, |
| "step": 1964 |
| }, |
| { |
| "epoch": 1.3106666666666666, |
| "grad_norm": 15.9375, |
| "learning_rate": 2.1239046462866358e-06, |
| "loss": 1.8190348148345947, |
| "step": 1966 |
| }, |
| { |
| "epoch": 1.312, |
| "grad_norm": 1.796875, |
| "learning_rate": 2.120024711850688e-06, |
| "loss": 1.0631358623504639, |
| "step": 1968 |
| }, |
| { |
| "epoch": 1.3133333333333335, |
| "grad_norm": 6.71875, |
| "learning_rate": 2.11614887987201e-06, |
| "loss": 1.3473261594772339, |
| "step": 1970 |
| }, |
| { |
| "epoch": 1.3146666666666667, |
| "grad_norm": 8.625, |
| "learning_rate": 2.1122771684197864e-06, |
| "loss": 1.7255139350891113, |
| "step": 1972 |
| }, |
| { |
| "epoch": 1.316, |
| "grad_norm": 10.5, |
| "learning_rate": 2.10840959554399e-06, |
| "loss": 2.001613140106201, |
| "step": 1974 |
| }, |
| { |
| "epoch": 1.3173333333333335, |
| "grad_norm": 5.5, |
| "learning_rate": 2.104546179275301e-06, |
| "loss": 1.5933119058609009, |
| "step": 1976 |
| }, |
| { |
| "epoch": 1.3186666666666667, |
| "grad_norm": 5.15625, |
| "learning_rate": 2.100686937625021e-06, |
| "loss": 1.5122944116592407, |
| "step": 1978 |
| }, |
| { |
| "epoch": 1.32, |
| "grad_norm": 7.46875, |
| "learning_rate": 2.0968318885849885e-06, |
| "loss": 1.4772236347198486, |
| "step": 1980 |
| }, |
| { |
| "epoch": 1.3213333333333335, |
| "grad_norm": 4.8125, |
| "learning_rate": 2.0929810501274973e-06, |
| "loss": 1.4999642372131348, |
| "step": 1982 |
| }, |
| { |
| "epoch": 1.3226666666666667, |
| "grad_norm": 14.125, |
| "learning_rate": 2.089134440205211e-06, |
| "loss": 2.0060179233551025, |
| "step": 1984 |
| }, |
| { |
| "epoch": 1.324, |
| "grad_norm": 3.34375, |
| "learning_rate": 2.085292076751079e-06, |
| "loss": 1.3181127309799194, |
| "step": 1986 |
| }, |
| { |
| "epoch": 1.3253333333333333, |
| "grad_norm": 5.28125, |
| "learning_rate": 2.081453977678254e-06, |
| "loss": 1.6507904529571533, |
| "step": 1988 |
| }, |
| { |
| "epoch": 1.3266666666666667, |
| "grad_norm": 7.125, |
| "learning_rate": 2.07762016088001e-06, |
| "loss": 1.5215134620666504, |
| "step": 1990 |
| }, |
| { |
| "epoch": 1.328, |
| "grad_norm": 4.6875, |
| "learning_rate": 2.073790644229654e-06, |
| "loss": 1.5981347560882568, |
| "step": 1992 |
| }, |
| { |
| "epoch": 1.3293333333333333, |
| "grad_norm": 33.5, |
| "learning_rate": 2.0699654455804467e-06, |
| "loss": 1.7263144254684448, |
| "step": 1994 |
| }, |
| { |
| "epoch": 1.3306666666666667, |
| "grad_norm": 7.59375, |
| "learning_rate": 2.0661445827655193e-06, |
| "loss": 2.1011343002319336, |
| "step": 1996 |
| }, |
| { |
| "epoch": 1.332, |
| "grad_norm": 2.984375, |
| "learning_rate": 2.062328073597787e-06, |
| "loss": 1.034977674484253, |
| "step": 1998 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 8.875, |
| "learning_rate": 2.0585159358698712e-06, |
| "loss": 1.8760616779327393, |
| "step": 2000 |
| }, |
| { |
| "epoch": 1.3346666666666667, |
| "grad_norm": 5.65625, |
| "learning_rate": 2.054708187354012e-06, |
| "loss": 1.6555390357971191, |
| "step": 2002 |
| }, |
| { |
| "epoch": 1.336, |
| "grad_norm": 1.5703125, |
| "learning_rate": 2.0509048458019854e-06, |
| "loss": 1.060708999633789, |
| "step": 2004 |
| }, |
| { |
| "epoch": 1.3373333333333333, |
| "grad_norm": 4.96875, |
| "learning_rate": 2.0471059289450255e-06, |
| "loss": 1.4976744651794434, |
| "step": 2006 |
| }, |
| { |
| "epoch": 1.3386666666666667, |
| "grad_norm": 5.53125, |
| "learning_rate": 2.0433114544937353e-06, |
| "loss": 1.5674824714660645, |
| "step": 2008 |
| }, |
| { |
| "epoch": 1.34, |
| "grad_norm": 6.09375, |
| "learning_rate": 2.0395214401380087e-06, |
| "loss": 1.5714900493621826, |
| "step": 2010 |
| }, |
| { |
| "epoch": 1.3413333333333333, |
| "grad_norm": 5.6875, |
| "learning_rate": 2.0357359035469467e-06, |
| "loss": 1.2028818130493164, |
| "step": 2012 |
| }, |
| { |
| "epoch": 1.3426666666666667, |
| "grad_norm": 25.0, |
| "learning_rate": 2.0319548623687746e-06, |
| "loss": 1.6153771877288818, |
| "step": 2014 |
| }, |
| { |
| "epoch": 1.3439999999999999, |
| "grad_norm": 6.125, |
| "learning_rate": 2.0281783342307596e-06, |
| "loss": 1.6412135362625122, |
| "step": 2016 |
| }, |
| { |
| "epoch": 1.3453333333333333, |
| "grad_norm": 7.125, |
| "learning_rate": 2.0244063367391296e-06, |
| "loss": 1.9324005842208862, |
| "step": 2018 |
| }, |
| { |
| "epoch": 1.3466666666666667, |
| "grad_norm": 1.9453125, |
| "learning_rate": 2.0206388874789907e-06, |
| "loss": 1.1473610401153564, |
| "step": 2020 |
| }, |
| { |
| "epoch": 1.3479999999999999, |
| "grad_norm": 7.40625, |
| "learning_rate": 2.0168760040142444e-06, |
| "loss": 1.558716058731079, |
| "step": 2022 |
| }, |
| { |
| "epoch": 1.3493333333333333, |
| "grad_norm": 4.09375, |
| "learning_rate": 2.0131177038875065e-06, |
| "loss": 1.479658842086792, |
| "step": 2024 |
| }, |
| { |
| "epoch": 1.3506666666666667, |
| "grad_norm": 5.25, |
| "learning_rate": 2.0093640046200256e-06, |
| "loss": 1.5598819255828857, |
| "step": 2026 |
| }, |
| { |
| "epoch": 1.3519999999999999, |
| "grad_norm": 6.40625, |
| "learning_rate": 2.0056149237116016e-06, |
| "loss": 1.6746928691864014, |
| "step": 2028 |
| }, |
| { |
| "epoch": 1.3533333333333333, |
| "grad_norm": 2.46875, |
| "learning_rate": 2.0018704786405014e-06, |
| "loss": 1.2208452224731445, |
| "step": 2030 |
| }, |
| { |
| "epoch": 1.3546666666666667, |
| "grad_norm": 22.25, |
| "learning_rate": 1.9981306868633833e-06, |
| "loss": 1.6869182586669922, |
| "step": 2032 |
| }, |
| { |
| "epoch": 1.3559999999999999, |
| "grad_norm": 2.203125, |
| "learning_rate": 1.9943955658152076e-06, |
| "loss": 1.0717189311981201, |
| "step": 2034 |
| }, |
| { |
| "epoch": 1.3573333333333333, |
| "grad_norm": 4.59375, |
| "learning_rate": 1.990665132909163e-06, |
| "loss": 1.4844554662704468, |
| "step": 2036 |
| }, |
| { |
| "epoch": 1.3586666666666667, |
| "grad_norm": 7.4375, |
| "learning_rate": 1.986939405536579e-06, |
| "loss": 1.8831037282943726, |
| "step": 2038 |
| }, |
| { |
| "epoch": 1.3599999999999999, |
| "grad_norm": 6.40625, |
| "learning_rate": 1.983218401066851e-06, |
| "loss": 1.8292875289916992, |
| "step": 2040 |
| }, |
| { |
| "epoch": 1.3613333333333333, |
| "grad_norm": 3.921875, |
| "learning_rate": 1.979502136847353e-06, |
| "loss": 1.5935251712799072, |
| "step": 2042 |
| }, |
| { |
| "epoch": 1.3626666666666667, |
| "grad_norm": 2.6875, |
| "learning_rate": 1.9757906302033636e-06, |
| "loss": 1.0542124509811401, |
| "step": 2044 |
| }, |
| { |
| "epoch": 1.3639999999999999, |
| "grad_norm": 5.03125, |
| "learning_rate": 1.9720838984379774e-06, |
| "loss": 1.5523146390914917, |
| "step": 2046 |
| }, |
| { |
| "epoch": 1.3653333333333333, |
| "grad_norm": 5.5, |
| "learning_rate": 1.9683819588320308e-06, |
| "loss": 1.5258020162582397, |
| "step": 2048 |
| }, |
| { |
| "epoch": 1.3666666666666667, |
| "grad_norm": 6.28125, |
| "learning_rate": 1.9646848286440195e-06, |
| "loss": 1.9182220697402954, |
| "step": 2050 |
| }, |
| { |
| "epoch": 1.3679999999999999, |
| "grad_norm": 4.53125, |
| "learning_rate": 1.960992525110017e-06, |
| "loss": 1.5669327974319458, |
| "step": 2052 |
| }, |
| { |
| "epoch": 1.3693333333333333, |
| "grad_norm": 4.40625, |
| "learning_rate": 1.957305065443594e-06, |
| "loss": 1.4941010475158691, |
| "step": 2054 |
| }, |
| { |
| "epoch": 1.3706666666666667, |
| "grad_norm": 3.203125, |
| "learning_rate": 1.95362246683574e-06, |
| "loss": 1.2234654426574707, |
| "step": 2056 |
| }, |
| { |
| "epoch": 1.3719999999999999, |
| "grad_norm": 5.4375, |
| "learning_rate": 1.949944746454782e-06, |
| "loss": 1.5590747594833374, |
| "step": 2058 |
| }, |
| { |
| "epoch": 1.3733333333333333, |
| "grad_norm": 13.1875, |
| "learning_rate": 1.946271921446304e-06, |
| "loss": 2.0392696857452393, |
| "step": 2060 |
| }, |
| { |
| "epoch": 1.3746666666666667, |
| "grad_norm": 1.8359375, |
| "learning_rate": 1.94260400893307e-06, |
| "loss": 1.2967076301574707, |
| "step": 2062 |
| }, |
| { |
| "epoch": 1.376, |
| "grad_norm": 10.4375, |
| "learning_rate": 1.9389410260149376e-06, |
| "loss": 1.4139618873596191, |
| "step": 2064 |
| }, |
| { |
| "epoch": 1.3773333333333333, |
| "grad_norm": 6.25, |
| "learning_rate": 1.935282989768787e-06, |
| "loss": 1.6094778776168823, |
| "step": 2066 |
| }, |
| { |
| "epoch": 1.3786666666666667, |
| "grad_norm": 7.4375, |
| "learning_rate": 1.931629917248434e-06, |
| "loss": 1.943546175956726, |
| "step": 2068 |
| }, |
| { |
| "epoch": 1.38, |
| "grad_norm": 7.46875, |
| "learning_rate": 1.9279818254845554e-06, |
| "loss": 1.8869085311889648, |
| "step": 2070 |
| }, |
| { |
| "epoch": 1.3813333333333333, |
| "grad_norm": 1.8984375, |
| "learning_rate": 1.924338731484606e-06, |
| "loss": 0.9827399253845215, |
| "step": 2072 |
| }, |
| { |
| "epoch": 1.3826666666666667, |
| "grad_norm": 13.875, |
| "learning_rate": 1.920700652232742e-06, |
| "loss": 1.617384910583496, |
| "step": 2074 |
| }, |
| { |
| "epoch": 1.384, |
| "grad_norm": 4.6875, |
| "learning_rate": 1.9170676046897407e-06, |
| "loss": 1.644477367401123, |
| "step": 2076 |
| }, |
| { |
| "epoch": 1.3853333333333333, |
| "grad_norm": 20.0, |
| "learning_rate": 1.9134396057929204e-06, |
| "loss": 2.099134922027588, |
| "step": 2078 |
| }, |
| { |
| "epoch": 1.3866666666666667, |
| "grad_norm": 5.59375, |
| "learning_rate": 1.909816672456064e-06, |
| "loss": 1.6014119386672974, |
| "step": 2080 |
| }, |
| { |
| "epoch": 1.388, |
| "grad_norm": 3.34375, |
| "learning_rate": 1.906198821569338e-06, |
| "loss": 1.2930165529251099, |
| "step": 2082 |
| }, |
| { |
| "epoch": 1.3893333333333333, |
| "grad_norm": 3.4375, |
| "learning_rate": 1.9025860699992149e-06, |
| "loss": 1.1446359157562256, |
| "step": 2084 |
| }, |
| { |
| "epoch": 1.3906666666666667, |
| "grad_norm": 8.5, |
| "learning_rate": 1.8989784345883932e-06, |
| "loss": 1.6573563814163208, |
| "step": 2086 |
| }, |
| { |
| "epoch": 1.392, |
| "grad_norm": 13.6875, |
| "learning_rate": 1.8953759321557205e-06, |
| "loss": 1.7369401454925537, |
| "step": 2088 |
| }, |
| { |
| "epoch": 1.3933333333333333, |
| "grad_norm": 5.34375, |
| "learning_rate": 1.8917785794961143e-06, |
| "loss": 1.5765206813812256, |
| "step": 2090 |
| }, |
| { |
| "epoch": 1.3946666666666667, |
| "grad_norm": 8.125, |
| "learning_rate": 1.8881863933804839e-06, |
| "loss": 1.629734754562378, |
| "step": 2092 |
| }, |
| { |
| "epoch": 1.396, |
| "grad_norm": 7.21875, |
| "learning_rate": 1.8845993905556515e-06, |
| "loss": 1.5609703063964844, |
| "step": 2094 |
| }, |
| { |
| "epoch": 1.3973333333333333, |
| "grad_norm": 8.5625, |
| "learning_rate": 1.8810175877442754e-06, |
| "loss": 1.5186164379119873, |
| "step": 2096 |
| }, |
| { |
| "epoch": 1.3986666666666667, |
| "grad_norm": 17.375, |
| "learning_rate": 1.8774410016447708e-06, |
| "loss": 0.563239574432373, |
| "step": 2098 |
| }, |
| { |
| "epoch": 1.4, |
| "grad_norm": 8.9375, |
| "learning_rate": 1.8738696489312333e-06, |
| "loss": 1.5320698022842407, |
| "step": 2100 |
| }, |
| { |
| "epoch": 1.4013333333333333, |
| "grad_norm": 7.59375, |
| "learning_rate": 1.8703035462533593e-06, |
| "loss": 1.6705598831176758, |
| "step": 2102 |
| }, |
| { |
| "epoch": 1.4026666666666667, |
| "grad_norm": 2.375, |
| "learning_rate": 1.8667427102363705e-06, |
| "loss": 1.0009243488311768, |
| "step": 2104 |
| }, |
| { |
| "epoch": 1.404, |
| "grad_norm": 1.3359375, |
| "learning_rate": 1.8631871574809346e-06, |
| "loss": 1.0675292015075684, |
| "step": 2106 |
| }, |
| { |
| "epoch": 1.4053333333333333, |
| "grad_norm": 12.9375, |
| "learning_rate": 1.859636904563089e-06, |
| "loss": 0.8650450706481934, |
| "step": 2108 |
| }, |
| { |
| "epoch": 1.4066666666666667, |
| "grad_norm": 12.875, |
| "learning_rate": 1.8560919680341638e-06, |
| "loss": 1.9227575063705444, |
| "step": 2110 |
| }, |
| { |
| "epoch": 1.408, |
| "grad_norm": 2.34375, |
| "learning_rate": 1.8525523644207023e-06, |
| "loss": 0.9330441951751709, |
| "step": 2112 |
| }, |
| { |
| "epoch": 1.4093333333333333, |
| "grad_norm": 5.875, |
| "learning_rate": 1.8490181102243873e-06, |
| "loss": 1.6113357543945312, |
| "step": 2114 |
| }, |
| { |
| "epoch": 1.4106666666666667, |
| "grad_norm": 5.96875, |
| "learning_rate": 1.845489221921962e-06, |
| "loss": 1.504434585571289, |
| "step": 2116 |
| }, |
| { |
| "epoch": 1.412, |
| "grad_norm": 8.5, |
| "learning_rate": 1.8419657159651535e-06, |
| "loss": 1.9374301433563232, |
| "step": 2118 |
| }, |
| { |
| "epoch": 1.4133333333333333, |
| "grad_norm": 8.625, |
| "learning_rate": 1.8384476087805967e-06, |
| "loss": 1.6084973812103271, |
| "step": 2120 |
| }, |
| { |
| "epoch": 1.4146666666666667, |
| "grad_norm": 7.5, |
| "learning_rate": 1.834934916769756e-06, |
| "loss": 1.7915997505187988, |
| "step": 2122 |
| }, |
| { |
| "epoch": 1.416, |
| "grad_norm": 4.53125, |
| "learning_rate": 1.831427656308854e-06, |
| "loss": 1.4243714809417725, |
| "step": 2124 |
| }, |
| { |
| "epoch": 1.4173333333333333, |
| "grad_norm": 10.0625, |
| "learning_rate": 1.8279258437487866e-06, |
| "loss": 1.8718931674957275, |
| "step": 2126 |
| }, |
| { |
| "epoch": 1.4186666666666667, |
| "grad_norm": 6.875, |
| "learning_rate": 1.8244294954150544e-06, |
| "loss": 1.1055264472961426, |
| "step": 2128 |
| }, |
| { |
| "epoch": 1.42, |
| "grad_norm": 3.046875, |
| "learning_rate": 1.8209386276076824e-06, |
| "loss": 1.1865965127944946, |
| "step": 2130 |
| }, |
| { |
| "epoch": 1.4213333333333333, |
| "grad_norm": 1.84375, |
| "learning_rate": 1.817453256601146e-06, |
| "loss": 1.0315593481063843, |
| "step": 2132 |
| }, |
| { |
| "epoch": 1.4226666666666667, |
| "grad_norm": 30.25, |
| "learning_rate": 1.8139733986442947e-06, |
| "loss": 1.6489253044128418, |
| "step": 2134 |
| }, |
| { |
| "epoch": 1.424, |
| "grad_norm": 20.0, |
| "learning_rate": 1.8104990699602753e-06, |
| "loss": 1.575264811515808, |
| "step": 2136 |
| }, |
| { |
| "epoch": 1.4253333333333333, |
| "grad_norm": 3.234375, |
| "learning_rate": 1.8070302867464562e-06, |
| "loss": 1.0482765436172485, |
| "step": 2138 |
| }, |
| { |
| "epoch": 1.4266666666666667, |
| "grad_norm": 5.6875, |
| "learning_rate": 1.8035670651743565e-06, |
| "loss": 1.56797456741333, |
| "step": 2140 |
| }, |
| { |
| "epoch": 1.428, |
| "grad_norm": 10.9375, |
| "learning_rate": 1.800109421389562e-06, |
| "loss": 1.4143714904785156, |
| "step": 2142 |
| }, |
| { |
| "epoch": 1.4293333333333333, |
| "grad_norm": 9.8125, |
| "learning_rate": 1.7966573715116587e-06, |
| "loss": 1.5282375812530518, |
| "step": 2144 |
| }, |
| { |
| "epoch": 1.4306666666666668, |
| "grad_norm": 3.9375, |
| "learning_rate": 1.793210931634151e-06, |
| "loss": 1.146159291267395, |
| "step": 2146 |
| }, |
| { |
| "epoch": 1.432, |
| "grad_norm": 7.375, |
| "learning_rate": 1.7897701178243906e-06, |
| "loss": 1.529174566268921, |
| "step": 2148 |
| }, |
| { |
| "epoch": 1.4333333333333333, |
| "grad_norm": 16.75, |
| "learning_rate": 1.7863349461235005e-06, |
| "loss": 1.9610891342163086, |
| "step": 2150 |
| }, |
| { |
| "epoch": 1.4346666666666668, |
| "grad_norm": 3.375, |
| "learning_rate": 1.7829054325463e-06, |
| "loss": 1.559476375579834, |
| "step": 2152 |
| }, |
| { |
| "epoch": 1.436, |
| "grad_norm": 5.4375, |
| "learning_rate": 1.7794815930812295e-06, |
| "loss": 1.5697715282440186, |
| "step": 2154 |
| }, |
| { |
| "epoch": 1.4373333333333334, |
| "grad_norm": 6.59375, |
| "learning_rate": 1.776063443690278e-06, |
| "loss": 1.6537988185882568, |
| "step": 2156 |
| }, |
| { |
| "epoch": 1.4386666666666668, |
| "grad_norm": 5.4375, |
| "learning_rate": 1.7726510003089054e-06, |
| "loss": 1.6215872764587402, |
| "step": 2158 |
| }, |
| { |
| "epoch": 1.44, |
| "grad_norm": 8.125, |
| "learning_rate": 1.7692442788459719e-06, |
| "loss": 1.3466334342956543, |
| "step": 2160 |
| }, |
| { |
| "epoch": 1.4413333333333334, |
| "grad_norm": 15.0625, |
| "learning_rate": 1.7658432951836608e-06, |
| "loss": 1.5198026895523071, |
| "step": 2162 |
| }, |
| { |
| "epoch": 1.4426666666666668, |
| "grad_norm": 1.8203125, |
| "learning_rate": 1.7624480651774062e-06, |
| "loss": 1.1337813138961792, |
| "step": 2164 |
| }, |
| { |
| "epoch": 1.444, |
| "grad_norm": 7.6875, |
| "learning_rate": 1.7590586046558189e-06, |
| "loss": 1.928809642791748, |
| "step": 2166 |
| }, |
| { |
| "epoch": 1.4453333333333334, |
| "grad_norm": 4.46875, |
| "learning_rate": 1.7556749294206116e-06, |
| "loss": 1.5531928539276123, |
| "step": 2168 |
| }, |
| { |
| "epoch": 1.4466666666666668, |
| "grad_norm": 1.3984375, |
| "learning_rate": 1.7522970552465263e-06, |
| "loss": 1.1785309314727783, |
| "step": 2170 |
| }, |
| { |
| "epoch": 1.448, |
| "grad_norm": 4.90625, |
| "learning_rate": 1.7489249978812595e-06, |
| "loss": 1.4006869792938232, |
| "step": 2172 |
| }, |
| { |
| "epoch": 1.4493333333333334, |
| "grad_norm": 6.3125, |
| "learning_rate": 1.7455587730453922e-06, |
| "loss": 1.6306333541870117, |
| "step": 2174 |
| }, |
| { |
| "epoch": 1.4506666666666668, |
| "grad_norm": 4.875, |
| "learning_rate": 1.7421983964323111e-06, |
| "loss": 1.730469822883606, |
| "step": 2176 |
| }, |
| { |
| "epoch": 1.452, |
| "grad_norm": 2.234375, |
| "learning_rate": 1.7388438837081401e-06, |
| "loss": 1.0633964538574219, |
| "step": 2178 |
| }, |
| { |
| "epoch": 1.4533333333333334, |
| "grad_norm": 8.5, |
| "learning_rate": 1.7354952505116645e-06, |
| "loss": 1.817662000656128, |
| "step": 2180 |
| }, |
| { |
| "epoch": 1.4546666666666668, |
| "grad_norm": 5.03125, |
| "learning_rate": 1.7321525124542604e-06, |
| "loss": 1.5825237035751343, |
| "step": 2182 |
| }, |
| { |
| "epoch": 1.456, |
| "grad_norm": 6.375, |
| "learning_rate": 1.7288156851198195e-06, |
| "loss": 1.6220369338989258, |
| "step": 2184 |
| }, |
| { |
| "epoch": 1.4573333333333334, |
| "grad_norm": 6.1875, |
| "learning_rate": 1.7254847840646785e-06, |
| "loss": 1.4336154460906982, |
| "step": 2186 |
| }, |
| { |
| "epoch": 1.4586666666666668, |
| "grad_norm": 5.09375, |
| "learning_rate": 1.7221598248175454e-06, |
| "loss": 1.5189586877822876, |
| "step": 2188 |
| }, |
| { |
| "epoch": 1.46, |
| "grad_norm": 9.0625, |
| "learning_rate": 1.7188408228794267e-06, |
| "loss": 1.481834888458252, |
| "step": 2190 |
| }, |
| { |
| "epoch": 1.4613333333333334, |
| "grad_norm": 157.0, |
| "learning_rate": 1.715527793723557e-06, |
| "loss": 1.8635661602020264, |
| "step": 2192 |
| }, |
| { |
| "epoch": 1.4626666666666668, |
| "grad_norm": 4.1875, |
| "learning_rate": 1.7122207527953256e-06, |
| "loss": 1.7555880546569824, |
| "step": 2194 |
| }, |
| { |
| "epoch": 1.464, |
| "grad_norm": 3.859375, |
| "learning_rate": 1.7089197155122035e-06, |
| "loss": 1.4021992683410645, |
| "step": 2196 |
| }, |
| { |
| "epoch": 1.4653333333333334, |
| "grad_norm": 44.75, |
| "learning_rate": 1.7056246972636737e-06, |
| "loss": 0.6922065615653992, |
| "step": 2198 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 4.34375, |
| "learning_rate": 1.7023357134111573e-06, |
| "loss": 1.5009167194366455, |
| "step": 2200 |
| }, |
| { |
| "epoch": 1.468, |
| "grad_norm": 5.71875, |
| "learning_rate": 1.6990527792879447e-06, |
| "loss": 1.750756025314331, |
| "step": 2202 |
| }, |
| { |
| "epoch": 1.4693333333333334, |
| "grad_norm": 7.59375, |
| "learning_rate": 1.6957759101991205e-06, |
| "loss": 1.1939451694488525, |
| "step": 2204 |
| }, |
| { |
| "epoch": 1.4706666666666668, |
| "grad_norm": 5.125, |
| "learning_rate": 1.6925051214214954e-06, |
| "loss": 1.539292335510254, |
| "step": 2206 |
| }, |
| { |
| "epoch": 1.472, |
| "grad_norm": 4.90625, |
| "learning_rate": 1.6892404282035335e-06, |
| "loss": 1.5177375078201294, |
| "step": 2208 |
| }, |
| { |
| "epoch": 1.4733333333333334, |
| "grad_norm": 6.65625, |
| "learning_rate": 1.6859818457652794e-06, |
| "loss": 1.5623188018798828, |
| "step": 2210 |
| }, |
| { |
| "epoch": 1.4746666666666668, |
| "grad_norm": 8.25, |
| "learning_rate": 1.6827293892982915e-06, |
| "loss": 2.06575870513916, |
| "step": 2212 |
| }, |
| { |
| "epoch": 1.476, |
| "grad_norm": 2.328125, |
| "learning_rate": 1.6794830739655677e-06, |
| "loss": 1.0674209594726562, |
| "step": 2214 |
| }, |
| { |
| "epoch": 1.4773333333333334, |
| "grad_norm": 6.71875, |
| "learning_rate": 1.676242914901477e-06, |
| "loss": 1.5208603143692017, |
| "step": 2216 |
| }, |
| { |
| "epoch": 1.4786666666666668, |
| "grad_norm": 4.125, |
| "learning_rate": 1.6730089272116856e-06, |
| "loss": 1.5469597578048706, |
| "step": 2218 |
| }, |
| { |
| "epoch": 1.48, |
| "grad_norm": 3.703125, |
| "learning_rate": 1.6697811259730913e-06, |
| "loss": 1.5321767330169678, |
| "step": 2220 |
| }, |
| { |
| "epoch": 1.4813333333333334, |
| "grad_norm": 15.875, |
| "learning_rate": 1.666559526233748e-06, |
| "loss": 1.7308143377304077, |
| "step": 2222 |
| }, |
| { |
| "epoch": 1.4826666666666668, |
| "grad_norm": 2.734375, |
| "learning_rate": 1.6633441430128001e-06, |
| "loss": 1.159908413887024, |
| "step": 2224 |
| }, |
| { |
| "epoch": 1.484, |
| "grad_norm": 10.125, |
| "learning_rate": 1.6601349913004095e-06, |
| "loss": 1.8157732486724854, |
| "step": 2226 |
| }, |
| { |
| "epoch": 1.4853333333333334, |
| "grad_norm": 4.71875, |
| "learning_rate": 1.656932086057687e-06, |
| "loss": 1.50502347946167, |
| "step": 2228 |
| }, |
| { |
| "epoch": 1.4866666666666668, |
| "grad_norm": 8.25, |
| "learning_rate": 1.6537354422166219e-06, |
| "loss": 1.9679980278015137, |
| "step": 2230 |
| }, |
| { |
| "epoch": 1.488, |
| "grad_norm": 6.3125, |
| "learning_rate": 1.6505450746800139e-06, |
| "loss": 1.5686023235321045, |
| "step": 2232 |
| }, |
| { |
| "epoch": 1.4893333333333334, |
| "grad_norm": 5.28125, |
| "learning_rate": 1.6473609983214016e-06, |
| "loss": 1.6479158401489258, |
| "step": 2234 |
| }, |
| { |
| "epoch": 1.4906666666666666, |
| "grad_norm": 5.78125, |
| "learning_rate": 1.6441832279849938e-06, |
| "loss": 1.948946237564087, |
| "step": 2236 |
| }, |
| { |
| "epoch": 1.492, |
| "grad_norm": 2.03125, |
| "learning_rate": 1.6410117784856006e-06, |
| "loss": 1.118719458580017, |
| "step": 2238 |
| }, |
| { |
| "epoch": 1.4933333333333334, |
| "grad_norm": 3.265625, |
| "learning_rate": 1.637846664608565e-06, |
| "loss": 0.9887099266052246, |
| "step": 2240 |
| }, |
| { |
| "epoch": 1.4946666666666666, |
| "grad_norm": 5.625, |
| "learning_rate": 1.6346879011096927e-06, |
| "loss": 1.574345588684082, |
| "step": 2242 |
| }, |
| { |
| "epoch": 1.496, |
| "grad_norm": 9.8125, |
| "learning_rate": 1.6315355027151836e-06, |
| "loss": 1.878307580947876, |
| "step": 2244 |
| }, |
| { |
| "epoch": 1.4973333333333334, |
| "grad_norm": 2.515625, |
| "learning_rate": 1.6283894841215642e-06, |
| "loss": 1.0803532600402832, |
| "step": 2246 |
| }, |
| { |
| "epoch": 1.4986666666666666, |
| "grad_norm": 2.296875, |
| "learning_rate": 1.6252498599956174e-06, |
| "loss": 1.1133677959442139, |
| "step": 2248 |
| }, |
| { |
| "epoch": 1.5, |
| "grad_norm": 4.71875, |
| "learning_rate": 1.6221166449743157e-06, |
| "loss": 1.5767303705215454, |
| "step": 2250 |
| }, |
| { |
| "epoch": 1.5013333333333332, |
| "grad_norm": 7.0, |
| "learning_rate": 1.6189898536647513e-06, |
| "loss": 1.894281029701233, |
| "step": 2252 |
| }, |
| { |
| "epoch": 1.5026666666666668, |
| "grad_norm": 2.921875, |
| "learning_rate": 1.6158695006440705e-06, |
| "loss": 1.0772048234939575, |
| "step": 2254 |
| }, |
| { |
| "epoch": 1.504, |
| "grad_norm": 13.5, |
| "learning_rate": 1.6127556004594028e-06, |
| "loss": 2.036059856414795, |
| "step": 2256 |
| }, |
| { |
| "epoch": 1.5053333333333332, |
| "grad_norm": 10.125, |
| "learning_rate": 1.6096481676277953e-06, |
| "loss": 1.9206452369689941, |
| "step": 2258 |
| }, |
| { |
| "epoch": 1.5066666666666668, |
| "grad_norm": 3.3125, |
| "learning_rate": 1.6065472166361435e-06, |
| "loss": 1.1090811491012573, |
| "step": 2260 |
| }, |
| { |
| "epoch": 1.508, |
| "grad_norm": 16.875, |
| "learning_rate": 1.6034527619411252e-06, |
| "loss": 1.9479446411132812, |
| "step": 2262 |
| }, |
| { |
| "epoch": 1.5093333333333332, |
| "grad_norm": 2.359375, |
| "learning_rate": 1.6003648179691312e-06, |
| "loss": 1.1486694812774658, |
| "step": 2264 |
| }, |
| { |
| "epoch": 1.5106666666666668, |
| "grad_norm": 10.8125, |
| "learning_rate": 1.5972833991162019e-06, |
| "loss": 1.6257998943328857, |
| "step": 2266 |
| }, |
| { |
| "epoch": 1.512, |
| "grad_norm": 8.75, |
| "learning_rate": 1.5942085197479542e-06, |
| "loss": 1.5967451333999634, |
| "step": 2268 |
| }, |
| { |
| "epoch": 1.5133333333333332, |
| "grad_norm": 8.1875, |
| "learning_rate": 1.5911401941995203e-06, |
| "loss": 1.5518248081207275, |
| "step": 2270 |
| }, |
| { |
| "epoch": 1.5146666666666668, |
| "grad_norm": 1.015625, |
| "learning_rate": 1.5880784367754765e-06, |
| "loss": 0.9718266725540161, |
| "step": 2272 |
| }, |
| { |
| "epoch": 1.516, |
| "grad_norm": 1.578125, |
| "learning_rate": 1.5850232617497799e-06, |
| "loss": 1.0614995956420898, |
| "step": 2274 |
| }, |
| { |
| "epoch": 1.5173333333333332, |
| "grad_norm": 9.0, |
| "learning_rate": 1.5819746833656995e-06, |
| "loss": 2.10675048828125, |
| "step": 2276 |
| }, |
| { |
| "epoch": 1.5186666666666668, |
| "grad_norm": 9.875, |
| "learning_rate": 1.5789327158357511e-06, |
| "loss": 1.713383674621582, |
| "step": 2278 |
| }, |
| { |
| "epoch": 1.52, |
| "grad_norm": 10.875, |
| "learning_rate": 1.5758973733416305e-06, |
| "loss": 2.0925493240356445, |
| "step": 2280 |
| }, |
| { |
| "epoch": 1.5213333333333332, |
| "grad_norm": 1.6640625, |
| "learning_rate": 1.5728686700341471e-06, |
| "loss": 1.2812188863754272, |
| "step": 2282 |
| }, |
| { |
| "epoch": 1.5226666666666666, |
| "grad_norm": 1.75, |
| "learning_rate": 1.5698466200331591e-06, |
| "loss": 1.0207161903381348, |
| "step": 2284 |
| }, |
| { |
| "epoch": 1.524, |
| "grad_norm": 13.9375, |
| "learning_rate": 1.5668312374275063e-06, |
| "loss": 1.8525854349136353, |
| "step": 2286 |
| }, |
| { |
| "epoch": 1.5253333333333332, |
| "grad_norm": 5.125, |
| "learning_rate": 1.5638225362749452e-06, |
| "loss": 1.5748333930969238, |
| "step": 2288 |
| }, |
| { |
| "epoch": 1.5266666666666666, |
| "grad_norm": 1.875, |
| "learning_rate": 1.560820530602083e-06, |
| "loss": 0.9696911573410034, |
| "step": 2290 |
| }, |
| { |
| "epoch": 1.528, |
| "grad_norm": 1.859375, |
| "learning_rate": 1.557825234404313e-06, |
| "loss": 1.1080089807510376, |
| "step": 2292 |
| }, |
| { |
| "epoch": 1.5293333333333332, |
| "grad_norm": 8.625, |
| "learning_rate": 1.5548366616457483e-06, |
| "loss": 1.7507381439208984, |
| "step": 2294 |
| }, |
| { |
| "epoch": 1.5306666666666666, |
| "grad_norm": 4.59375, |
| "learning_rate": 1.5518548262591577e-06, |
| "loss": 1.5224215984344482, |
| "step": 2296 |
| }, |
| { |
| "epoch": 1.532, |
| "grad_norm": 4.15625, |
| "learning_rate": 1.5488797421458998e-06, |
| "loss": 1.1142975091934204, |
| "step": 2298 |
| }, |
| { |
| "epoch": 1.5333333333333332, |
| "grad_norm": 1.78125, |
| "learning_rate": 1.545911423175859e-06, |
| "loss": 1.172170877456665, |
| "step": 2300 |
| }, |
| { |
| "epoch": 1.5346666666666666, |
| "grad_norm": 47.0, |
| "learning_rate": 1.542949883187381e-06, |
| "loss": 1.7134714126586914, |
| "step": 2302 |
| }, |
| { |
| "epoch": 1.536, |
| "grad_norm": 2.171875, |
| "learning_rate": 1.5399951359872062e-06, |
| "loss": 1.122593641281128, |
| "step": 2304 |
| }, |
| { |
| "epoch": 1.5373333333333332, |
| "grad_norm": 15.8125, |
| "learning_rate": 1.5370471953504078e-06, |
| "loss": 1.9810711145401, |
| "step": 2306 |
| }, |
| { |
| "epoch": 1.5386666666666666, |
| "grad_norm": 1.1875, |
| "learning_rate": 1.5341060750203285e-06, |
| "loss": 1.174625277519226, |
| "step": 2308 |
| }, |
| { |
| "epoch": 1.54, |
| "grad_norm": 6.6875, |
| "learning_rate": 1.5311717887085117e-06, |
| "loss": 1.7289341688156128, |
| "step": 2310 |
| }, |
| { |
| "epoch": 1.5413333333333332, |
| "grad_norm": 11.5625, |
| "learning_rate": 1.528244350094642e-06, |
| "loss": 1.8983392715454102, |
| "step": 2312 |
| }, |
| { |
| "epoch": 1.5426666666666666, |
| "grad_norm": 7.34375, |
| "learning_rate": 1.5253237728264802e-06, |
| "loss": 1.8950591087341309, |
| "step": 2314 |
| }, |
| { |
| "epoch": 1.544, |
| "grad_norm": 4.21875, |
| "learning_rate": 1.522410070519798e-06, |
| "loss": 1.6132075786590576, |
| "step": 2316 |
| }, |
| { |
| "epoch": 1.5453333333333332, |
| "grad_norm": 6.375, |
| "learning_rate": 1.5195032567583179e-06, |
| "loss": 1.7312850952148438, |
| "step": 2318 |
| }, |
| { |
| "epoch": 1.5466666666666666, |
| "grad_norm": 29.375, |
| "learning_rate": 1.5166033450936454e-06, |
| "loss": 0.7591425776481628, |
| "step": 2320 |
| }, |
| { |
| "epoch": 1.548, |
| "grad_norm": 6.1875, |
| "learning_rate": 1.5137103490452116e-06, |
| "loss": 1.5598540306091309, |
| "step": 2322 |
| }, |
| { |
| "epoch": 1.5493333333333332, |
| "grad_norm": 6.96875, |
| "learning_rate": 1.510824282100204e-06, |
| "loss": 1.9549357891082764, |
| "step": 2324 |
| }, |
| { |
| "epoch": 1.5506666666666666, |
| "grad_norm": 5.8125, |
| "learning_rate": 1.5079451577135082e-06, |
| "loss": 2.056565284729004, |
| "step": 2326 |
| }, |
| { |
| "epoch": 1.552, |
| "grad_norm": 65.0, |
| "learning_rate": 1.5050729893076421e-06, |
| "loss": 1.716827154159546, |
| "step": 2328 |
| }, |
| { |
| "epoch": 1.5533333333333332, |
| "grad_norm": 5.46875, |
| "learning_rate": 1.5022077902726964e-06, |
| "loss": 1.6515603065490723, |
| "step": 2330 |
| }, |
| { |
| "epoch": 1.5546666666666666, |
| "grad_norm": 7.0625, |
| "learning_rate": 1.4993495739662693e-06, |
| "loss": 1.8558051586151123, |
| "step": 2332 |
| }, |
| { |
| "epoch": 1.556, |
| "grad_norm": 10.25, |
| "learning_rate": 1.4964983537134053e-06, |
| "loss": 1.906949520111084, |
| "step": 2334 |
| }, |
| { |
| "epoch": 1.5573333333333332, |
| "grad_norm": 5.125, |
| "learning_rate": 1.4936541428065343e-06, |
| "loss": 1.5600132942199707, |
| "step": 2336 |
| }, |
| { |
| "epoch": 1.5586666666666666, |
| "grad_norm": 2.5625, |
| "learning_rate": 1.4908169545054077e-06, |
| "loss": 1.2310209274291992, |
| "step": 2338 |
| }, |
| { |
| "epoch": 1.56, |
| "grad_norm": 22.875, |
| "learning_rate": 1.4879868020370375e-06, |
| "loss": 0.6177462935447693, |
| "step": 2340 |
| }, |
| { |
| "epoch": 1.5613333333333332, |
| "grad_norm": 29.875, |
| "learning_rate": 1.4851636985956344e-06, |
| "loss": 0.6061275005340576, |
| "step": 2342 |
| }, |
| { |
| "epoch": 1.5626666666666666, |
| "grad_norm": 68.5, |
| "learning_rate": 1.482347657342547e-06, |
| "loss": 0.8461488485336304, |
| "step": 2344 |
| }, |
| { |
| "epoch": 1.564, |
| "grad_norm": 3.828125, |
| "learning_rate": 1.4795386914061996e-06, |
| "loss": 1.4999845027923584, |
| "step": 2346 |
| }, |
| { |
| "epoch": 1.5653333333333332, |
| "grad_norm": 3.796875, |
| "learning_rate": 1.4767368138820313e-06, |
| "loss": 1.50132155418396, |
| "step": 2348 |
| }, |
| { |
| "epoch": 1.5666666666666667, |
| "grad_norm": 6.28125, |
| "learning_rate": 1.4739420378324342e-06, |
| "loss": 1.525911569595337, |
| "step": 2350 |
| }, |
| { |
| "epoch": 1.568, |
| "grad_norm": 12.75, |
| "learning_rate": 1.4711543762866943e-06, |
| "loss": 2.013495445251465, |
| "step": 2352 |
| }, |
| { |
| "epoch": 1.5693333333333332, |
| "grad_norm": 2.90625, |
| "learning_rate": 1.4683738422409294e-06, |
| "loss": 1.0588361024856567, |
| "step": 2354 |
| }, |
| { |
| "epoch": 1.5706666666666667, |
| "grad_norm": 5.375, |
| "learning_rate": 1.4656004486580278e-06, |
| "loss": 1.5528647899627686, |
| "step": 2356 |
| }, |
| { |
| "epoch": 1.572, |
| "grad_norm": 3.84375, |
| "learning_rate": 1.4628342084675912e-06, |
| "loss": 1.523222804069519, |
| "step": 2358 |
| }, |
| { |
| "epoch": 1.5733333333333333, |
| "grad_norm": 5.4375, |
| "learning_rate": 1.4600751345658695e-06, |
| "loss": 1.581688642501831, |
| "step": 2360 |
| }, |
| { |
| "epoch": 1.5746666666666667, |
| "grad_norm": 5.90625, |
| "learning_rate": 1.4573232398157047e-06, |
| "loss": 1.5545933246612549, |
| "step": 2362 |
| }, |
| { |
| "epoch": 1.576, |
| "grad_norm": 5.0, |
| "learning_rate": 1.4545785370464693e-06, |
| "loss": 1.620265245437622, |
| "step": 2364 |
| }, |
| { |
| "epoch": 1.5773333333333333, |
| "grad_norm": 4.84375, |
| "learning_rate": 1.451841039054006e-06, |
| "loss": 1.459843397140503, |
| "step": 2366 |
| }, |
| { |
| "epoch": 1.5786666666666667, |
| "grad_norm": 7.1875, |
| "learning_rate": 1.4491107586005702e-06, |
| "loss": 1.4685808420181274, |
| "step": 2368 |
| }, |
| { |
| "epoch": 1.58, |
| "grad_norm": 15.75, |
| "learning_rate": 1.4463877084147667e-06, |
| "loss": 1.824225664138794, |
| "step": 2370 |
| }, |
| { |
| "epoch": 1.5813333333333333, |
| "grad_norm": 4.25, |
| "learning_rate": 1.4436719011914952e-06, |
| "loss": 1.5579168796539307, |
| "step": 2372 |
| }, |
| { |
| "epoch": 1.5826666666666667, |
| "grad_norm": 5.9375, |
| "learning_rate": 1.4409633495918871e-06, |
| "loss": 1.678511381149292, |
| "step": 2374 |
| }, |
| { |
| "epoch": 1.584, |
| "grad_norm": 1.4609375, |
| "learning_rate": 1.438262066243248e-06, |
| "loss": 0.9821925163269043, |
| "step": 2376 |
| }, |
| { |
| "epoch": 1.5853333333333333, |
| "grad_norm": 8.125, |
| "learning_rate": 1.4355680637390002e-06, |
| "loss": 1.4981456995010376, |
| "step": 2378 |
| }, |
| { |
| "epoch": 1.5866666666666667, |
| "grad_norm": 12.0, |
| "learning_rate": 1.4328813546386203e-06, |
| "loss": 1.8860352039337158, |
| "step": 2380 |
| }, |
| { |
| "epoch": 1.588, |
| "grad_norm": 4.9375, |
| "learning_rate": 1.4302019514675851e-06, |
| "loss": 1.470839023590088, |
| "step": 2382 |
| }, |
| { |
| "epoch": 1.5893333333333333, |
| "grad_norm": 20.875, |
| "learning_rate": 1.4275298667173099e-06, |
| "loss": 1.8443596363067627, |
| "step": 2384 |
| }, |
| { |
| "epoch": 1.5906666666666667, |
| "grad_norm": 9.5625, |
| "learning_rate": 1.424865112845092e-06, |
| "loss": 2.1072330474853516, |
| "step": 2386 |
| }, |
| { |
| "epoch": 1.592, |
| "grad_norm": 1.3515625, |
| "learning_rate": 1.422207702274051e-06, |
| "loss": 1.0557342767715454, |
| "step": 2388 |
| }, |
| { |
| "epoch": 1.5933333333333333, |
| "grad_norm": 6.375, |
| "learning_rate": 1.419557647393073e-06, |
| "loss": 1.6008689403533936, |
| "step": 2390 |
| }, |
| { |
| "epoch": 1.5946666666666667, |
| "grad_norm": 5.5625, |
| "learning_rate": 1.416914960556752e-06, |
| "loss": 1.618016242980957, |
| "step": 2392 |
| }, |
| { |
| "epoch": 1.596, |
| "grad_norm": 4.8125, |
| "learning_rate": 1.4142796540853308e-06, |
| "loss": 1.5180994272232056, |
| "step": 2394 |
| }, |
| { |
| "epoch": 1.5973333333333333, |
| "grad_norm": 10.375, |
| "learning_rate": 1.4116517402646457e-06, |
| "loss": 1.7874457836151123, |
| "step": 2396 |
| }, |
| { |
| "epoch": 1.5986666666666667, |
| "grad_norm": 4.21875, |
| "learning_rate": 1.4090312313460677e-06, |
| "loss": 1.2136869430541992, |
| "step": 2398 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 6.03125, |
| "learning_rate": 1.4064181395464477e-06, |
| "loss": 1.5290756225585938, |
| "step": 2400 |
| }, |
| { |
| "epoch": 1.6013333333333333, |
| "grad_norm": 11.5, |
| "learning_rate": 1.403812477048056e-06, |
| "loss": 2.132098913192749, |
| "step": 2402 |
| }, |
| { |
| "epoch": 1.6026666666666667, |
| "grad_norm": 16.5, |
| "learning_rate": 1.4012142559985284e-06, |
| "loss": 1.031418800354004, |
| "step": 2404 |
| }, |
| { |
| "epoch": 1.604, |
| "grad_norm": 2.96875, |
| "learning_rate": 1.398623488510808e-06, |
| "loss": 1.2537906169891357, |
| "step": 2406 |
| }, |
| { |
| "epoch": 1.6053333333333333, |
| "grad_norm": 3.515625, |
| "learning_rate": 1.3960401866630895e-06, |
| "loss": 1.501905083656311, |
| "step": 2408 |
| }, |
| { |
| "epoch": 1.6066666666666667, |
| "grad_norm": 7.125, |
| "learning_rate": 1.3934643624987628e-06, |
| "loss": 1.5386528968811035, |
| "step": 2410 |
| }, |
| { |
| "epoch": 1.608, |
| "grad_norm": 4.5, |
| "learning_rate": 1.390896028026357e-06, |
| "loss": 1.5996134281158447, |
| "step": 2412 |
| }, |
| { |
| "epoch": 1.6093333333333333, |
| "grad_norm": 2.03125, |
| "learning_rate": 1.3883351952194834e-06, |
| "loss": 1.073486089706421, |
| "step": 2414 |
| }, |
| { |
| "epoch": 1.6106666666666667, |
| "grad_norm": 4.65625, |
| "learning_rate": 1.3857818760167815e-06, |
| "loss": 1.541170358657837, |
| "step": 2416 |
| }, |
| { |
| "epoch": 1.612, |
| "grad_norm": 6.625, |
| "learning_rate": 1.383236082321861e-06, |
| "loss": 1.6134498119354248, |
| "step": 2418 |
| }, |
| { |
| "epoch": 1.6133333333333333, |
| "grad_norm": 10.75, |
| "learning_rate": 1.3806978260032483e-06, |
| "loss": 1.8399434089660645, |
| "step": 2420 |
| }, |
| { |
| "epoch": 1.6146666666666667, |
| "grad_norm": 8.25, |
| "learning_rate": 1.3781671188943306e-06, |
| "loss": 1.7731807231903076, |
| "step": 2422 |
| }, |
| { |
| "epoch": 1.616, |
| "grad_norm": 6.71875, |
| "learning_rate": 1.3756439727933e-06, |
| "loss": 1.5749328136444092, |
| "step": 2424 |
| }, |
| { |
| "epoch": 1.6173333333333333, |
| "grad_norm": 6.34375, |
| "learning_rate": 1.3731283994630994e-06, |
| "loss": 1.8089914321899414, |
| "step": 2426 |
| }, |
| { |
| "epoch": 1.6186666666666667, |
| "grad_norm": 11.5625, |
| "learning_rate": 1.3706204106313677e-06, |
| "loss": 1.8553075790405273, |
| "step": 2428 |
| }, |
| { |
| "epoch": 1.62, |
| "grad_norm": 5.65625, |
| "learning_rate": 1.3681200179903841e-06, |
| "loss": 1.5557477474212646, |
| "step": 2430 |
| }, |
| { |
| "epoch": 1.6213333333333333, |
| "grad_norm": 9.5, |
| "learning_rate": 1.3656272331970147e-06, |
| "loss": 2.0387516021728516, |
| "step": 2432 |
| }, |
| { |
| "epoch": 1.6226666666666667, |
| "grad_norm": 7.53125, |
| "learning_rate": 1.3631420678726575e-06, |
| "loss": 1.1420713663101196, |
| "step": 2434 |
| }, |
| { |
| "epoch": 1.624, |
| "grad_norm": 15.125, |
| "learning_rate": 1.3606645336031884e-06, |
| "loss": 0.822184681892395, |
| "step": 2436 |
| }, |
| { |
| "epoch": 1.6253333333333333, |
| "grad_norm": 4.40625, |
| "learning_rate": 1.3581946419389071e-06, |
| "loss": 1.5058057308197021, |
| "step": 2438 |
| }, |
| { |
| "epoch": 1.6266666666666667, |
| "grad_norm": 11.0625, |
| "learning_rate": 1.3557324043944842e-06, |
| "loss": 1.9923133850097656, |
| "step": 2440 |
| }, |
| { |
| "epoch": 1.6280000000000001, |
| "grad_norm": 6.6875, |
| "learning_rate": 1.3532778324489057e-06, |
| "loss": 1.6043286323547363, |
| "step": 2442 |
| }, |
| { |
| "epoch": 1.6293333333333333, |
| "grad_norm": 12.25, |
| "learning_rate": 1.3508309375454203e-06, |
| "loss": 1.7089390754699707, |
| "step": 2444 |
| }, |
| { |
| "epoch": 1.6306666666666667, |
| "grad_norm": 10.375, |
| "learning_rate": 1.3483917310914874e-06, |
| "loss": 1.5101563930511475, |
| "step": 2446 |
| }, |
| { |
| "epoch": 1.6320000000000001, |
| "grad_norm": 4.3125, |
| "learning_rate": 1.3459602244587213e-06, |
| "loss": 1.580566644668579, |
| "step": 2448 |
| }, |
| { |
| "epoch": 1.6333333333333333, |
| "grad_norm": 1.8515625, |
| "learning_rate": 1.3435364289828417e-06, |
| "loss": 1.1323513984680176, |
| "step": 2450 |
| }, |
| { |
| "epoch": 1.6346666666666667, |
| "grad_norm": 2.78125, |
| "learning_rate": 1.3411203559636167e-06, |
| "loss": 1.149007797241211, |
| "step": 2452 |
| }, |
| { |
| "epoch": 1.6360000000000001, |
| "grad_norm": 11.875, |
| "learning_rate": 1.338712016664813e-06, |
| "loss": 1.757912278175354, |
| "step": 2454 |
| }, |
| { |
| "epoch": 1.6373333333333333, |
| "grad_norm": 1.8984375, |
| "learning_rate": 1.3363114223141424e-06, |
| "loss": 1.1383402347564697, |
| "step": 2456 |
| }, |
| { |
| "epoch": 1.6386666666666667, |
| "grad_norm": 8.25, |
| "learning_rate": 1.3339185841032098e-06, |
| "loss": 1.2369120121002197, |
| "step": 2458 |
| }, |
| { |
| "epoch": 1.6400000000000001, |
| "grad_norm": 10.5, |
| "learning_rate": 1.3315335131874615e-06, |
| "loss": 1.1226749420166016, |
| "step": 2460 |
| }, |
| { |
| "epoch": 1.6413333333333333, |
| "grad_norm": 6.65625, |
| "learning_rate": 1.3291562206861313e-06, |
| "loss": 2.066049814224243, |
| "step": 2462 |
| }, |
| { |
| "epoch": 1.6426666666666667, |
| "grad_norm": 6.21875, |
| "learning_rate": 1.3267867176821905e-06, |
| "loss": 1.8269095420837402, |
| "step": 2464 |
| }, |
| { |
| "epoch": 1.6440000000000001, |
| "grad_norm": 13.75, |
| "learning_rate": 1.3244250152222962e-06, |
| "loss": 1.9400553703308105, |
| "step": 2466 |
| }, |
| { |
| "epoch": 1.6453333333333333, |
| "grad_norm": 10.125, |
| "learning_rate": 1.3220711243167383e-06, |
| "loss": 1.5360229015350342, |
| "step": 2468 |
| }, |
| { |
| "epoch": 1.6466666666666665, |
| "grad_norm": 5.3125, |
| "learning_rate": 1.3197250559393898e-06, |
| "loss": 1.47464919090271, |
| "step": 2470 |
| }, |
| { |
| "epoch": 1.6480000000000001, |
| "grad_norm": 47.0, |
| "learning_rate": 1.3173868210276546e-06, |
| "loss": 1.0298049449920654, |
| "step": 2472 |
| }, |
| { |
| "epoch": 1.6493333333333333, |
| "grad_norm": 10.625, |
| "learning_rate": 1.3150564304824173e-06, |
| "loss": 1.9129880666732788, |
| "step": 2474 |
| }, |
| { |
| "epoch": 1.6506666666666665, |
| "grad_norm": 10.6875, |
| "learning_rate": 1.3127338951679914e-06, |
| "loss": 1.8743722438812256, |
| "step": 2476 |
| }, |
| { |
| "epoch": 1.6520000000000001, |
| "grad_norm": 20.125, |
| "learning_rate": 1.3104192259120696e-06, |
| "loss": 1.9373652935028076, |
| "step": 2478 |
| }, |
| { |
| "epoch": 1.6533333333333333, |
| "grad_norm": 3.34375, |
| "learning_rate": 1.3081124335056724e-06, |
| "loss": 1.0924056768417358, |
| "step": 2480 |
| }, |
| { |
| "epoch": 1.6546666666666665, |
| "grad_norm": 3.5625, |
| "learning_rate": 1.3058135287030994e-06, |
| "loss": 1.5548295974731445, |
| "step": 2482 |
| }, |
| { |
| "epoch": 1.6560000000000001, |
| "grad_norm": 3.296875, |
| "learning_rate": 1.3035225222218763e-06, |
| "loss": 1.1189805269241333, |
| "step": 2484 |
| }, |
| { |
| "epoch": 1.6573333333333333, |
| "grad_norm": 6.96875, |
| "learning_rate": 1.3012394247427094e-06, |
| "loss": 1.9380686283111572, |
| "step": 2486 |
| }, |
| { |
| "epoch": 1.6586666666666665, |
| "grad_norm": 1.953125, |
| "learning_rate": 1.29896424690943e-06, |
| "loss": 0.9920519590377808, |
| "step": 2488 |
| }, |
| { |
| "epoch": 1.6600000000000001, |
| "grad_norm": 4.0, |
| "learning_rate": 1.29669699932895e-06, |
| "loss": 1.6043567657470703, |
| "step": 2490 |
| }, |
| { |
| "epoch": 1.6613333333333333, |
| "grad_norm": 55.5, |
| "learning_rate": 1.2944376925712098e-06, |
| "loss": 1.60878324508667, |
| "step": 2492 |
| }, |
| { |
| "epoch": 1.6626666666666665, |
| "grad_norm": 10.5, |
| "learning_rate": 1.29218633716913e-06, |
| "loss": 1.898872971534729, |
| "step": 2494 |
| }, |
| { |
| "epoch": 1.6640000000000001, |
| "grad_norm": 8.625, |
| "learning_rate": 1.2899429436185606e-06, |
| "loss": 1.1359686851501465, |
| "step": 2496 |
| }, |
| { |
| "epoch": 1.6653333333333333, |
| "grad_norm": 7.0, |
| "learning_rate": 1.2877075223782349e-06, |
| "loss": 1.8120665550231934, |
| "step": 2498 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "grad_norm": 5.5, |
| "learning_rate": 1.2854800838697178e-06, |
| "loss": 1.6861441135406494, |
| "step": 2500 |
| }, |
| { |
| "epoch": 1.6680000000000001, |
| "grad_norm": 9.4375, |
| "learning_rate": 1.2832606384773588e-06, |
| "loss": 1.9833118915557861, |
| "step": 2502 |
| }, |
| { |
| "epoch": 1.6693333333333333, |
| "grad_norm": 2.15625, |
| "learning_rate": 1.2810491965482453e-06, |
| "loss": 1.1113640069961548, |
| "step": 2504 |
| }, |
| { |
| "epoch": 1.6706666666666665, |
| "grad_norm": 5.125, |
| "learning_rate": 1.2788457683921495e-06, |
| "loss": 1.5374150276184082, |
| "step": 2506 |
| }, |
| { |
| "epoch": 1.6720000000000002, |
| "grad_norm": 8.75, |
| "learning_rate": 1.2766503642814853e-06, |
| "loss": 1.532484769821167, |
| "step": 2508 |
| }, |
| { |
| "epoch": 1.6733333333333333, |
| "grad_norm": 9.25, |
| "learning_rate": 1.2744629944512581e-06, |
| "loss": 1.9680659770965576, |
| "step": 2510 |
| }, |
| { |
| "epoch": 1.6746666666666665, |
| "grad_norm": 4.90625, |
| "learning_rate": 1.2722836690990167e-06, |
| "loss": 1.4476611614227295, |
| "step": 2512 |
| }, |
| { |
| "epoch": 1.6760000000000002, |
| "grad_norm": 10.3125, |
| "learning_rate": 1.2701123983848066e-06, |
| "loss": 2.006901264190674, |
| "step": 2514 |
| }, |
| { |
| "epoch": 1.6773333333333333, |
| "grad_norm": 15.0, |
| "learning_rate": 1.2679491924311227e-06, |
| "loss": 1.826201319694519, |
| "step": 2516 |
| }, |
| { |
| "epoch": 1.6786666666666665, |
| "grad_norm": 9.75, |
| "learning_rate": 1.2657940613228625e-06, |
| "loss": 2.085049629211426, |
| "step": 2518 |
| }, |
| { |
| "epoch": 1.6800000000000002, |
| "grad_norm": 2.921875, |
| "learning_rate": 1.2636470151072766e-06, |
| "loss": 1.2014029026031494, |
| "step": 2520 |
| }, |
| { |
| "epoch": 1.6813333333333333, |
| "grad_norm": 13.4375, |
| "learning_rate": 1.261508063793926e-06, |
| "loss": 1.615051031112671, |
| "step": 2522 |
| }, |
| { |
| "epoch": 1.6826666666666665, |
| "grad_norm": 4.5625, |
| "learning_rate": 1.2593772173546315e-06, |
| "loss": 1.611379861831665, |
| "step": 2524 |
| }, |
| { |
| "epoch": 1.6840000000000002, |
| "grad_norm": 1.921875, |
| "learning_rate": 1.2572544857234294e-06, |
| "loss": 1.1507315635681152, |
| "step": 2526 |
| }, |
| { |
| "epoch": 1.6853333333333333, |
| "grad_norm": 2.484375, |
| "learning_rate": 1.2551398787965249e-06, |
| "loss": 1.275776982307434, |
| "step": 2528 |
| }, |
| { |
| "epoch": 1.6866666666666665, |
| "grad_norm": 13.1875, |
| "learning_rate": 1.2530334064322455e-06, |
| "loss": 1.2164192199707031, |
| "step": 2530 |
| }, |
| { |
| "epoch": 1.688, |
| "grad_norm": 5.53125, |
| "learning_rate": 1.250935078450995e-06, |
| "loss": 1.5331335067749023, |
| "step": 2532 |
| }, |
| { |
| "epoch": 1.6893333333333334, |
| "grad_norm": 13.0, |
| "learning_rate": 1.248844904635208e-06, |
| "loss": 1.6550445556640625, |
| "step": 2534 |
| }, |
| { |
| "epoch": 1.6906666666666665, |
| "grad_norm": 6.96875, |
| "learning_rate": 1.2467628947293048e-06, |
| "loss": 1.9799119234085083, |
| "step": 2536 |
| }, |
| { |
| "epoch": 1.692, |
| "grad_norm": 4.65625, |
| "learning_rate": 1.2446890584396453e-06, |
| "loss": 1.5746979713439941, |
| "step": 2538 |
| }, |
| { |
| "epoch": 1.6933333333333334, |
| "grad_norm": 11.125, |
| "learning_rate": 1.242623405434483e-06, |
| "loss": 1.7918205261230469, |
| "step": 2540 |
| }, |
| { |
| "epoch": 1.6946666666666665, |
| "grad_norm": 13.375, |
| "learning_rate": 1.2405659453439223e-06, |
| "loss": 1.6811120510101318, |
| "step": 2542 |
| }, |
| { |
| "epoch": 1.696, |
| "grad_norm": 4.84375, |
| "learning_rate": 1.2385166877598709e-06, |
| "loss": 1.591151475906372, |
| "step": 2544 |
| }, |
| { |
| "epoch": 1.6973333333333334, |
| "grad_norm": 29.125, |
| "learning_rate": 1.236475642235997e-06, |
| "loss": 0.6545977592468262, |
| "step": 2546 |
| }, |
| { |
| "epoch": 1.6986666666666665, |
| "grad_norm": 5.53125, |
| "learning_rate": 1.2344428182876834e-06, |
| "loss": 1.7109073400497437, |
| "step": 2548 |
| }, |
| { |
| "epoch": 1.7, |
| "grad_norm": 2.234375, |
| "learning_rate": 1.2324182253919842e-06, |
| "loss": 1.4369351863861084, |
| "step": 2550 |
| }, |
| { |
| "epoch": 1.7013333333333334, |
| "grad_norm": 40.5, |
| "learning_rate": 1.2304018729875806e-06, |
| "loss": 1.494368076324463, |
| "step": 2552 |
| }, |
| { |
| "epoch": 1.7026666666666666, |
| "grad_norm": 1.84375, |
| "learning_rate": 1.2283937704747353e-06, |
| "loss": 1.085021734237671, |
| "step": 2554 |
| }, |
| { |
| "epoch": 1.704, |
| "grad_norm": 4.3125, |
| "learning_rate": 1.2263939272152513e-06, |
| "loss": 1.5085113048553467, |
| "step": 2556 |
| }, |
| { |
| "epoch": 1.7053333333333334, |
| "grad_norm": 11.4375, |
| "learning_rate": 1.2244023525324266e-06, |
| "loss": 2.0440781116485596, |
| "step": 2558 |
| }, |
| { |
| "epoch": 1.7066666666666666, |
| "grad_norm": 9.875, |
| "learning_rate": 1.2224190557110097e-06, |
| "loss": 1.5847303867340088, |
| "step": 2560 |
| }, |
| { |
| "epoch": 1.708, |
| "grad_norm": 3.375, |
| "learning_rate": 1.220444045997159e-06, |
| "loss": 1.0622501373291016, |
| "step": 2562 |
| }, |
| { |
| "epoch": 1.7093333333333334, |
| "grad_norm": 1.6484375, |
| "learning_rate": 1.2184773325983976e-06, |
| "loss": 1.0417931079864502, |
| "step": 2564 |
| }, |
| { |
| "epoch": 1.7106666666666666, |
| "grad_norm": 18.375, |
| "learning_rate": 1.2165189246835716e-06, |
| "loss": 1.0322291851043701, |
| "step": 2566 |
| }, |
| { |
| "epoch": 1.712, |
| "grad_norm": 16.625, |
| "learning_rate": 1.2145688313828058e-06, |
| "loss": 1.9865806102752686, |
| "step": 2568 |
| }, |
| { |
| "epoch": 1.7133333333333334, |
| "grad_norm": 5.59375, |
| "learning_rate": 1.212627061787464e-06, |
| "loss": 1.5734801292419434, |
| "step": 2570 |
| }, |
| { |
| "epoch": 1.7146666666666666, |
| "grad_norm": 20.5, |
| "learning_rate": 1.2106936249501023e-06, |
| "loss": 1.7474571466445923, |
| "step": 2572 |
| }, |
| { |
| "epoch": 1.716, |
| "grad_norm": 11.5625, |
| "learning_rate": 1.2087685298844312e-06, |
| "loss": 1.8723552227020264, |
| "step": 2574 |
| }, |
| { |
| "epoch": 1.7173333333333334, |
| "grad_norm": 35.0, |
| "learning_rate": 1.2068517855652712e-06, |
| "loss": 1.7286386489868164, |
| "step": 2576 |
| }, |
| { |
| "epoch": 1.7186666666666666, |
| "grad_norm": 6.40625, |
| "learning_rate": 1.2049434009285116e-06, |
| "loss": 1.5056369304656982, |
| "step": 2578 |
| }, |
| { |
| "epoch": 1.72, |
| "grad_norm": 7.0, |
| "learning_rate": 1.2030433848710684e-06, |
| "loss": 1.538612961769104, |
| "step": 2580 |
| }, |
| { |
| "epoch": 1.7213333333333334, |
| "grad_norm": 5.9375, |
| "learning_rate": 1.2011517462508432e-06, |
| "loss": 1.5303728580474854, |
| "step": 2582 |
| }, |
| { |
| "epoch": 1.7226666666666666, |
| "grad_norm": 6.15625, |
| "learning_rate": 1.1992684938866826e-06, |
| "loss": 2.1096715927124023, |
| "step": 2584 |
| }, |
| { |
| "epoch": 1.724, |
| "grad_norm": 8.125, |
| "learning_rate": 1.1973936365583357e-06, |
| "loss": 1.557473063468933, |
| "step": 2586 |
| }, |
| { |
| "epoch": 1.7253333333333334, |
| "grad_norm": 3.765625, |
| "learning_rate": 1.1955271830064138e-06, |
| "loss": 1.5712800025939941, |
| "step": 2588 |
| }, |
| { |
| "epoch": 1.7266666666666666, |
| "grad_norm": 6.5, |
| "learning_rate": 1.1936691419323498e-06, |
| "loss": 1.5366168022155762, |
| "step": 2590 |
| }, |
| { |
| "epoch": 1.728, |
| "grad_norm": 30.625, |
| "learning_rate": 1.1918195219983574e-06, |
| "loss": 0.6057420969009399, |
| "step": 2592 |
| }, |
| { |
| "epoch": 1.7293333333333334, |
| "grad_norm": 4.125, |
| "learning_rate": 1.1899783318273914e-06, |
| "loss": 1.158643126487732, |
| "step": 2594 |
| }, |
| { |
| "epoch": 1.7306666666666666, |
| "grad_norm": 10.625, |
| "learning_rate": 1.1881455800031064e-06, |
| "loss": 1.5761902332305908, |
| "step": 2596 |
| }, |
| { |
| "epoch": 1.732, |
| "grad_norm": 5.40625, |
| "learning_rate": 1.186321275069817e-06, |
| "loss": 1.595426082611084, |
| "step": 2598 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 1.1796875, |
| "learning_rate": 1.184505425532459e-06, |
| "loss": 1.0814518928527832, |
| "step": 2600 |
| }, |
| { |
| "epoch": 1.7346666666666666, |
| "grad_norm": 6.25, |
| "learning_rate": 1.1826980398565486e-06, |
| "loss": 1.4769387245178223, |
| "step": 2602 |
| }, |
| { |
| "epoch": 1.736, |
| "grad_norm": 12.625, |
| "learning_rate": 1.1808991264681435e-06, |
| "loss": 1.9360644817352295, |
| "step": 2604 |
| }, |
| { |
| "epoch": 1.7373333333333334, |
| "grad_norm": 1.59375, |
| "learning_rate": 1.1791086937538032e-06, |
| "loss": 1.1510602235794067, |
| "step": 2606 |
| }, |
| { |
| "epoch": 1.7386666666666666, |
| "grad_norm": 4.875, |
| "learning_rate": 1.1773267500605506e-06, |
| "loss": 1.640676736831665, |
| "step": 2608 |
| }, |
| { |
| "epoch": 1.74, |
| "grad_norm": 5.4375, |
| "learning_rate": 1.1755533036958324e-06, |
| "loss": 1.586723804473877, |
| "step": 2610 |
| }, |
| { |
| "epoch": 1.7413333333333334, |
| "grad_norm": 2.1875, |
| "learning_rate": 1.173788362927481e-06, |
| "loss": 1.03817617893219, |
| "step": 2612 |
| }, |
| { |
| "epoch": 1.7426666666666666, |
| "grad_norm": 15.875, |
| "learning_rate": 1.1720319359836747e-06, |
| "loss": 1.5527381896972656, |
| "step": 2614 |
| }, |
| { |
| "epoch": 1.744, |
| "grad_norm": 7.375, |
| "learning_rate": 1.1702840310529013e-06, |
| "loss": 1.6147454977035522, |
| "step": 2616 |
| }, |
| { |
| "epoch": 1.7453333333333334, |
| "grad_norm": 8.0, |
| "learning_rate": 1.168544656283918e-06, |
| "loss": 1.6725919246673584, |
| "step": 2618 |
| }, |
| { |
| "epoch": 1.7466666666666666, |
| "grad_norm": 7.53125, |
| "learning_rate": 1.1668138197857148e-06, |
| "loss": 1.081732988357544, |
| "step": 2620 |
| }, |
| { |
| "epoch": 1.748, |
| "grad_norm": 4.5625, |
| "learning_rate": 1.1650915296274762e-06, |
| "loss": 1.1363911628723145, |
| "step": 2622 |
| }, |
| { |
| "epoch": 1.7493333333333334, |
| "grad_norm": 4.875, |
| "learning_rate": 1.1633777938385429e-06, |
| "loss": 1.5501255989074707, |
| "step": 2624 |
| }, |
| { |
| "epoch": 1.7506666666666666, |
| "grad_norm": 2.484375, |
| "learning_rate": 1.161672620408376e-06, |
| "loss": 1.2060632705688477, |
| "step": 2626 |
| }, |
| { |
| "epoch": 1.752, |
| "grad_norm": 5.0625, |
| "learning_rate": 1.1599760172865176e-06, |
| "loss": 1.5151984691619873, |
| "step": 2628 |
| }, |
| { |
| "epoch": 1.7533333333333334, |
| "grad_norm": 2.765625, |
| "learning_rate": 1.1582879923825561e-06, |
| "loss": 1.1503922939300537, |
| "step": 2630 |
| }, |
| { |
| "epoch": 1.7546666666666666, |
| "grad_norm": 7.21875, |
| "learning_rate": 1.1566085535660872e-06, |
| "loss": 1.9271504878997803, |
| "step": 2632 |
| }, |
| { |
| "epoch": 1.756, |
| "grad_norm": 2.25, |
| "learning_rate": 1.154937708666678e-06, |
| "loss": 1.130241870880127, |
| "step": 2634 |
| }, |
| { |
| "epoch": 1.7573333333333334, |
| "grad_norm": 5.0625, |
| "learning_rate": 1.153275465473832e-06, |
| "loss": 1.7080326080322266, |
| "step": 2636 |
| }, |
| { |
| "epoch": 1.7586666666666666, |
| "grad_norm": 4.5, |
| "learning_rate": 1.1516218317369506e-06, |
| "loss": 1.5953943729400635, |
| "step": 2638 |
| }, |
| { |
| "epoch": 1.76, |
| "grad_norm": 7.1875, |
| "learning_rate": 1.149976815165297e-06, |
| "loss": 1.6334452629089355, |
| "step": 2640 |
| }, |
| { |
| "epoch": 1.7613333333333334, |
| "grad_norm": 4.6875, |
| "learning_rate": 1.1483404234279622e-06, |
| "loss": 1.616743564605713, |
| "step": 2642 |
| }, |
| { |
| "epoch": 1.7626666666666666, |
| "grad_norm": 2.6875, |
| "learning_rate": 1.1467126641538273e-06, |
| "loss": 1.1109144687652588, |
| "step": 2644 |
| }, |
| { |
| "epoch": 1.764, |
| "grad_norm": 15.6875, |
| "learning_rate": 1.1450935449315295e-06, |
| "loss": 2.251559019088745, |
| "step": 2646 |
| }, |
| { |
| "epoch": 1.7653333333333334, |
| "grad_norm": 11.25, |
| "learning_rate": 1.1434830733094256e-06, |
| "loss": 1.9472830295562744, |
| "step": 2648 |
| }, |
| { |
| "epoch": 1.7666666666666666, |
| "grad_norm": 1.625, |
| "learning_rate": 1.1418812567955569e-06, |
| "loss": 1.1540098190307617, |
| "step": 2650 |
| }, |
| { |
| "epoch": 1.768, |
| "grad_norm": 11.125, |
| "learning_rate": 1.1402881028576147e-06, |
| "loss": 2.0404562950134277, |
| "step": 2652 |
| }, |
| { |
| "epoch": 1.7693333333333334, |
| "grad_norm": 7.5625, |
| "learning_rate": 1.1387036189229055e-06, |
| "loss": 1.558046579360962, |
| "step": 2654 |
| }, |
| { |
| "epoch": 1.7706666666666666, |
| "grad_norm": 8.5625, |
| "learning_rate": 1.1371278123783156e-06, |
| "loss": 1.9174463748931885, |
| "step": 2656 |
| }, |
| { |
| "epoch": 1.772, |
| "grad_norm": 11.1875, |
| "learning_rate": 1.1355606905702775e-06, |
| "loss": 1.5161430835723877, |
| "step": 2658 |
| }, |
| { |
| "epoch": 1.7733333333333334, |
| "grad_norm": 6.625, |
| "learning_rate": 1.1340022608047357e-06, |
| "loss": 1.64548659324646, |
| "step": 2660 |
| }, |
| { |
| "epoch": 1.7746666666666666, |
| "grad_norm": 7.0, |
| "learning_rate": 1.1324525303471113e-06, |
| "loss": 1.71232271194458, |
| "step": 2662 |
| }, |
| { |
| "epoch": 1.776, |
| "grad_norm": 10.625, |
| "learning_rate": 1.1309115064222697e-06, |
| "loss": 1.7835891246795654, |
| "step": 2664 |
| }, |
| { |
| "epoch": 1.7773333333333334, |
| "grad_norm": 7.8125, |
| "learning_rate": 1.1293791962144868e-06, |
| "loss": 2.010854721069336, |
| "step": 2666 |
| }, |
| { |
| "epoch": 1.7786666666666666, |
| "grad_norm": 6.375, |
| "learning_rate": 1.127855606867414e-06, |
| "loss": 1.7522506713867188, |
| "step": 2668 |
| }, |
| { |
| "epoch": 1.78, |
| "grad_norm": 1.7734375, |
| "learning_rate": 1.1263407454840465e-06, |
| "loss": 1.1171356439590454, |
| "step": 2670 |
| }, |
| { |
| "epoch": 1.7813333333333334, |
| "grad_norm": 3.765625, |
| "learning_rate": 1.12483461912669e-06, |
| "loss": 1.498163104057312, |
| "step": 2672 |
| }, |
| { |
| "epoch": 1.7826666666666666, |
| "grad_norm": 2.046875, |
| "learning_rate": 1.123337234816926e-06, |
| "loss": 1.2884820699691772, |
| "step": 2674 |
| }, |
| { |
| "epoch": 1.784, |
| "grad_norm": 6.59375, |
| "learning_rate": 1.1218485995355823e-06, |
| "loss": 1.5873327255249023, |
| "step": 2676 |
| }, |
| { |
| "epoch": 1.7853333333333334, |
| "grad_norm": 10.625, |
| "learning_rate": 1.1203687202226976e-06, |
| "loss": 1.5103931427001953, |
| "step": 2678 |
| }, |
| { |
| "epoch": 1.7866666666666666, |
| "grad_norm": 4.71875, |
| "learning_rate": 1.1188976037774897e-06, |
| "loss": 1.0384002923965454, |
| "step": 2680 |
| }, |
| { |
| "epoch": 1.788, |
| "grad_norm": 4.9375, |
| "learning_rate": 1.117435257058325e-06, |
| "loss": 1.5868349075317383, |
| "step": 2682 |
| }, |
| { |
| "epoch": 1.7893333333333334, |
| "grad_norm": 5.09375, |
| "learning_rate": 1.1159816868826838e-06, |
| "loss": 1.6466984748840332, |
| "step": 2684 |
| }, |
| { |
| "epoch": 1.7906666666666666, |
| "grad_norm": 10.25, |
| "learning_rate": 1.1145369000271316e-06, |
| "loss": 2.061450719833374, |
| "step": 2686 |
| }, |
| { |
| "epoch": 1.792, |
| "grad_norm": 24.75, |
| "learning_rate": 1.113100903227285e-06, |
| "loss": 1.8428632020950317, |
| "step": 2688 |
| }, |
| { |
| "epoch": 1.7933333333333334, |
| "grad_norm": 3.4375, |
| "learning_rate": 1.1116737031777813e-06, |
| "loss": 1.237999439239502, |
| "step": 2690 |
| }, |
| { |
| "epoch": 1.7946666666666666, |
| "grad_norm": 12.875, |
| "learning_rate": 1.1102553065322478e-06, |
| "loss": 1.7113702297210693, |
| "step": 2692 |
| }, |
| { |
| "epoch": 1.796, |
| "grad_norm": 5.09375, |
| "learning_rate": 1.108845719903269e-06, |
| "loss": 1.8466413021087646, |
| "step": 2694 |
| }, |
| { |
| "epoch": 1.7973333333333334, |
| "grad_norm": 9.875, |
| "learning_rate": 1.1074449498623586e-06, |
| "loss": 1.71107816696167, |
| "step": 2696 |
| }, |
| { |
| "epoch": 1.7986666666666666, |
| "grad_norm": 8.4375, |
| "learning_rate": 1.1060530029399259e-06, |
| "loss": 1.8808412551879883, |
| "step": 2698 |
| }, |
| { |
| "epoch": 1.8, |
| "grad_norm": 2.90625, |
| "learning_rate": 1.1046698856252468e-06, |
| "loss": 1.0465705394744873, |
| "step": 2700 |
| }, |
| { |
| "epoch": 1.8013333333333335, |
| "grad_norm": 2.65625, |
| "learning_rate": 1.1032956043664347e-06, |
| "loss": 1.0618107318878174, |
| "step": 2702 |
| }, |
| { |
| "epoch": 1.8026666666666666, |
| "grad_norm": 8.0625, |
| "learning_rate": 1.101930165570408e-06, |
| "loss": 1.6237022876739502, |
| "step": 2704 |
| }, |
| { |
| "epoch": 1.804, |
| "grad_norm": 7.59375, |
| "learning_rate": 1.1005735756028614e-06, |
| "loss": 1.8877501487731934, |
| "step": 2706 |
| }, |
| { |
| "epoch": 1.8053333333333335, |
| "grad_norm": 8.1875, |
| "learning_rate": 1.099225840788237e-06, |
| "loss": 1.4899542331695557, |
| "step": 2708 |
| }, |
| { |
| "epoch": 1.8066666666666666, |
| "grad_norm": 3.609375, |
| "learning_rate": 1.097886967409693e-06, |
| "loss": 1.4635686874389648, |
| "step": 2710 |
| }, |
| { |
| "epoch": 1.808, |
| "grad_norm": 35.25, |
| "learning_rate": 1.0965569617090768e-06, |
| "loss": 1.7736328840255737, |
| "step": 2712 |
| }, |
| { |
| "epoch": 1.8093333333333335, |
| "grad_norm": 4.09375, |
| "learning_rate": 1.0952358298868936e-06, |
| "loss": 1.506758451461792, |
| "step": 2714 |
| }, |
| { |
| "epoch": 1.8106666666666666, |
| "grad_norm": 4.8125, |
| "learning_rate": 1.0939235781022784e-06, |
| "loss": 1.5824058055877686, |
| "step": 2716 |
| }, |
| { |
| "epoch": 1.812, |
| "grad_norm": 4.59375, |
| "learning_rate": 1.092620212472968e-06, |
| "loss": 1.6231698989868164, |
| "step": 2718 |
| }, |
| { |
| "epoch": 1.8133333333333335, |
| "grad_norm": 6.375, |
| "learning_rate": 1.0913257390752713e-06, |
| "loss": 1.5913381576538086, |
| "step": 2720 |
| }, |
| { |
| "epoch": 1.8146666666666667, |
| "grad_norm": 9.75, |
| "learning_rate": 1.0900401639440416e-06, |
| "loss": 1.8220431804656982, |
| "step": 2722 |
| }, |
| { |
| "epoch": 1.8159999999999998, |
| "grad_norm": 16.625, |
| "learning_rate": 1.0887634930726484e-06, |
| "loss": 1.6188863515853882, |
| "step": 2724 |
| }, |
| { |
| "epoch": 1.8173333333333335, |
| "grad_norm": 4.4375, |
| "learning_rate": 1.087495732412949e-06, |
| "loss": 1.551790714263916, |
| "step": 2726 |
| }, |
| { |
| "epoch": 1.8186666666666667, |
| "grad_norm": 5.21875, |
| "learning_rate": 1.0862368878752624e-06, |
| "loss": 1.6060757637023926, |
| "step": 2728 |
| }, |
| { |
| "epoch": 1.8199999999999998, |
| "grad_norm": 6.9375, |
| "learning_rate": 1.0849869653283392e-06, |
| "loss": 1.3745307922363281, |
| "step": 2730 |
| }, |
| { |
| "epoch": 1.8213333333333335, |
| "grad_norm": 5.5625, |
| "learning_rate": 1.0837459705993362e-06, |
| "loss": 1.1677099466323853, |
| "step": 2732 |
| }, |
| { |
| "epoch": 1.8226666666666667, |
| "grad_norm": 3.8125, |
| "learning_rate": 1.0825139094737883e-06, |
| "loss": 1.1494688987731934, |
| "step": 2734 |
| }, |
| { |
| "epoch": 1.8239999999999998, |
| "grad_norm": 1.7890625, |
| "learning_rate": 1.081290787695582e-06, |
| "loss": 1.2367225885391235, |
| "step": 2736 |
| }, |
| { |
| "epoch": 1.8253333333333335, |
| "grad_norm": 6.5, |
| "learning_rate": 1.080076610966928e-06, |
| "loss": 1.8836338520050049, |
| "step": 2738 |
| }, |
| { |
| "epoch": 1.8266666666666667, |
| "grad_norm": 7.53125, |
| "learning_rate": 1.0788713849483363e-06, |
| "loss": 2.0381829738616943, |
| "step": 2740 |
| }, |
| { |
| "epoch": 1.8279999999999998, |
| "grad_norm": 5.9375, |
| "learning_rate": 1.0776751152585866e-06, |
| "loss": 1.1025861501693726, |
| "step": 2742 |
| }, |
| { |
| "epoch": 1.8293333333333335, |
| "grad_norm": 4.71875, |
| "learning_rate": 1.076487807474706e-06, |
| "loss": 1.677769422531128, |
| "step": 2744 |
| }, |
| { |
| "epoch": 1.8306666666666667, |
| "grad_norm": 15.375, |
| "learning_rate": 1.0753094671319398e-06, |
| "loss": 1.6080399751663208, |
| "step": 2746 |
| }, |
| { |
| "epoch": 1.8319999999999999, |
| "grad_norm": 6.46875, |
| "learning_rate": 1.0741400997237275e-06, |
| "loss": 1.648935317993164, |
| "step": 2748 |
| }, |
| { |
| "epoch": 1.8333333333333335, |
| "grad_norm": 7.9375, |
| "learning_rate": 1.0729797107016766e-06, |
| "loss": 1.6360926628112793, |
| "step": 2750 |
| }, |
| { |
| "epoch": 1.8346666666666667, |
| "grad_norm": 6.8125, |
| "learning_rate": 1.0718283054755373e-06, |
| "loss": 1.93143630027771, |
| "step": 2752 |
| }, |
| { |
| "epoch": 1.8359999999999999, |
| "grad_norm": 11.3125, |
| "learning_rate": 1.0706858894131767e-06, |
| "loss": 1.8639891147613525, |
| "step": 2754 |
| }, |
| { |
| "epoch": 1.8373333333333335, |
| "grad_norm": 4.15625, |
| "learning_rate": 1.069552467840555e-06, |
| "loss": 1.6008312702178955, |
| "step": 2756 |
| }, |
| { |
| "epoch": 1.8386666666666667, |
| "grad_norm": 4.34375, |
| "learning_rate": 1.0684280460416991e-06, |
| "loss": 1.6185994148254395, |
| "step": 2758 |
| }, |
| { |
| "epoch": 1.8399999999999999, |
| "grad_norm": 5.65625, |
| "learning_rate": 1.0673126292586806e-06, |
| "loss": 2.011725902557373, |
| "step": 2760 |
| }, |
| { |
| "epoch": 1.8413333333333335, |
| "grad_norm": 4.15625, |
| "learning_rate": 1.066206222691587e-06, |
| "loss": 1.4604053497314453, |
| "step": 2762 |
| }, |
| { |
| "epoch": 1.8426666666666667, |
| "grad_norm": 5.40625, |
| "learning_rate": 1.065108831498502e-06, |
| "loss": 1.4645023345947266, |
| "step": 2764 |
| }, |
| { |
| "epoch": 1.8439999999999999, |
| "grad_norm": 3.625, |
| "learning_rate": 1.0640204607954785e-06, |
| "loss": 1.495434045791626, |
| "step": 2766 |
| }, |
| { |
| "epoch": 1.8453333333333335, |
| "grad_norm": 5.40625, |
| "learning_rate": 1.062941115656517e-06, |
| "loss": 1.0852596759796143, |
| "step": 2768 |
| }, |
| { |
| "epoch": 1.8466666666666667, |
| "grad_norm": 2.703125, |
| "learning_rate": 1.0618708011135393e-06, |
| "loss": 1.0549116134643555, |
| "step": 2770 |
| }, |
| { |
| "epoch": 1.8479999999999999, |
| "grad_norm": 3.515625, |
| "learning_rate": 1.060809522156367e-06, |
| "loss": 1.0271042585372925, |
| "step": 2772 |
| }, |
| { |
| "epoch": 1.8493333333333335, |
| "grad_norm": 5.9375, |
| "learning_rate": 1.0597572837326978e-06, |
| "loss": 1.6348028182983398, |
| "step": 2774 |
| }, |
| { |
| "epoch": 1.8506666666666667, |
| "grad_norm": 4.3125, |
| "learning_rate": 1.058714090748082e-06, |
| "loss": 1.5930371284484863, |
| "step": 2776 |
| }, |
| { |
| "epoch": 1.8519999999999999, |
| "grad_norm": 5.5625, |
| "learning_rate": 1.0576799480658997e-06, |
| "loss": 1.5753302574157715, |
| "step": 2778 |
| }, |
| { |
| "epoch": 1.8533333333333335, |
| "grad_norm": 5.5625, |
| "learning_rate": 1.0566548605073396e-06, |
| "loss": 1.590511679649353, |
| "step": 2780 |
| }, |
| { |
| "epoch": 1.8546666666666667, |
| "grad_norm": 12.5, |
| "learning_rate": 1.055638832851374e-06, |
| "loss": 0.809339165687561, |
| "step": 2782 |
| }, |
| { |
| "epoch": 1.8559999999999999, |
| "grad_norm": 5.0, |
| "learning_rate": 1.054631869834738e-06, |
| "loss": 1.6788489818572998, |
| "step": 2784 |
| }, |
| { |
| "epoch": 1.8573333333333333, |
| "grad_norm": 2.03125, |
| "learning_rate": 1.0536339761519077e-06, |
| "loss": 1.0987229347229004, |
| "step": 2786 |
| }, |
| { |
| "epoch": 1.8586666666666667, |
| "grad_norm": 6.625, |
| "learning_rate": 1.0526451564550778e-06, |
| "loss": 1.648554801940918, |
| "step": 2788 |
| }, |
| { |
| "epoch": 1.8599999999999999, |
| "grad_norm": 1.46875, |
| "learning_rate": 1.0516654153541392e-06, |
| "loss": 1.1031792163848877, |
| "step": 2790 |
| }, |
| { |
| "epoch": 1.8613333333333333, |
| "grad_norm": 6.34375, |
| "learning_rate": 1.0506947574166596e-06, |
| "loss": 1.8444862365722656, |
| "step": 2792 |
| }, |
| { |
| "epoch": 1.8626666666666667, |
| "grad_norm": 9.875, |
| "learning_rate": 1.0497331871678592e-06, |
| "loss": 1.3348501920700073, |
| "step": 2794 |
| }, |
| { |
| "epoch": 1.8639999999999999, |
| "grad_norm": 6.46875, |
| "learning_rate": 1.0487807090905927e-06, |
| "loss": 1.156570315361023, |
| "step": 2796 |
| }, |
| { |
| "epoch": 1.8653333333333333, |
| "grad_norm": 2.625, |
| "learning_rate": 1.0478373276253262e-06, |
| "loss": 1.2651017904281616, |
| "step": 2798 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 3.421875, |
| "learning_rate": 1.0469030471701177e-06, |
| "loss": 1.0961531400680542, |
| "step": 2800 |
| }, |
| { |
| "epoch": 1.8679999999999999, |
| "grad_norm": 2.75, |
| "learning_rate": 1.0459778720805956e-06, |
| "loss": 1.1647145748138428, |
| "step": 2802 |
| }, |
| { |
| "epoch": 1.8693333333333333, |
| "grad_norm": 9.0625, |
| "learning_rate": 1.0450618066699392e-06, |
| "loss": 2.051912784576416, |
| "step": 2804 |
| }, |
| { |
| "epoch": 1.8706666666666667, |
| "grad_norm": 5.25, |
| "learning_rate": 1.044154855208859e-06, |
| "loss": 1.5181958675384521, |
| "step": 2806 |
| }, |
| { |
| "epoch": 1.8719999999999999, |
| "grad_norm": 6.1875, |
| "learning_rate": 1.043257021925575e-06, |
| "loss": 1.5700154304504395, |
| "step": 2808 |
| }, |
| { |
| "epoch": 1.8733333333333333, |
| "grad_norm": 8.0625, |
| "learning_rate": 1.042368311005799e-06, |
| "loss": 1.986337423324585, |
| "step": 2810 |
| }, |
| { |
| "epoch": 1.8746666666666667, |
| "grad_norm": 10.8125, |
| "learning_rate": 1.041488726592714e-06, |
| "loss": 1.1347825527191162, |
| "step": 2812 |
| }, |
| { |
| "epoch": 1.876, |
| "grad_norm": 7.90625, |
| "learning_rate": 1.0406182727869546e-06, |
| "loss": 1.611783504486084, |
| "step": 2814 |
| }, |
| { |
| "epoch": 1.8773333333333333, |
| "grad_norm": 8.9375, |
| "learning_rate": 1.039756953646589e-06, |
| "loss": 1.8373312950134277, |
| "step": 2816 |
| }, |
| { |
| "epoch": 1.8786666666666667, |
| "grad_norm": 14.9375, |
| "learning_rate": 1.0389047731870992e-06, |
| "loss": 1.55556058883667, |
| "step": 2818 |
| }, |
| { |
| "epoch": 1.88, |
| "grad_norm": 3.84375, |
| "learning_rate": 1.0380617353813627e-06, |
| "loss": 1.0587745904922485, |
| "step": 2820 |
| }, |
| { |
| "epoch": 1.8813333333333333, |
| "grad_norm": 2.671875, |
| "learning_rate": 1.0372278441596337e-06, |
| "loss": 1.1342324018478394, |
| "step": 2822 |
| }, |
| { |
| "epoch": 1.8826666666666667, |
| "grad_norm": 4.96875, |
| "learning_rate": 1.036403103409525e-06, |
| "loss": 1.688795804977417, |
| "step": 2824 |
| }, |
| { |
| "epoch": 1.884, |
| "grad_norm": 2.25, |
| "learning_rate": 1.0355875169759896e-06, |
| "loss": 1.1600544452667236, |
| "step": 2826 |
| }, |
| { |
| "epoch": 1.8853333333333333, |
| "grad_norm": 111.5, |
| "learning_rate": 1.0347810886613026e-06, |
| "loss": 1.9772312641143799, |
| "step": 2828 |
| }, |
| { |
| "epoch": 1.8866666666666667, |
| "grad_norm": 5.0, |
| "learning_rate": 1.033983822225045e-06, |
| "loss": 1.5392059087753296, |
| "step": 2830 |
| }, |
| { |
| "epoch": 1.888, |
| "grad_norm": 5.46875, |
| "learning_rate": 1.0331957213840832e-06, |
| "loss": 1.646643877029419, |
| "step": 2832 |
| }, |
| { |
| "epoch": 1.8893333333333333, |
| "grad_norm": 2.34375, |
| "learning_rate": 1.0324167898125558e-06, |
| "loss": 0.9575203657150269, |
| "step": 2834 |
| }, |
| { |
| "epoch": 1.8906666666666667, |
| "grad_norm": 9.9375, |
| "learning_rate": 1.0316470311418516e-06, |
| "loss": 1.3466911315917969, |
| "step": 2836 |
| }, |
| { |
| "epoch": 1.892, |
| "grad_norm": 5.6875, |
| "learning_rate": 1.0308864489605973e-06, |
| "loss": 1.5627878904342651, |
| "step": 2838 |
| }, |
| { |
| "epoch": 1.8933333333333333, |
| "grad_norm": 5.875, |
| "learning_rate": 1.0301350468146375e-06, |
| "loss": 1.72072434425354, |
| "step": 2840 |
| }, |
| { |
| "epoch": 1.8946666666666667, |
| "grad_norm": 7.8125, |
| "learning_rate": 1.0293928282070194e-06, |
| "loss": 1.5522115230560303, |
| "step": 2842 |
| }, |
| { |
| "epoch": 1.896, |
| "grad_norm": 1.9921875, |
| "learning_rate": 1.0286597965979772e-06, |
| "loss": 1.1265590190887451, |
| "step": 2844 |
| }, |
| { |
| "epoch": 1.8973333333333333, |
| "grad_norm": 5.625, |
| "learning_rate": 1.027935955404914e-06, |
| "loss": 1.7390642166137695, |
| "step": 2846 |
| }, |
| { |
| "epoch": 1.8986666666666667, |
| "grad_norm": 1.8984375, |
| "learning_rate": 1.027221308002388e-06, |
| "loss": 1.1018836498260498, |
| "step": 2848 |
| }, |
| { |
| "epoch": 1.9, |
| "grad_norm": 11.625, |
| "learning_rate": 1.026515857722096e-06, |
| "loss": 1.848306655883789, |
| "step": 2850 |
| }, |
| { |
| "epoch": 1.9013333333333333, |
| "grad_norm": 3.953125, |
| "learning_rate": 1.0258196078528566e-06, |
| "loss": 1.251272201538086, |
| "step": 2852 |
| }, |
| { |
| "epoch": 1.9026666666666667, |
| "grad_norm": 5.71875, |
| "learning_rate": 1.025132561640597e-06, |
| "loss": 1.4891345500946045, |
| "step": 2854 |
| }, |
| { |
| "epoch": 1.904, |
| "grad_norm": 6.53125, |
| "learning_rate": 1.024454722288336e-06, |
| "loss": 1.540061354637146, |
| "step": 2856 |
| }, |
| { |
| "epoch": 1.9053333333333333, |
| "grad_norm": 5.71875, |
| "learning_rate": 1.0237860929561704e-06, |
| "loss": 1.8440475463867188, |
| "step": 2858 |
| }, |
| { |
| "epoch": 1.9066666666666667, |
| "grad_norm": 2.625, |
| "learning_rate": 1.0231266767612594e-06, |
| "loss": 1.0713839530944824, |
| "step": 2860 |
| }, |
| { |
| "epoch": 1.908, |
| "grad_norm": 3.65625, |
| "learning_rate": 1.0224764767778113e-06, |
| "loss": 1.6007473468780518, |
| "step": 2862 |
| }, |
| { |
| "epoch": 1.9093333333333333, |
| "grad_norm": 1.7265625, |
| "learning_rate": 1.021835496037067e-06, |
| "loss": 1.0999369621276855, |
| "step": 2864 |
| }, |
| { |
| "epoch": 1.9106666666666667, |
| "grad_norm": 3.3125, |
| "learning_rate": 1.0212037375272881e-06, |
| "loss": 1.103971242904663, |
| "step": 2866 |
| }, |
| { |
| "epoch": 1.912, |
| "grad_norm": 5.4375, |
| "learning_rate": 1.0205812041937417e-06, |
| "loss": 1.1634551286697388, |
| "step": 2868 |
| }, |
| { |
| "epoch": 1.9133333333333333, |
| "grad_norm": 6.71875, |
| "learning_rate": 1.019967898938687e-06, |
| "loss": 1.581654667854309, |
| "step": 2870 |
| }, |
| { |
| "epoch": 1.9146666666666667, |
| "grad_norm": 9.8125, |
| "learning_rate": 1.0193638246213618e-06, |
| "loss": 1.8337488174438477, |
| "step": 2872 |
| }, |
| { |
| "epoch": 1.916, |
| "grad_norm": 8.375, |
| "learning_rate": 1.018768984057969e-06, |
| "loss": 1.8890583515167236, |
| "step": 2874 |
| }, |
| { |
| "epoch": 1.9173333333333333, |
| "grad_norm": 5.21875, |
| "learning_rate": 1.018183380021664e-06, |
| "loss": 1.5187124013900757, |
| "step": 2876 |
| }, |
| { |
| "epoch": 1.9186666666666667, |
| "grad_norm": 4.6875, |
| "learning_rate": 1.0176070152425413e-06, |
| "loss": 1.6645336151123047, |
| "step": 2878 |
| }, |
| { |
| "epoch": 1.92, |
| "grad_norm": 8.75, |
| "learning_rate": 1.017039892407621e-06, |
| "loss": 1.8335323333740234, |
| "step": 2880 |
| }, |
| { |
| "epoch": 1.9213333333333333, |
| "grad_norm": 7.21875, |
| "learning_rate": 1.0164820141608383e-06, |
| "loss": 1.634657621383667, |
| "step": 2882 |
| }, |
| { |
| "epoch": 1.9226666666666667, |
| "grad_norm": 27.5, |
| "learning_rate": 1.0159333831030292e-06, |
| "loss": 1.8966856002807617, |
| "step": 2884 |
| }, |
| { |
| "epoch": 1.924, |
| "grad_norm": 2.390625, |
| "learning_rate": 1.0153940017919197e-06, |
| "loss": 1.0390410423278809, |
| "step": 2886 |
| }, |
| { |
| "epoch": 1.9253333333333333, |
| "grad_norm": 9.875, |
| "learning_rate": 1.014863872742113e-06, |
| "loss": 2.089475154876709, |
| "step": 2888 |
| }, |
| { |
| "epoch": 1.9266666666666667, |
| "grad_norm": 12.4375, |
| "learning_rate": 1.0143429984250785e-06, |
| "loss": 1.8373076915740967, |
| "step": 2890 |
| }, |
| { |
| "epoch": 1.928, |
| "grad_norm": 9.375, |
| "learning_rate": 1.0138313812691392e-06, |
| "loss": 1.692418098449707, |
| "step": 2892 |
| }, |
| { |
| "epoch": 1.9293333333333333, |
| "grad_norm": 6.28125, |
| "learning_rate": 1.013329023659462e-06, |
| "loss": 1.9604231119155884, |
| "step": 2894 |
| }, |
| { |
| "epoch": 1.9306666666666668, |
| "grad_norm": 5.125, |
| "learning_rate": 1.012835927938045e-06, |
| "loss": 1.1355175971984863, |
| "step": 2896 |
| }, |
| { |
| "epoch": 1.932, |
| "grad_norm": 8.3125, |
| "learning_rate": 1.012352096403707e-06, |
| "loss": 1.9712469577789307, |
| "step": 2898 |
| }, |
| { |
| "epoch": 1.9333333333333333, |
| "grad_norm": 5.84375, |
| "learning_rate": 1.0118775313120784e-06, |
| "loss": 1.6969237327575684, |
| "step": 2900 |
| }, |
| { |
| "epoch": 1.9346666666666668, |
| "grad_norm": 4.84375, |
| "learning_rate": 1.0114122348755876e-06, |
| "loss": 0.9692869186401367, |
| "step": 2902 |
| }, |
| { |
| "epoch": 1.936, |
| "grad_norm": 6.0625, |
| "learning_rate": 1.0109562092634535e-06, |
| "loss": 1.644775629043579, |
| "step": 2904 |
| }, |
| { |
| "epoch": 1.9373333333333334, |
| "grad_norm": 4.46875, |
| "learning_rate": 1.010509456601674e-06, |
| "loss": 1.5736973285675049, |
| "step": 2906 |
| }, |
| { |
| "epoch": 1.9386666666666668, |
| "grad_norm": 2.4375, |
| "learning_rate": 1.0100719789730163e-06, |
| "loss": 1.3084485530853271, |
| "step": 2908 |
| }, |
| { |
| "epoch": 1.94, |
| "grad_norm": 17.25, |
| "learning_rate": 1.009643778417007e-06, |
| "loss": 2.2242865562438965, |
| "step": 2910 |
| }, |
| { |
| "epoch": 1.9413333333333334, |
| "grad_norm": 5.0, |
| "learning_rate": 1.0092248569299238e-06, |
| "loss": 1.4924943447113037, |
| "step": 2912 |
| }, |
| { |
| "epoch": 1.9426666666666668, |
| "grad_norm": 2.96875, |
| "learning_rate": 1.0088152164647842e-06, |
| "loss": 1.2267329692840576, |
| "step": 2914 |
| }, |
| { |
| "epoch": 1.944, |
| "grad_norm": 13.875, |
| "learning_rate": 1.008414858931338e-06, |
| "loss": 1.8327943086624146, |
| "step": 2916 |
| }, |
| { |
| "epoch": 1.9453333333333334, |
| "grad_norm": 2.890625, |
| "learning_rate": 1.0080237861960574e-06, |
| "loss": 1.055860996246338, |
| "step": 2918 |
| }, |
| { |
| "epoch": 1.9466666666666668, |
| "grad_norm": 8.25, |
| "learning_rate": 1.0076420000821292e-06, |
| "loss": 1.1839380264282227, |
| "step": 2920 |
| }, |
| { |
| "epoch": 1.948, |
| "grad_norm": 5.0, |
| "learning_rate": 1.0072695023694461e-06, |
| "loss": 1.640027403831482, |
| "step": 2922 |
| }, |
| { |
| "epoch": 1.9493333333333334, |
| "grad_norm": 2.5625, |
| "learning_rate": 1.0069062947945972e-06, |
| "loss": 1.1517518758773804, |
| "step": 2924 |
| }, |
| { |
| "epoch": 1.9506666666666668, |
| "grad_norm": 8.1875, |
| "learning_rate": 1.0065523790508613e-06, |
| "loss": 1.9767742156982422, |
| "step": 2926 |
| }, |
| { |
| "epoch": 1.952, |
| "grad_norm": 4.03125, |
| "learning_rate": 1.0062077567881989e-06, |
| "loss": 1.4458882808685303, |
| "step": 2928 |
| }, |
| { |
| "epoch": 1.9533333333333334, |
| "grad_norm": 7.96875, |
| "learning_rate": 1.005872429613244e-06, |
| "loss": 1.592308759689331, |
| "step": 2930 |
| }, |
| { |
| "epoch": 1.9546666666666668, |
| "grad_norm": 7.375, |
| "learning_rate": 1.0055463990892966e-06, |
| "loss": 1.8392659425735474, |
| "step": 2932 |
| }, |
| { |
| "epoch": 1.956, |
| "grad_norm": 3.96875, |
| "learning_rate": 1.005229666736315e-06, |
| "loss": 1.507871389389038, |
| "step": 2934 |
| }, |
| { |
| "epoch": 1.9573333333333334, |
| "grad_norm": 2.453125, |
| "learning_rate": 1.0049222340309106e-06, |
| "loss": 1.244297742843628, |
| "step": 2936 |
| }, |
| { |
| "epoch": 1.9586666666666668, |
| "grad_norm": 7.6875, |
| "learning_rate": 1.004624102406339e-06, |
| "loss": 1.6086117029190063, |
| "step": 2938 |
| }, |
| { |
| "epoch": 1.96, |
| "grad_norm": 7.15625, |
| "learning_rate": 1.0043352732524935e-06, |
| "loss": 1.6359131336212158, |
| "step": 2940 |
| }, |
| { |
| "epoch": 1.9613333333333334, |
| "grad_norm": 1.875, |
| "learning_rate": 1.0040557479159003e-06, |
| "loss": 1.2712523937225342, |
| "step": 2942 |
| }, |
| { |
| "epoch": 1.9626666666666668, |
| "grad_norm": 24.875, |
| "learning_rate": 1.0037855276997106e-06, |
| "loss": 0.6201294660568237, |
| "step": 2944 |
| }, |
| { |
| "epoch": 1.964, |
| "grad_norm": 3.015625, |
| "learning_rate": 1.0035246138636941e-06, |
| "loss": 1.2836215496063232, |
| "step": 2946 |
| }, |
| { |
| "epoch": 1.9653333333333334, |
| "grad_norm": 5.1875, |
| "learning_rate": 1.0032730076242353e-06, |
| "loss": 1.6064057350158691, |
| "step": 2948 |
| }, |
| { |
| "epoch": 1.9666666666666668, |
| "grad_norm": 2.984375, |
| "learning_rate": 1.0030307101543262e-06, |
| "loss": 1.145121455192566, |
| "step": 2950 |
| }, |
| { |
| "epoch": 1.968, |
| "grad_norm": 2.296875, |
| "learning_rate": 1.0027977225835608e-06, |
| "loss": 1.3030688762664795, |
| "step": 2952 |
| }, |
| { |
| "epoch": 1.9693333333333334, |
| "grad_norm": 3.328125, |
| "learning_rate": 1.0025740459981304e-06, |
| "loss": 1.0687862634658813, |
| "step": 2954 |
| }, |
| { |
| "epoch": 1.9706666666666668, |
| "grad_norm": 1.640625, |
| "learning_rate": 1.0023596814408187e-06, |
| "loss": 1.2677333354949951, |
| "step": 2956 |
| }, |
| { |
| "epoch": 1.972, |
| "grad_norm": 4.3125, |
| "learning_rate": 1.0021546299109962e-06, |
| "loss": 1.583560585975647, |
| "step": 2958 |
| }, |
| { |
| "epoch": 1.9733333333333334, |
| "grad_norm": 6.25, |
| "learning_rate": 1.0019588923646156e-06, |
| "loss": 1.6230509281158447, |
| "step": 2960 |
| }, |
| { |
| "epoch": 1.9746666666666668, |
| "grad_norm": 6.875, |
| "learning_rate": 1.001772469714209e-06, |
| "loss": 1.819795846939087, |
| "step": 2962 |
| }, |
| { |
| "epoch": 1.976, |
| "grad_norm": 12.1875, |
| "learning_rate": 1.0015953628288804e-06, |
| "loss": 1.8233575820922852, |
| "step": 2964 |
| }, |
| { |
| "epoch": 1.9773333333333334, |
| "grad_norm": 4.09375, |
| "learning_rate": 1.0014275725343055e-06, |
| "loss": 1.4905637502670288, |
| "step": 2966 |
| }, |
| { |
| "epoch": 1.9786666666666668, |
| "grad_norm": 11.875, |
| "learning_rate": 1.0012690996127247e-06, |
| "loss": 2.1141586303710938, |
| "step": 2968 |
| }, |
| { |
| "epoch": 1.98, |
| "grad_norm": 5.375, |
| "learning_rate": 1.0011199448029408e-06, |
| "loss": 1.5464224815368652, |
| "step": 2970 |
| }, |
| { |
| "epoch": 1.9813333333333332, |
| "grad_norm": 9.5625, |
| "learning_rate": 1.0009801088003158e-06, |
| "loss": 1.8328592777252197, |
| "step": 2972 |
| }, |
| { |
| "epoch": 1.9826666666666668, |
| "grad_norm": 3.09375, |
| "learning_rate": 1.0008495922567672e-06, |
| "loss": 0.9700523614883423, |
| "step": 2974 |
| }, |
| { |
| "epoch": 1.984, |
| "grad_norm": 10.6875, |
| "learning_rate": 1.000728395780765e-06, |
| "loss": 2.0305562019348145, |
| "step": 2976 |
| }, |
| { |
| "epoch": 1.9853333333333332, |
| "grad_norm": 8.4375, |
| "learning_rate": 1.0006165199373289e-06, |
| "loss": 1.8336513042449951, |
| "step": 2978 |
| }, |
| { |
| "epoch": 1.9866666666666668, |
| "grad_norm": 21.25, |
| "learning_rate": 1.0005139652480254e-06, |
| "loss": 1.7808666229248047, |
| "step": 2980 |
| }, |
| { |
| "epoch": 1.988, |
| "grad_norm": 6.25, |
| "learning_rate": 1.0004207321909661e-06, |
| "loss": 1.5985544919967651, |
| "step": 2982 |
| }, |
| { |
| "epoch": 1.9893333333333332, |
| "grad_norm": 2.84375, |
| "learning_rate": 1.0003368212008047e-06, |
| "loss": 1.156212568283081, |
| "step": 2984 |
| }, |
| { |
| "epoch": 1.9906666666666668, |
| "grad_norm": 14.375, |
| "learning_rate": 1.0002622326687357e-06, |
| "loss": 1.836974859237671, |
| "step": 2986 |
| }, |
| { |
| "epoch": 1.992, |
| "grad_norm": 11.0, |
| "learning_rate": 1.0001969669424918e-06, |
| "loss": 1.831178903579712, |
| "step": 2988 |
| }, |
| { |
| "epoch": 1.9933333333333332, |
| "grad_norm": 5.59375, |
| "learning_rate": 1.0001410243263429e-06, |
| "loss": 1.6922175884246826, |
| "step": 2990 |
| }, |
| { |
| "epoch": 1.9946666666666668, |
| "grad_norm": 6.3125, |
| "learning_rate": 1.0000944050810938e-06, |
| "loss": 1.612062931060791, |
| "step": 2992 |
| }, |
| { |
| "epoch": 1.996, |
| "grad_norm": 3.03125, |
| "learning_rate": 1.0000571094240841e-06, |
| "loss": 1.1941561698913574, |
| "step": 2994 |
| }, |
| { |
| "epoch": 1.9973333333333332, |
| "grad_norm": 9.625, |
| "learning_rate": 1.0000291375291873e-06, |
| "loss": 1.7619390487670898, |
| "step": 2996 |
| }, |
| { |
| "epoch": 1.9986666666666668, |
| "grad_norm": 4.5625, |
| "learning_rate": 1.0000104895268083e-06, |
| "loss": 1.4703645706176758, |
| "step": 2998 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 2.875, |
| "learning_rate": 1.0000011655038843e-06, |
| "loss": 1.0833406448364258, |
| "step": 3000 |
| }, |
| { |
| "epoch": 2.0, |
| "step": 3000, |
| "total_flos": 2.464576238203699e+18, |
| "train_loss": 1.5581154376665751, |
| "train_runtime": 27376.1224, |
| "train_samples_per_second": 0.877, |
| "train_steps_per_second": 0.11 |
| } |
| ], |
| "logging_steps": 2, |
| "max_steps": 3000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 2, |
| "save_steps": 9999999, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 2.464576238203699e+18, |
| "train_batch_size": 1, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|