| { |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 14.917333333333334, |
| "eval_steps": 500, |
| "global_step": 1395, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 2.017279624938965, |
| "learning_rate": 1.4285714285714285e-05, |
| "loss": 1.1741, |
| "step": 1 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 1.1414889097213745, |
| "learning_rate": 7.142857142857142e-05, |
| "loss": 1.0112, |
| "step": 5 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 0.5752452611923218, |
| "learning_rate": 0.00014285714285714284, |
| "loss": 0.9233, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 0.4000088572502136, |
| "learning_rate": 0.00021428571428571427, |
| "loss": 0.8458, |
| "step": 15 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 0.6516547799110413, |
| "learning_rate": 0.0002857142857142857, |
| "loss": 0.9087, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 0.8725354075431824, |
| "learning_rate": 0.00035714285714285714, |
| "loss": 0.9859, |
| "step": 25 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 0.7446133494377136, |
| "learning_rate": 0.00042857142857142855, |
| "loss": 0.9609, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 0.4507102370262146, |
| "learning_rate": 0.0005, |
| "loss": 1.2413, |
| "step": 35 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 1.1437228918075562, |
| "learning_rate": 0.0005714285714285714, |
| "loss": 1.0784, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 1.6952320337295532, |
| "learning_rate": 0.0006428571428571429, |
| "loss": 1.2622, |
| "step": 45 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 12.92784309387207, |
| "learning_rate": 0.0007142857142857143, |
| "loss": 2.0382, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 4.855193138122559, |
| "learning_rate": 0.0007857142857142857, |
| "loss": 5.5645, |
| "step": 55 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 7.7960357666015625, |
| "learning_rate": 0.0008571428571428571, |
| "loss": 12.1792, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 9.617668151855469, |
| "learning_rate": 0.0009285714285714287, |
| "loss": 12.4584, |
| "step": 65 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 1.5412602424621582, |
| "learning_rate": 0.001, |
| "loss": 7.3645, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 1.459766149520874, |
| "learning_rate": 0.0010714285714285715, |
| "loss": 6.9284, |
| "step": 75 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 1.6621876955032349, |
| "learning_rate": 0.0011428571428571427, |
| "loss": 6.7362, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 1.8117409944534302, |
| "learning_rate": 0.0012142857142857142, |
| "loss": 6.7313, |
| "step": 85 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 1.2151100635528564, |
| "learning_rate": 0.0012857142857142859, |
| "loss": 6.6705, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.992, |
| "eval_loss": 6.7252326011657715, |
| "eval_runtime": 12.4963, |
| "eval_samples_per_second": 90.027, |
| "eval_steps_per_second": 15.045, |
| "step": 93 |
| }, |
| { |
| "epoch": 1.016, |
| "grad_norm": 0.7800785303115845, |
| "learning_rate": 0.0013571428571428573, |
| "loss": 7.3155, |
| "step": 95 |
| }, |
| { |
| "epoch": 1.0693333333333332, |
| "grad_norm": 0.6527447700500488, |
| "learning_rate": 0.0014285714285714286, |
| "loss": 6.5969, |
| "step": 100 |
| }, |
| { |
| "epoch": 1.1226666666666667, |
| "grad_norm": 0.8018523454666138, |
| "learning_rate": 0.0015, |
| "loss": 6.4691, |
| "step": 105 |
| }, |
| { |
| "epoch": 1.176, |
| "grad_norm": 0.5544389486312866, |
| "learning_rate": 0.0015714285714285715, |
| "loss": 6.6514, |
| "step": 110 |
| }, |
| { |
| "epoch": 1.2293333333333334, |
| "grad_norm": 0.6455843448638916, |
| "learning_rate": 0.0016428571428571427, |
| "loss": 6.4806, |
| "step": 115 |
| }, |
| { |
| "epoch": 1.2826666666666666, |
| "grad_norm": 0.6757238507270813, |
| "learning_rate": 0.0017142857142857142, |
| "loss": 6.6304, |
| "step": 120 |
| }, |
| { |
| "epoch": 1.336, |
| "grad_norm": 0.5105107426643372, |
| "learning_rate": 0.0017857142857142859, |
| "loss": 6.4649, |
| "step": 125 |
| }, |
| { |
| "epoch": 1.3893333333333333, |
| "grad_norm": 0.7170645594596863, |
| "learning_rate": 0.0018571428571428573, |
| "loss": 6.6033, |
| "step": 130 |
| }, |
| { |
| "epoch": 1.4426666666666668, |
| "grad_norm": 0.7564003467559814, |
| "learning_rate": 0.0019285714285714286, |
| "loss": 6.6749, |
| "step": 135 |
| }, |
| { |
| "epoch": 1.496, |
| "grad_norm": 0.4599800407886505, |
| "learning_rate": 0.002, |
| "loss": 6.3382, |
| "step": 140 |
| }, |
| { |
| "epoch": 1.5493333333333332, |
| "grad_norm": 0.837786853313446, |
| "learning_rate": 0.0019999216720722225, |
| "loss": 6.8014, |
| "step": 145 |
| }, |
| { |
| "epoch": 1.6026666666666667, |
| "grad_norm": 1.4660875797271729, |
| "learning_rate": 0.001999686700559419, |
| "loss": 6.5512, |
| "step": 150 |
| }, |
| { |
| "epoch": 1.6560000000000001, |
| "grad_norm": 0.9593129754066467, |
| "learning_rate": 0.001999295122271253, |
| "loss": 6.5249, |
| "step": 155 |
| }, |
| { |
| "epoch": 1.7093333333333334, |
| "grad_norm": 0.712748110294342, |
| "learning_rate": 0.0019987469985507556, |
| "loss": 6.5814, |
| "step": 160 |
| }, |
| { |
| "epoch": 1.7626666666666666, |
| "grad_norm": 0.5598364472389221, |
| "learning_rate": 0.0019980424152647174, |
| "loss": 6.5057, |
| "step": 165 |
| }, |
| { |
| "epoch": 1.8159999999999998, |
| "grad_norm": 1.0086586475372314, |
| "learning_rate": 0.001997181482790236, |
| "loss": 6.3741, |
| "step": 170 |
| }, |
| { |
| "epoch": 1.8693333333333333, |
| "grad_norm": 1.0380948781967163, |
| "learning_rate": 0.0019961643359974247, |
| "loss": 6.5918, |
| "step": 175 |
| }, |
| { |
| "epoch": 1.9226666666666667, |
| "grad_norm": 0.7874330282211304, |
| "learning_rate": 0.0019949911342282845, |
| "loss": 6.3813, |
| "step": 180 |
| }, |
| { |
| "epoch": 1.976, |
| "grad_norm": 0.5932402610778809, |
| "learning_rate": 0.0019936620612717427, |
| "loss": 6.35, |
| "step": 185 |
| }, |
| { |
| "epoch": 1.9973333333333332, |
| "eval_loss": 6.313483238220215, |
| "eval_runtime": 12.8744, |
| "eval_samples_per_second": 87.383, |
| "eval_steps_per_second": 14.603, |
| "step": 187 |
| }, |
| { |
| "epoch": 2.032, |
| "grad_norm": 0.777173638343811, |
| "learning_rate": 0.00199217732533486, |
| "loss": 6.6836, |
| "step": 190 |
| }, |
| { |
| "epoch": 2.0853333333333333, |
| "grad_norm": 0.9935985207557678, |
| "learning_rate": 0.0019905371590102153, |
| "loss": 6.1532, |
| "step": 195 |
| }, |
| { |
| "epoch": 2.1386666666666665, |
| "grad_norm": 0.5834164023399353, |
| "learning_rate": 0.0019887418192394667, |
| "loss": 6.0439, |
| "step": 200 |
| }, |
| { |
| "epoch": 2.192, |
| "grad_norm": 0.7577049136161804, |
| "learning_rate": 0.001986791587273103, |
| "loss": 6.0436, |
| "step": 205 |
| }, |
| { |
| "epoch": 2.2453333333333334, |
| "grad_norm": 0.9114102125167847, |
| "learning_rate": 0.0019846867686263803, |
| "loss": 6.0193, |
| "step": 210 |
| }, |
| { |
| "epoch": 2.2986666666666666, |
| "grad_norm": 0.9455011487007141, |
| "learning_rate": 0.001982427693031465, |
| "loss": 5.9565, |
| "step": 215 |
| }, |
| { |
| "epoch": 2.352, |
| "grad_norm": 1.504512071609497, |
| "learning_rate": 0.001980014714385777, |
| "loss": 6.2788, |
| "step": 220 |
| }, |
| { |
| "epoch": 2.405333333333333, |
| "grad_norm": 1.2779139280319214, |
| "learning_rate": 0.001977448210696551, |
| "loss": 6.0278, |
| "step": 225 |
| }, |
| { |
| "epoch": 2.458666666666667, |
| "grad_norm": 0.6228100061416626, |
| "learning_rate": 0.001974728584021618, |
| "loss": 5.846, |
| "step": 230 |
| }, |
| { |
| "epoch": 2.512, |
| "grad_norm": 0.5647552609443665, |
| "learning_rate": 0.0019718562604064214, |
| "loss": 5.7982, |
| "step": 235 |
| }, |
| { |
| "epoch": 2.5653333333333332, |
| "grad_norm": 0.6691617965698242, |
| "learning_rate": 0.0019688316898172744, |
| "loss": 5.6841, |
| "step": 240 |
| }, |
| { |
| "epoch": 2.618666666666667, |
| "grad_norm": 0.8721797466278076, |
| "learning_rate": 0.0019656553460708705, |
| "loss": 5.6921, |
| "step": 245 |
| }, |
| { |
| "epoch": 2.672, |
| "grad_norm": 0.49442487955093384, |
| "learning_rate": 0.0019623277267600573, |
| "loss": 5.6087, |
| "step": 250 |
| }, |
| { |
| "epoch": 2.7253333333333334, |
| "grad_norm": 0.5820254683494568, |
| "learning_rate": 0.001958849353175884, |
| "loss": 5.4145, |
| "step": 255 |
| }, |
| { |
| "epoch": 2.7786666666666666, |
| "grad_norm": 0.9541387557983398, |
| "learning_rate": 0.001955220770225941, |
| "loss": 5.4061, |
| "step": 260 |
| }, |
| { |
| "epoch": 2.832, |
| "grad_norm": 0.8580039739608765, |
| "learning_rate": 0.0019514425463489948, |
| "loss": 5.3056, |
| "step": 265 |
| }, |
| { |
| "epoch": 2.8853333333333335, |
| "grad_norm": 0.9031959772109985, |
| "learning_rate": 0.001947515273425939, |
| "loss": 5.3682, |
| "step": 270 |
| }, |
| { |
| "epoch": 2.9386666666666668, |
| "grad_norm": 0.739450216293335, |
| "learning_rate": 0.0019434395666870735, |
| "loss": 5.2505, |
| "step": 275 |
| }, |
| { |
| "epoch": 2.992, |
| "grad_norm": 0.8577784299850464, |
| "learning_rate": 0.0019392160646157241, |
| "loss": 5.0786, |
| "step": 280 |
| }, |
| { |
| "epoch": 2.992, |
| "eval_loss": 5.260681629180908, |
| "eval_runtime": 12.495, |
| "eval_samples_per_second": 90.036, |
| "eval_steps_per_second": 15.046, |
| "step": 280 |
| }, |
| { |
| "epoch": 3.048, |
| "grad_norm": 0.7697703242301941, |
| "learning_rate": 0.001934845428848222, |
| "loss": 5.5708, |
| "step": 285 |
| }, |
| { |
| "epoch": 3.1013333333333333, |
| "grad_norm": 0.8419788479804993, |
| "learning_rate": 0.0019303283440702521, |
| "loss": 4.9402, |
| "step": 290 |
| }, |
| { |
| "epoch": 3.1546666666666665, |
| "grad_norm": 1.6958568096160889, |
| "learning_rate": 0.0019256655179095952, |
| "loss": 4.9352, |
| "step": 295 |
| }, |
| { |
| "epoch": 3.208, |
| "grad_norm": 0.706997275352478, |
| "learning_rate": 0.0019208576808252725, |
| "loss": 4.9083, |
| "step": 300 |
| }, |
| { |
| "epoch": 3.2613333333333334, |
| "grad_norm": 0.7924236059188843, |
| "learning_rate": 0.0019159055859931163, |
| "loss": 4.7812, |
| "step": 305 |
| }, |
| { |
| "epoch": 3.3146666666666667, |
| "grad_norm": 0.6681360006332397, |
| "learning_rate": 0.0019108100091877788, |
| "loss": 4.7953, |
| "step": 310 |
| }, |
| { |
| "epoch": 3.368, |
| "grad_norm": 0.9580642580986023, |
| "learning_rate": 0.0019055717486612038, |
| "loss": 4.8082, |
| "step": 315 |
| }, |
| { |
| "epoch": 3.421333333333333, |
| "grad_norm": 1.4874638319015503, |
| "learning_rate": 0.0019001916250175764, |
| "loss": 4.7807, |
| "step": 320 |
| }, |
| { |
| "epoch": 3.474666666666667, |
| "grad_norm": 2.9284310340881348, |
| "learning_rate": 0.0018946704810847688, |
| "loss": 4.7192, |
| "step": 325 |
| }, |
| { |
| "epoch": 3.528, |
| "grad_norm": 0.8562856912612915, |
| "learning_rate": 0.0018890091817823072, |
| "loss": 4.7759, |
| "step": 330 |
| }, |
| { |
| "epoch": 3.5813333333333333, |
| "grad_norm": 0.8265694975852966, |
| "learning_rate": 0.0018832086139858775, |
| "loss": 4.7143, |
| "step": 335 |
| }, |
| { |
| "epoch": 3.634666666666667, |
| "grad_norm": 1.2272521257400513, |
| "learning_rate": 0.0018772696863883906, |
| "loss": 4.775, |
| "step": 340 |
| }, |
| { |
| "epoch": 3.6879999999999997, |
| "grad_norm": 1.2595627307891846, |
| "learning_rate": 0.0018711933293576303, |
| "loss": 4.5926, |
| "step": 345 |
| }, |
| { |
| "epoch": 3.7413333333333334, |
| "grad_norm": 1.0950653553009033, |
| "learning_rate": 0.0018649804947905057, |
| "loss": 4.813, |
| "step": 350 |
| }, |
| { |
| "epoch": 3.7946666666666666, |
| "grad_norm": 1.4552189111709595, |
| "learning_rate": 0.0018586321559639317, |
| "loss": 4.717, |
| "step": 355 |
| }, |
| { |
| "epoch": 3.848, |
| "grad_norm": 1.0459569692611694, |
| "learning_rate": 0.001852149307382358, |
| "loss": 4.6884, |
| "step": 360 |
| }, |
| { |
| "epoch": 3.9013333333333335, |
| "grad_norm": 1.0256690979003906, |
| "learning_rate": 0.0018455329646219765, |
| "loss": 4.5672, |
| "step": 365 |
| }, |
| { |
| "epoch": 3.9546666666666668, |
| "grad_norm": 1.2847387790679932, |
| "learning_rate": 0.0018387841641716223, |
| "loss": 4.4933, |
| "step": 370 |
| }, |
| { |
| "epoch": 3.997333333333333, |
| "eval_loss": 4.830221176147461, |
| "eval_runtime": 12.4939, |
| "eval_samples_per_second": 90.044, |
| "eval_steps_per_second": 15.047, |
| "step": 374 |
| }, |
| { |
| "epoch": 4.010666666666666, |
| "grad_norm": 1.6286957263946533, |
| "learning_rate": 0.001831903963270404, |
| "loss": 5.0358, |
| "step": 375 |
| }, |
| { |
| "epoch": 4.064, |
| "grad_norm": 1.2841631174087524, |
| "learning_rate": 0.00182489343974208, |
| "loss": 4.6172, |
| "step": 380 |
| }, |
| { |
| "epoch": 4.117333333333334, |
| "grad_norm": 1.1748610734939575, |
| "learning_rate": 0.001817753691826212, |
| "loss": 4.6433, |
| "step": 385 |
| }, |
| { |
| "epoch": 4.1706666666666665, |
| "grad_norm": 1.6473082304000854, |
| "learning_rate": 0.0018104858380061178, |
| "loss": 4.5933, |
| "step": 390 |
| }, |
| { |
| "epoch": 4.224, |
| "grad_norm": 1.9459190368652344, |
| "learning_rate": 0.0018030910168336557, |
| "loss": 4.631, |
| "step": 395 |
| }, |
| { |
| "epoch": 4.277333333333333, |
| "grad_norm": 1.5279489755630493, |
| "learning_rate": 0.0017955703867508633, |
| "loss": 4.5583, |
| "step": 400 |
| }, |
| { |
| "epoch": 4.330666666666667, |
| "grad_norm": 1.3347927331924438, |
| "learning_rate": 0.0017879251259084804, |
| "loss": 4.7295, |
| "step": 405 |
| }, |
| { |
| "epoch": 4.384, |
| "grad_norm": 2.52054500579834, |
| "learning_rate": 0.0017801564319813853, |
| "loss": 4.4718, |
| "step": 410 |
| }, |
| { |
| "epoch": 4.437333333333333, |
| "grad_norm": 1.1874818801879883, |
| "learning_rate": 0.0017722655219809715, |
| "loss": 4.5063, |
| "step": 415 |
| }, |
| { |
| "epoch": 4.490666666666667, |
| "grad_norm": 1.491890788078308, |
| "learning_rate": 0.0017642536320644964, |
| "loss": 4.3769, |
| "step": 420 |
| }, |
| { |
| "epoch": 4.5440000000000005, |
| "grad_norm": 1.1082266569137573, |
| "learning_rate": 0.0017561220173414297, |
| "loss": 4.3971, |
| "step": 425 |
| }, |
| { |
| "epoch": 4.597333333333333, |
| "grad_norm": 0.9449096918106079, |
| "learning_rate": 0.0017478719516768322, |
| "loss": 4.443, |
| "step": 430 |
| }, |
| { |
| "epoch": 4.650666666666667, |
| "grad_norm": 1.4695461988449097, |
| "learning_rate": 0.0017395047274917994, |
| "loss": 4.3679, |
| "step": 435 |
| }, |
| { |
| "epoch": 4.704, |
| "grad_norm": 2.962554693222046, |
| "learning_rate": 0.001731021655560995, |
| "loss": 4.2775, |
| "step": 440 |
| }, |
| { |
| "epoch": 4.757333333333333, |
| "grad_norm": 0.9070279598236084, |
| "learning_rate": 0.0017224240648073094, |
| "loss": 4.5664, |
| "step": 445 |
| }, |
| { |
| "epoch": 4.810666666666666, |
| "grad_norm": 1.7772026062011719, |
| "learning_rate": 0.0017137133020936782, |
| "loss": 4.4455, |
| "step": 450 |
| }, |
| { |
| "epoch": 4.864, |
| "grad_norm": 2.937232255935669, |
| "learning_rate": 0.0017048907320120865, |
| "loss": 4.4177, |
| "step": 455 |
| }, |
| { |
| "epoch": 4.917333333333334, |
| "grad_norm": 6.296092510223389, |
| "learning_rate": 0.0016959577366697988, |
| "loss": 4.5929, |
| "step": 460 |
| }, |
| { |
| "epoch": 4.970666666666666, |
| "grad_norm": 22.26595687866211, |
| "learning_rate": 0.0016869157154728437, |
| "loss": 4.5319, |
| "step": 465 |
| }, |
| { |
| "epoch": 4.992, |
| "eval_loss": 4.809427738189697, |
| "eval_runtime": 12.4879, |
| "eval_samples_per_second": 90.087, |
| "eval_steps_per_second": 15.055, |
| "step": 467 |
| }, |
| { |
| "epoch": 5.026666666666666, |
| "grad_norm": 6.585814476013184, |
| "learning_rate": 0.001677766084906787, |
| "loss": 5.1022, |
| "step": 470 |
| }, |
| { |
| "epoch": 5.08, |
| "grad_norm": 5.868590831756592, |
| "learning_rate": 0.001668510278314833, |
| "loss": 4.5102, |
| "step": 475 |
| }, |
| { |
| "epoch": 5.133333333333334, |
| "grad_norm": 4.387262344360352, |
| "learning_rate": 0.0016591497456732824, |
| "loss": 4.6548, |
| "step": 480 |
| }, |
| { |
| "epoch": 5.1866666666666665, |
| "grad_norm": 9.387950897216797, |
| "learning_rate": 0.0016496859533643852, |
| "loss": 4.6778, |
| "step": 485 |
| }, |
| { |
| "epoch": 5.24, |
| "grad_norm": 51.944549560546875, |
| "learning_rate": 0.0016401203839466211, |
| "loss": 5.041, |
| "step": 490 |
| }, |
| { |
| "epoch": 5.293333333333333, |
| "grad_norm": 14.20453929901123, |
| "learning_rate": 0.0016304545359224522, |
| "loss": 5.2576, |
| "step": 495 |
| }, |
| { |
| "epoch": 5.346666666666667, |
| "grad_norm": 3.1657214164733887, |
| "learning_rate": 0.00162068992350357, |
| "loss": 5.1287, |
| "step": 500 |
| }, |
| { |
| "epoch": 5.4, |
| "grad_norm": 4.8425726890563965, |
| "learning_rate": 0.001610828076373687, |
| "loss": 4.9648, |
| "step": 505 |
| }, |
| { |
| "epoch": 5.453333333333333, |
| "grad_norm": 1.9821243286132812, |
| "learning_rate": 0.0016008705394489032, |
| "loss": 4.9847, |
| "step": 510 |
| }, |
| { |
| "epoch": 5.506666666666667, |
| "grad_norm": 6.5806379318237305, |
| "learning_rate": 0.0015908188726356843, |
| "loss": 4.9543, |
| "step": 515 |
| }, |
| { |
| "epoch": 5.5600000000000005, |
| "grad_norm": 18.127779006958008, |
| "learning_rate": 0.0015806746505864946, |
| "loss": 4.9112, |
| "step": 520 |
| }, |
| { |
| "epoch": 5.613333333333333, |
| "grad_norm": 12.010746955871582, |
| "learning_rate": 0.0015704394624531184, |
| "loss": 4.9836, |
| "step": 525 |
| }, |
| { |
| "epoch": 5.666666666666667, |
| "grad_norm": 46.7609977722168, |
| "learning_rate": 0.0015601149116377094, |
| "loss": 4.8966, |
| "step": 530 |
| }, |
| { |
| "epoch": 5.72, |
| "grad_norm": 117.95108795166016, |
| "learning_rate": 0.0015497026155416088, |
| "loss": 4.8016, |
| "step": 535 |
| }, |
| { |
| "epoch": 5.773333333333333, |
| "grad_norm": 41.65292739868164, |
| "learning_rate": 0.0015392042053119699, |
| "loss": 5.1113, |
| "step": 540 |
| }, |
| { |
| "epoch": 5.826666666666666, |
| "grad_norm": 26.858564376831055, |
| "learning_rate": 0.0015286213255862294, |
| "loss": 4.9389, |
| "step": 545 |
| }, |
| { |
| "epoch": 5.88, |
| "grad_norm": 8.647442817687988, |
| "learning_rate": 0.0015179556342344643, |
| "loss": 4.9543, |
| "step": 550 |
| }, |
| { |
| "epoch": 5.933333333333334, |
| "grad_norm": 3.5178844928741455, |
| "learning_rate": 0.0015072088020996791, |
| "loss": 5.1129, |
| "step": 555 |
| }, |
| { |
| "epoch": 5.986666666666666, |
| "grad_norm": 2.328364849090576, |
| "learning_rate": 0.001496382512736056, |
| "loss": 4.8257, |
| "step": 560 |
| }, |
| { |
| "epoch": 5.997333333333334, |
| "eval_loss": 5.105650901794434, |
| "eval_runtime": 12.5011, |
| "eval_samples_per_second": 89.992, |
| "eval_steps_per_second": 15.039, |
| "step": 561 |
| }, |
| { |
| "epoch": 6.042666666666666, |
| "grad_norm": 2.6246631145477295, |
| "learning_rate": 0.0014854784621452176, |
| "loss": 5.4436, |
| "step": 565 |
| }, |
| { |
| "epoch": 6.096, |
| "grad_norm": 1.641006588935852, |
| "learning_rate": 0.0014744983585105386, |
| "loss": 4.721, |
| "step": 570 |
| }, |
| { |
| "epoch": 6.149333333333334, |
| "grad_norm": 2.2615890502929688, |
| "learning_rate": 0.001463443921929548, |
| "loss": 4.6645, |
| "step": 575 |
| }, |
| { |
| "epoch": 6.2026666666666666, |
| "grad_norm": 2.4459476470947266, |
| "learning_rate": 0.0014523168841444657, |
| "loss": 4.6295, |
| "step": 580 |
| }, |
| { |
| "epoch": 6.256, |
| "grad_norm": 27.94793128967285, |
| "learning_rate": 0.001441118988270916, |
| "loss": 4.6528, |
| "step": 585 |
| }, |
| { |
| "epoch": 6.309333333333333, |
| "grad_norm": 5.710525035858154, |
| "learning_rate": 0.0014298519885248572, |
| "loss": 4.549, |
| "step": 590 |
| }, |
| { |
| "epoch": 6.362666666666667, |
| "grad_norm": 4.791785717010498, |
| "learning_rate": 0.0014185176499477742, |
| "loss": 4.5602, |
| "step": 595 |
| }, |
| { |
| "epoch": 6.416, |
| "grad_norm": 2.0223538875579834, |
| "learning_rate": 0.0014071177481301737, |
| "loss": 4.5802, |
| "step": 600 |
| }, |
| { |
| "epoch": 6.469333333333333, |
| "grad_norm": 1.6422585248947144, |
| "learning_rate": 0.0013956540689334285, |
| "loss": 4.4584, |
| "step": 605 |
| }, |
| { |
| "epoch": 6.522666666666667, |
| "grad_norm": 8.107535362243652, |
| "learning_rate": 0.001384128408210011, |
| "loss": 4.5343, |
| "step": 610 |
| }, |
| { |
| "epoch": 6.576, |
| "grad_norm": 2.697594404220581, |
| "learning_rate": 0.0013725425715221625, |
| "loss": 4.6172, |
| "step": 615 |
| }, |
| { |
| "epoch": 6.629333333333333, |
| "grad_norm": 1.561109185218811, |
| "learning_rate": 0.0013608983738590413, |
| "loss": 4.4385, |
| "step": 620 |
| }, |
| { |
| "epoch": 6.682666666666667, |
| "grad_norm": 2.0785770416259766, |
| "learning_rate": 0.0013491976393523951, |
| "loss": 4.4098, |
| "step": 625 |
| }, |
| { |
| "epoch": 6.736, |
| "grad_norm": 5.022526264190674, |
| "learning_rate": 0.0013374422009907983, |
| "loss": 4.3741, |
| "step": 630 |
| }, |
| { |
| "epoch": 6.789333333333333, |
| "grad_norm": 1.8558008670806885, |
| "learning_rate": 0.0013256339003325053, |
| "loss": 4.325, |
| "step": 635 |
| }, |
| { |
| "epoch": 6.842666666666666, |
| "grad_norm": 1.2337331771850586, |
| "learning_rate": 0.0013137745872169578, |
| "loss": 4.3192, |
| "step": 640 |
| }, |
| { |
| "epoch": 6.896, |
| "grad_norm": 1.0328541994094849, |
| "learning_rate": 0.0013018661194749985, |
| "loss": 4.3117, |
| "step": 645 |
| }, |
| { |
| "epoch": 6.949333333333334, |
| "grad_norm": 6.057741641998291, |
| "learning_rate": 0.00128991036263783, |
| "loss": 4.2177, |
| "step": 650 |
| }, |
| { |
| "epoch": 6.992, |
| "eval_loss": 4.5589494705200195, |
| "eval_runtime": 12.5045, |
| "eval_samples_per_second": 89.968, |
| "eval_steps_per_second": 15.035, |
| "step": 654 |
| }, |
| { |
| "epoch": 7.005333333333334, |
| "grad_norm": 10.887760162353516, |
| "learning_rate": 0.001277909189644768, |
| "loss": 4.7952, |
| "step": 655 |
| }, |
| { |
| "epoch": 7.058666666666666, |
| "grad_norm": 3.197256565093994, |
| "learning_rate": 0.001265864480549836, |
| "loss": 4.166, |
| "step": 660 |
| }, |
| { |
| "epoch": 7.112, |
| "grad_norm": 3.441707134246826, |
| "learning_rate": 0.001253778122227242, |
| "loss": 4.2237, |
| "step": 665 |
| }, |
| { |
| "epoch": 7.165333333333333, |
| "grad_norm": 1.8096449375152588, |
| "learning_rate": 0.0012416520080757892, |
| "loss": 4.0627, |
| "step": 670 |
| }, |
| { |
| "epoch": 7.218666666666667, |
| "grad_norm": 1.5362603664398193, |
| "learning_rate": 0.0012294880377222647, |
| "loss": 4.1205, |
| "step": 675 |
| }, |
| { |
| "epoch": 7.272, |
| "grad_norm": 2.7223100662231445, |
| "learning_rate": 0.0012172881167238515, |
| "loss": 4.1721, |
| "step": 680 |
| }, |
| { |
| "epoch": 7.325333333333333, |
| "grad_norm": 1.2539554834365845, |
| "learning_rate": 0.0012050541562696109, |
| "loss": 4.159, |
| "step": 685 |
| }, |
| { |
| "epoch": 7.378666666666667, |
| "grad_norm": 3.9169719219207764, |
| "learning_rate": 0.001192788072881085, |
| "loss": 4.207, |
| "step": 690 |
| }, |
| { |
| "epoch": 7.432, |
| "grad_norm": 2.505176544189453, |
| "learning_rate": 0.0011804917881120607, |
| "loss": 3.9257, |
| "step": 695 |
| }, |
| { |
| "epoch": 7.485333333333333, |
| "grad_norm": 1.2009811401367188, |
| "learning_rate": 0.0011681672282475495, |
| "loss": 4.0998, |
| "step": 700 |
| }, |
| { |
| "epoch": 7.538666666666667, |
| "grad_norm": 1.2483587265014648, |
| "learning_rate": 0.0011558163240020208, |
| "loss": 4.0612, |
| "step": 705 |
| }, |
| { |
| "epoch": 7.592, |
| "grad_norm": 1.8018878698349, |
| "learning_rate": 0.001143441010216946, |
| "loss": 4.1208, |
| "step": 710 |
| }, |
| { |
| "epoch": 7.645333333333333, |
| "grad_norm": 1.5484060049057007, |
| "learning_rate": 0.0011310432255576942, |
| "loss": 4.0344, |
| "step": 715 |
| }, |
| { |
| "epoch": 7.698666666666667, |
| "grad_norm": 2.459238290786743, |
| "learning_rate": 0.0011186249122098282, |
| "loss": 4.0085, |
| "step": 720 |
| }, |
| { |
| "epoch": 7.752, |
| "grad_norm": 2.3227972984313965, |
| "learning_rate": 0.0011061880155748497, |
| "loss": 4.0162, |
| "step": 725 |
| }, |
| { |
| "epoch": 7.8053333333333335, |
| "grad_norm": 4.121925354003906, |
| "learning_rate": 0.0010937344839654416, |
| "loss": 4.1103, |
| "step": 730 |
| }, |
| { |
| "epoch": 7.858666666666666, |
| "grad_norm": 2.338094711303711, |
| "learning_rate": 0.0010812662683002527, |
| "loss": 4.1566, |
| "step": 735 |
| }, |
| { |
| "epoch": 7.912, |
| "grad_norm": 1.8548033237457275, |
| "learning_rate": 0.001068785321798276, |
| "loss": 4.0535, |
| "step": 740 |
| }, |
| { |
| "epoch": 7.965333333333334, |
| "grad_norm": 1.4415037631988525, |
| "learning_rate": 0.0010562935996728628, |
| "loss": 4.0313, |
| "step": 745 |
| }, |
| { |
| "epoch": 7.997333333333334, |
| "eval_loss": 4.3429412841796875, |
| "eval_runtime": 12.4844, |
| "eval_samples_per_second": 90.112, |
| "eval_steps_per_second": 15.059, |
| "step": 748 |
| }, |
| { |
| "epoch": 8.021333333333333, |
| "grad_norm": 1.2015221118927002, |
| "learning_rate": 0.001043793058825431, |
| "loss": 4.3842, |
| "step": 750 |
| }, |
| { |
| "epoch": 8.074666666666667, |
| "grad_norm": 2.2034997940063477, |
| "learning_rate": 0.0010312856575389016, |
| "loss": 3.8739, |
| "step": 755 |
| }, |
| { |
| "epoch": 8.128, |
| "grad_norm": 1.0531103610992432, |
| "learning_rate": 0.0010187733551709234, |
| "loss": 3.9207, |
| "step": 760 |
| }, |
| { |
| "epoch": 8.181333333333333, |
| "grad_norm": 1.6261956691741943, |
| "learning_rate": 0.0010062581118469298, |
| "loss": 3.9147, |
| "step": 765 |
| }, |
| { |
| "epoch": 8.234666666666667, |
| "grad_norm": 4.931313991546631, |
| "learning_rate": 0.0009937418881530702, |
| "loss": 3.9194, |
| "step": 770 |
| }, |
| { |
| "epoch": 8.288, |
| "grad_norm": 1.1570011377334595, |
| "learning_rate": 0.0009812266448290766, |
| "loss": 3.8607, |
| "step": 775 |
| }, |
| { |
| "epoch": 8.341333333333333, |
| "grad_norm": 2.3009421825408936, |
| "learning_rate": 0.0009687143424610986, |
| "loss": 3.8516, |
| "step": 780 |
| }, |
| { |
| "epoch": 8.394666666666666, |
| "grad_norm": 1.5181440114974976, |
| "learning_rate": 0.0009562069411745691, |
| "loss": 3.8939, |
| "step": 785 |
| }, |
| { |
| "epoch": 8.448, |
| "grad_norm": 1.7607407569885254, |
| "learning_rate": 0.0009437064003271373, |
| "loss": 3.9431, |
| "step": 790 |
| }, |
| { |
| "epoch": 8.501333333333333, |
| "grad_norm": 1.155339241027832, |
| "learning_rate": 0.0009312146782017244, |
| "loss": 3.8956, |
| "step": 795 |
| }, |
| { |
| "epoch": 8.554666666666666, |
| "grad_norm": 0.9878433346748352, |
| "learning_rate": 0.0009187337316997475, |
| "loss": 3.8884, |
| "step": 800 |
| }, |
| { |
| "epoch": 8.608, |
| "grad_norm": 0.9723697304725647, |
| "learning_rate": 0.0009062655160345587, |
| "loss": 3.714, |
| "step": 805 |
| }, |
| { |
| "epoch": 8.661333333333333, |
| "grad_norm": 6.659087181091309, |
| "learning_rate": 0.0008938119844251507, |
| "loss": 3.8302, |
| "step": 810 |
| }, |
| { |
| "epoch": 8.714666666666666, |
| "grad_norm": 1.3487255573272705, |
| "learning_rate": 0.0008813750877901723, |
| "loss": 3.9658, |
| "step": 815 |
| }, |
| { |
| "epoch": 8.768, |
| "grad_norm": 1.3927958011627197, |
| "learning_rate": 0.0008689567744423059, |
| "loss": 3.8516, |
| "step": 820 |
| }, |
| { |
| "epoch": 8.821333333333333, |
| "grad_norm": 0.8693830370903015, |
| "learning_rate": 0.0008565589897830542, |
| "loss": 3.8388, |
| "step": 825 |
| }, |
| { |
| "epoch": 8.874666666666666, |
| "grad_norm": 1.2397363185882568, |
| "learning_rate": 0.0008441836759979795, |
| "loss": 3.7521, |
| "step": 830 |
| }, |
| { |
| "epoch": 8.928, |
| "grad_norm": 1.1434884071350098, |
| "learning_rate": 0.0008318327717524509, |
| "loss": 3.7411, |
| "step": 835 |
| }, |
| { |
| "epoch": 8.981333333333334, |
| "grad_norm": 0.8602774143218994, |
| "learning_rate": 0.0008195082118879396, |
| "loss": 3.7408, |
| "step": 840 |
| }, |
| { |
| "epoch": 8.992, |
| "eval_loss": 4.147874355316162, |
| "eval_runtime": 12.5024, |
| "eval_samples_per_second": 89.983, |
| "eval_steps_per_second": 15.037, |
| "step": 841 |
| }, |
| { |
| "epoch": 9.037333333333333, |
| "grad_norm": 1.2394230365753174, |
| "learning_rate": 0.0008072119271189156, |
| "loss": 4.0861, |
| "step": 845 |
| }, |
| { |
| "epoch": 9.090666666666667, |
| "grad_norm": 0.9018468260765076, |
| "learning_rate": 0.0007949458437303892, |
| "loss": 3.6608, |
| "step": 850 |
| }, |
| { |
| "epoch": 9.144, |
| "grad_norm": 2.0389747619628906, |
| "learning_rate": 0.0007827118832761486, |
| "loss": 3.6369, |
| "step": 855 |
| }, |
| { |
| "epoch": 9.197333333333333, |
| "grad_norm": 1.0341744422912598, |
| "learning_rate": 0.0007705119622777351, |
| "loss": 3.6354, |
| "step": 860 |
| }, |
| { |
| "epoch": 9.250666666666667, |
| "grad_norm": 0.8617631196975708, |
| "learning_rate": 0.0007583479919242108, |
| "loss": 3.6106, |
| "step": 865 |
| }, |
| { |
| "epoch": 9.304, |
| "grad_norm": 0.719153642654419, |
| "learning_rate": 0.000746221877772758, |
| "loss": 3.7636, |
| "step": 870 |
| }, |
| { |
| "epoch": 9.357333333333333, |
| "grad_norm": 3.26902437210083, |
| "learning_rate": 0.0007341355194501638, |
| "loss": 3.6817, |
| "step": 875 |
| }, |
| { |
| "epoch": 9.410666666666666, |
| "grad_norm": 0.9911563396453857, |
| "learning_rate": 0.0007220908103552318, |
| "loss": 3.7094, |
| "step": 880 |
| }, |
| { |
| "epoch": 9.464, |
| "grad_norm": 0.8281224370002747, |
| "learning_rate": 0.0007100896373621699, |
| "loss": 3.6431, |
| "step": 885 |
| }, |
| { |
| "epoch": 9.517333333333333, |
| "grad_norm": 0.8220219612121582, |
| "learning_rate": 0.0006981338805250015, |
| "loss": 3.6953, |
| "step": 890 |
| }, |
| { |
| "epoch": 9.570666666666666, |
| "grad_norm": 0.8096312284469604, |
| "learning_rate": 0.0006862254127830425, |
| "loss": 3.5947, |
| "step": 895 |
| }, |
| { |
| "epoch": 9.624, |
| "grad_norm": 0.998589813709259, |
| "learning_rate": 0.000674366099667495, |
| "loss": 3.6492, |
| "step": 900 |
| }, |
| { |
| "epoch": 9.677333333333333, |
| "grad_norm": 1.0131206512451172, |
| "learning_rate": 0.0006625577990092018, |
| "loss": 3.638, |
| "step": 905 |
| }, |
| { |
| "epoch": 9.730666666666666, |
| "grad_norm": 0.6822465062141418, |
| "learning_rate": 0.0006508023606476051, |
| "loss": 3.626, |
| "step": 910 |
| }, |
| { |
| "epoch": 9.784, |
| "grad_norm": 0.7446674704551697, |
| "learning_rate": 0.0006391016261409591, |
| "loss": 3.6361, |
| "step": 915 |
| }, |
| { |
| "epoch": 9.837333333333333, |
| "grad_norm": 1.5426651239395142, |
| "learning_rate": 0.0006274574284778378, |
| "loss": 3.6579, |
| "step": 920 |
| }, |
| { |
| "epoch": 9.890666666666666, |
| "grad_norm": 1.0557122230529785, |
| "learning_rate": 0.0006158715917899892, |
| "loss": 3.5978, |
| "step": 925 |
| }, |
| { |
| "epoch": 9.943999999999999, |
| "grad_norm": 1.271697759628296, |
| "learning_rate": 0.0006043459310665716, |
| "loss": 3.5695, |
| "step": 930 |
| }, |
| { |
| "epoch": 9.997333333333334, |
| "grad_norm": 1.3581335544586182, |
| "learning_rate": 0.0005928822518698263, |
| "loss": 4.0306, |
| "step": 935 |
| }, |
| { |
| "epoch": 9.997333333333334, |
| "eval_loss": 4.033357620239258, |
| "eval_runtime": 12.5191, |
| "eval_samples_per_second": 89.863, |
| "eval_steps_per_second": 15.017, |
| "step": 935 |
| }, |
| { |
| "epoch": 10.053333333333333, |
| "grad_norm": 1.4836759567260742, |
| "learning_rate": 0.000581482350052226, |
| "loss": 3.5213, |
| "step": 940 |
| }, |
| { |
| "epoch": 10.106666666666667, |
| "grad_norm": 0.8610721230506897, |
| "learning_rate": 0.0005701480114751431, |
| "loss": 3.4489, |
| "step": 945 |
| }, |
| { |
| "epoch": 10.16, |
| "grad_norm": 1.1154193878173828, |
| "learning_rate": 0.0005588810117290842, |
| "loss": 3.4965, |
| "step": 950 |
| }, |
| { |
| "epoch": 10.213333333333333, |
| "grad_norm": 0.9979135990142822, |
| "learning_rate": 0.0005476831158555345, |
| "loss": 3.5145, |
| "step": 955 |
| }, |
| { |
| "epoch": 10.266666666666667, |
| "grad_norm": 18.88866424560547, |
| "learning_rate": 0.0005365560780704523, |
| "loss": 3.4903, |
| "step": 960 |
| }, |
| { |
| "epoch": 10.32, |
| "grad_norm": 1.4323471784591675, |
| "learning_rate": 0.0005255016414894615, |
| "loss": 3.5408, |
| "step": 965 |
| }, |
| { |
| "epoch": 10.373333333333333, |
| "grad_norm": 3.502009868621826, |
| "learning_rate": 0.0005145215378547825, |
| "loss": 3.5039, |
| "step": 970 |
| }, |
| { |
| "epoch": 10.426666666666666, |
| "grad_norm": 4.632591247558594, |
| "learning_rate": 0.0005036174872639443, |
| "loss": 3.5314, |
| "step": 975 |
| }, |
| { |
| "epoch": 10.48, |
| "grad_norm": 1.0967168807983398, |
| "learning_rate": 0.0004927911979003214, |
| "loss": 3.5151, |
| "step": 980 |
| }, |
| { |
| "epoch": 10.533333333333333, |
| "grad_norm": 0.8381322622299194, |
| "learning_rate": 0.000482044365765536, |
| "loss": 3.4655, |
| "step": 985 |
| }, |
| { |
| "epoch": 10.586666666666666, |
| "grad_norm": 0.9333806037902832, |
| "learning_rate": 0.0004713786744137709, |
| "loss": 3.4428, |
| "step": 990 |
| }, |
| { |
| "epoch": 10.64, |
| "grad_norm": 1.3139746189117432, |
| "learning_rate": 0.00046079579468803045, |
| "loss": 3.4655, |
| "step": 995 |
| }, |
| { |
| "epoch": 10.693333333333333, |
| "grad_norm": 13.540165901184082, |
| "learning_rate": 0.0004502973844583914, |
| "loss": 3.4847, |
| "step": 1000 |
| }, |
| { |
| "epoch": 10.746666666666666, |
| "grad_norm": 0.730549156665802, |
| "learning_rate": 0.00043988508836229046, |
| "loss": 3.5064, |
| "step": 1005 |
| }, |
| { |
| "epoch": 10.8, |
| "grad_norm": 1.1248104572296143, |
| "learning_rate": 0.00042956053754688174, |
| "loss": 3.4264, |
| "step": 1010 |
| }, |
| { |
| "epoch": 10.853333333333333, |
| "grad_norm": 2.549948215484619, |
| "learning_rate": 0.0004193253494135054, |
| "loss": 3.4826, |
| "step": 1015 |
| }, |
| { |
| "epoch": 10.906666666666666, |
| "grad_norm": 2.570146083831787, |
| "learning_rate": 0.00040918112736431565, |
| "loss": 3.5088, |
| "step": 1020 |
| }, |
| { |
| "epoch": 10.96, |
| "grad_norm": 0.9071534276008606, |
| "learning_rate": 0.0003991294605510969, |
| "loss": 3.4673, |
| "step": 1025 |
| }, |
| { |
| "epoch": 10.992, |
| "eval_loss": 3.9098801612854004, |
| "eval_runtime": 12.4879, |
| "eval_samples_per_second": 90.087, |
| "eval_steps_per_second": 15.055, |
| "step": 1028 |
| }, |
| { |
| "epoch": 11.016, |
| "grad_norm": 0.7501585483551025, |
| "learning_rate": 0.0003891719236263128, |
| "loss": 3.7099, |
| "step": 1030 |
| }, |
| { |
| "epoch": 11.069333333333333, |
| "grad_norm": 0.7575392723083496, |
| "learning_rate": 0.0003793100764964299, |
| "loss": 3.3254, |
| "step": 1035 |
| }, |
| { |
| "epoch": 11.122666666666667, |
| "grad_norm": 1.5098010301589966, |
| "learning_rate": 0.00036954546407754797, |
| "loss": 3.3361, |
| "step": 1040 |
| }, |
| { |
| "epoch": 11.176, |
| "grad_norm": 0.652353048324585, |
| "learning_rate": 0.00035987961605337895, |
| "loss": 3.3419, |
| "step": 1045 |
| }, |
| { |
| "epoch": 11.229333333333333, |
| "grad_norm": 1.4576791524887085, |
| "learning_rate": 0.0003503140466356151, |
| "loss": 3.4373, |
| "step": 1050 |
| }, |
| { |
| "epoch": 11.282666666666668, |
| "grad_norm": 0.8805112242698669, |
| "learning_rate": 0.0003408502543267175, |
| "loss": 3.361, |
| "step": 1055 |
| }, |
| { |
| "epoch": 11.336, |
| "grad_norm": 2.8293251991271973, |
| "learning_rate": 0.0003314897216851673, |
| "loss": 3.3537, |
| "step": 1060 |
| }, |
| { |
| "epoch": 11.389333333333333, |
| "grad_norm": 1.0685662031173706, |
| "learning_rate": 0.00032223391509321334, |
| "loss": 3.295, |
| "step": 1065 |
| }, |
| { |
| "epoch": 11.442666666666666, |
| "grad_norm": 0.5625657439231873, |
| "learning_rate": 0.00031308428452715643, |
| "loss": 3.3364, |
| "step": 1070 |
| }, |
| { |
| "epoch": 11.496, |
| "grad_norm": 0.8257743120193481, |
| "learning_rate": 0.00030404226333020115, |
| "loss": 3.2609, |
| "step": 1075 |
| }, |
| { |
| "epoch": 11.549333333333333, |
| "grad_norm": 1.0789713859558105, |
| "learning_rate": 0.0002951092679879136, |
| "loss": 3.3134, |
| "step": 1080 |
| }, |
| { |
| "epoch": 11.602666666666666, |
| "grad_norm": 1.148529052734375, |
| "learning_rate": 0.0002862866979063219, |
| "loss": 3.2776, |
| "step": 1085 |
| }, |
| { |
| "epoch": 11.656, |
| "grad_norm": 3.4152815341949463, |
| "learning_rate": 0.0002775759351926909, |
| "loss": 3.2817, |
| "step": 1090 |
| }, |
| { |
| "epoch": 11.709333333333333, |
| "grad_norm": 5.510611057281494, |
| "learning_rate": 0.00026897834443900527, |
| "loss": 3.4051, |
| "step": 1095 |
| }, |
| { |
| "epoch": 11.762666666666666, |
| "grad_norm": 3.2792694568634033, |
| "learning_rate": 0.0002604952725082005, |
| "loss": 3.3752, |
| "step": 1100 |
| }, |
| { |
| "epoch": 11.816, |
| "grad_norm": 0.8379424214363098, |
| "learning_rate": 0.00025212804832316785, |
| "loss": 3.3568, |
| "step": 1105 |
| }, |
| { |
| "epoch": 11.869333333333334, |
| "grad_norm": 1.0004689693450928, |
| "learning_rate": 0.00024387798265857076, |
| "loss": 3.2548, |
| "step": 1110 |
| }, |
| { |
| "epoch": 11.922666666666666, |
| "grad_norm": 1.1289111375808716, |
| "learning_rate": 0.00023574636793550374, |
| "loss": 3.2763, |
| "step": 1115 |
| }, |
| { |
| "epoch": 11.975999999999999, |
| "grad_norm": 0.7427679300308228, |
| "learning_rate": 0.00022773447801902857, |
| "loss": 3.3279, |
| "step": 1120 |
| }, |
| { |
| "epoch": 11.997333333333334, |
| "eval_loss": 3.8246541023254395, |
| "eval_runtime": 12.4686, |
| "eval_samples_per_second": 90.226, |
| "eval_steps_per_second": 15.078, |
| "step": 1122 |
| }, |
| { |
| "epoch": 12.032, |
| "grad_norm": 0.7016487717628479, |
| "learning_rate": 0.00021984356801861506, |
| "loss": 3.545, |
| "step": 1125 |
| }, |
| { |
| "epoch": 12.085333333333333, |
| "grad_norm": 1.0700368881225586, |
| "learning_rate": 0.00021207487409151982, |
| "loss": 3.213, |
| "step": 1130 |
| }, |
| { |
| "epoch": 12.138666666666667, |
| "grad_norm": 0.548744261264801, |
| "learning_rate": 0.0002044296132491369, |
| "loss": 3.1303, |
| "step": 1135 |
| }, |
| { |
| "epoch": 12.192, |
| "grad_norm": 0.5944454669952393, |
| "learning_rate": 0.00019690898316634432, |
| "loss": 3.2735, |
| "step": 1140 |
| }, |
| { |
| "epoch": 12.245333333333333, |
| "grad_norm": 0.559898853302002, |
| "learning_rate": 0.0001895141619938825, |
| "loss": 3.221, |
| "step": 1145 |
| }, |
| { |
| "epoch": 12.298666666666668, |
| "grad_norm": 0.5505184531211853, |
| "learning_rate": 0.00018224630817378828, |
| "loss": 3.247, |
| "step": 1150 |
| }, |
| { |
| "epoch": 12.352, |
| "grad_norm": 4.3635735511779785, |
| "learning_rate": 0.00017510656025792004, |
| "loss": 3.091, |
| "step": 1155 |
| }, |
| { |
| "epoch": 12.405333333333333, |
| "grad_norm": 0.553667426109314, |
| "learning_rate": 0.00016809603672959616, |
| "loss": 3.2349, |
| "step": 1160 |
| }, |
| { |
| "epoch": 12.458666666666666, |
| "grad_norm": 1.5174871683120728, |
| "learning_rate": 0.00016121583582837774, |
| "loss": 3.2065, |
| "step": 1165 |
| }, |
| { |
| "epoch": 12.512, |
| "grad_norm": 0.7590833306312561, |
| "learning_rate": 0.0001544670353780234, |
| "loss": 3.1883, |
| "step": 1170 |
| }, |
| { |
| "epoch": 12.565333333333333, |
| "grad_norm": 1.4404692649841309, |
| "learning_rate": 0.00014785069261764183, |
| "loss": 3.2056, |
| "step": 1175 |
| }, |
| { |
| "epoch": 12.618666666666666, |
| "grad_norm": 0.6769624948501587, |
| "learning_rate": 0.0001413678440360684, |
| "loss": 3.2165, |
| "step": 1180 |
| }, |
| { |
| "epoch": 12.672, |
| "grad_norm": 0.5693238377571106, |
| "learning_rate": 0.00013501950520949436, |
| "loss": 3.1955, |
| "step": 1185 |
| }, |
| { |
| "epoch": 12.725333333333333, |
| "grad_norm": 0.9455315470695496, |
| "learning_rate": 0.00012880667064237006, |
| "loss": 3.2017, |
| "step": 1190 |
| }, |
| { |
| "epoch": 12.778666666666666, |
| "grad_norm": 0.8543607592582703, |
| "learning_rate": 0.00012273031361160957, |
| "loss": 3.2268, |
| "step": 1195 |
| }, |
| { |
| "epoch": 12.832, |
| "grad_norm": 1.906198501586914, |
| "learning_rate": 0.00011679138601412254, |
| "loss": 3.2457, |
| "step": 1200 |
| }, |
| { |
| "epoch": 12.885333333333334, |
| "grad_norm": 0.5271804928779602, |
| "learning_rate": 0.00011099081821769297, |
| "loss": 3.2146, |
| "step": 1205 |
| }, |
| { |
| "epoch": 12.938666666666666, |
| "grad_norm": 1.0702733993530273, |
| "learning_rate": 0.00010532951891523124, |
| "loss": 3.2083, |
| "step": 1210 |
| }, |
| { |
| "epoch": 12.992, |
| "grad_norm": 2.5151164531707764, |
| "learning_rate": 9.980837498242356e-05, |
| "loss": 3.2354, |
| "step": 1215 |
| }, |
| { |
| "epoch": 12.992, |
| "eval_loss": 3.785278558731079, |
| "eval_runtime": 12.6277, |
| "eval_samples_per_second": 89.09, |
| "eval_steps_per_second": 14.888, |
| "step": 1215 |
| }, |
| { |
| "epoch": 13.048, |
| "grad_norm": 1.2420941591262817, |
| "learning_rate": 9.442825133879607e-05, |
| "loss": 3.4289, |
| "step": 1220 |
| }, |
| { |
| "epoch": 13.101333333333333, |
| "grad_norm": 0.4141329824924469, |
| "learning_rate": 8.918999081222156e-05, |
| "loss": 3.0674, |
| "step": 1225 |
| }, |
| { |
| "epoch": 13.154666666666667, |
| "grad_norm": 0.6331799030303955, |
| "learning_rate": 8.4094414006884e-05, |
| "loss": 3.1639, |
| "step": 1230 |
| }, |
| { |
| "epoch": 13.208, |
| "grad_norm": 0.558097779750824, |
| "learning_rate": 7.914231917472747e-05, |
| "loss": 3.1318, |
| "step": 1235 |
| }, |
| { |
| "epoch": 13.261333333333333, |
| "grad_norm": 0.5015540719032288, |
| "learning_rate": 7.433448209040495e-05, |
| "loss": 3.1447, |
| "step": 1240 |
| }, |
| { |
| "epoch": 13.314666666666668, |
| "grad_norm": 3.2629053592681885, |
| "learning_rate": 6.967165592974789e-05, |
| "loss": 3.1929, |
| "step": 1245 |
| }, |
| { |
| "epoch": 13.368, |
| "grad_norm": 0.35517868399620056, |
| "learning_rate": 6.515457115177803e-05, |
| "loss": 3.1434, |
| "step": 1250 |
| }, |
| { |
| "epoch": 13.421333333333333, |
| "grad_norm": 2.8700928688049316, |
| "learning_rate": 6.0783935384275736e-05, |
| "loss": 3.1381, |
| "step": 1255 |
| }, |
| { |
| "epoch": 13.474666666666666, |
| "grad_norm": 1.7031766176223755, |
| "learning_rate": 5.656043331292682e-05, |
| "loss": 3.1343, |
| "step": 1260 |
| }, |
| { |
| "epoch": 13.528, |
| "grad_norm": 0.6974568963050842, |
| "learning_rate": 5.2484726574061225e-05, |
| "loss": 3.154, |
| "step": 1265 |
| }, |
| { |
| "epoch": 13.581333333333333, |
| "grad_norm": 0.656442403793335, |
| "learning_rate": 4.855745365100539e-05, |
| "loss": 3.0817, |
| "step": 1270 |
| }, |
| { |
| "epoch": 13.634666666666666, |
| "grad_norm": 0.7731483578681946, |
| "learning_rate": 4.477922977405913e-05, |
| "loss": 3.1515, |
| "step": 1275 |
| }, |
| { |
| "epoch": 13.688, |
| "grad_norm": 0.6341891884803772, |
| "learning_rate": 4.115064682411607e-05, |
| "loss": 3.1462, |
| "step": 1280 |
| }, |
| { |
| "epoch": 13.741333333333333, |
| "grad_norm": 0.5872439742088318, |
| "learning_rate": 3.7672273239942934e-05, |
| "loss": 3.1376, |
| "step": 1285 |
| }, |
| { |
| "epoch": 13.794666666666666, |
| "grad_norm": 0.6876071691513062, |
| "learning_rate": 3.434465392912956e-05, |
| "loss": 3.1342, |
| "step": 1290 |
| }, |
| { |
| "epoch": 13.848, |
| "grad_norm": 0.5463366508483887, |
| "learning_rate": 3.1168310182725815e-05, |
| "loss": 3.1465, |
| "step": 1295 |
| }, |
| { |
| "epoch": 13.901333333333334, |
| "grad_norm": 0.49031180143356323, |
| "learning_rate": 2.8143739593578856e-05, |
| "loss": 3.0675, |
| "step": 1300 |
| }, |
| { |
| "epoch": 13.954666666666666, |
| "grad_norm": 0.5363944172859192, |
| "learning_rate": 2.5271415978382117e-05, |
| "loss": 3.0656, |
| "step": 1305 |
| }, |
| { |
| "epoch": 13.997333333333334, |
| "eval_loss": 3.7691831588745117, |
| "eval_runtime": 12.4823, |
| "eval_samples_per_second": 90.128, |
| "eval_steps_per_second": 15.061, |
| "step": 1309 |
| }, |
| { |
| "epoch": 14.010666666666667, |
| "grad_norm": 0.5036697387695312, |
| "learning_rate": 2.255178930344903e-05, |
| "loss": 3.4255, |
| "step": 1310 |
| }, |
| { |
| "epoch": 14.064, |
| "grad_norm": 0.6493708491325378, |
| "learning_rate": 1.998528561422297e-05, |
| "loss": 3.0921, |
| "step": 1315 |
| }, |
| { |
| "epoch": 14.117333333333333, |
| "grad_norm": 0.5409650206565857, |
| "learning_rate": 1.757230696853518e-05, |
| "loss": 3.074, |
| "step": 1320 |
| }, |
| { |
| "epoch": 14.170666666666667, |
| "grad_norm": 0.7467535734176636, |
| "learning_rate": 1.531323137361995e-05, |
| "loss": 3.0659, |
| "step": 1325 |
| }, |
| { |
| "epoch": 14.224, |
| "grad_norm": 1.0386552810668945, |
| "learning_rate": 1.3208412726897322e-05, |
| "loss": 3.1497, |
| "step": 1330 |
| }, |
| { |
| "epoch": 14.277333333333333, |
| "grad_norm": 0.49301984906196594, |
| "learning_rate": 1.1258180760533088e-05, |
| "loss": 3.0785, |
| "step": 1335 |
| }, |
| { |
| "epoch": 14.330666666666666, |
| "grad_norm": 1.8429055213928223, |
| "learning_rate": 9.462840989784672e-06, |
| "loss": 3.0583, |
| "step": 1340 |
| }, |
| { |
| "epoch": 14.384, |
| "grad_norm": 1.5353028774261475, |
| "learning_rate": 7.822674665139752e-06, |
| "loss": 3.0546, |
| "step": 1345 |
| }, |
| { |
| "epoch": 14.437333333333333, |
| "grad_norm": 0.3447898328304291, |
| "learning_rate": 6.337938728257053e-06, |
| "loss": 3.0634, |
| "step": 1350 |
| }, |
| { |
| "epoch": 14.490666666666666, |
| "grad_norm": 0.923072874546051, |
| "learning_rate": 5.008865771715221e-06, |
| "loss": 3.1333, |
| "step": 1355 |
| }, |
| { |
| "epoch": 14.544, |
| "grad_norm": 0.5001369714736938, |
| "learning_rate": 3.8356640025752896e-06, |
| "loss": 3.0982, |
| "step": 1360 |
| }, |
| { |
| "epoch": 14.597333333333333, |
| "grad_norm": 0.559633195400238, |
| "learning_rate": 2.8185172097641155e-06, |
| "loss": 3.0525, |
| "step": 1365 |
| }, |
| { |
| "epoch": 14.650666666666666, |
| "grad_norm": 0.49595069885253906, |
| "learning_rate": 1.957584735282847e-06, |
| "loss": 3.1459, |
| "step": 1370 |
| }, |
| { |
| "epoch": 14.704, |
| "grad_norm": 0.6536312103271484, |
| "learning_rate": 1.2530014492446729e-06, |
| "loss": 3.1156, |
| "step": 1375 |
| }, |
| { |
| "epoch": 14.757333333333333, |
| "grad_norm": 0.38376209139823914, |
| "learning_rate": 7.048777287472774e-07, |
| "loss": 3.0831, |
| "step": 1380 |
| }, |
| { |
| "epoch": 14.810666666666666, |
| "grad_norm": 0.5727828741073608, |
| "learning_rate": 3.132994405808942e-07, |
| "loss": 3.0888, |
| "step": 1385 |
| }, |
| { |
| "epoch": 14.864, |
| "grad_norm": 0.45092472434043884, |
| "learning_rate": 7.832792777739961e-08, |
| "loss": 3.1226, |
| "step": 1390 |
| }, |
| { |
| "epoch": 14.917333333333334, |
| "grad_norm": 0.4628413915634155, |
| "learning_rate": 0.0, |
| "loss": 3.0981, |
| "step": 1395 |
| }, |
| { |
| "epoch": 14.917333333333334, |
| "eval_loss": 3.767644166946411, |
| "eval_runtime": 12.5131, |
| "eval_samples_per_second": 89.906, |
| "eval_steps_per_second": 15.024, |
| "step": 1395 |
| }, |
| { |
| "epoch": 14.917333333333334, |
| "step": 1395, |
| "total_flos": 6.545011747156132e+17, |
| "train_loss": 4.23463837784251, |
| "train_runtime": 3346.972, |
| "train_samples_per_second": 20.159, |
| "train_steps_per_second": 0.417 |
| } |
| ], |
| "logging_steps": 5, |
| "max_steps": 1395, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 15, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": false, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 6.545011747156132e+17, |
| "train_batch_size": 4, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|