{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0000333333333333, "eval_steps": 500, "global_step": 30001, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0033333333333333335, "grad_norm": 2.432770013809204, "learning_rate": 4.950000000000001e-06, "loss": 4.4748, "step": 100 }, { "epoch": 0.006666666666666667, "grad_norm": 3.0658187866210938, "learning_rate": 9.950000000000001e-06, "loss": 4.5848, "step": 200 }, { "epoch": 0.01, "grad_norm": 3.668822765350342, "learning_rate": 1.4950000000000001e-05, "loss": 4.5434, "step": 300 }, { "epoch": 0.013333333333333334, "grad_norm": 3.464035749435425, "learning_rate": 1.995e-05, "loss": 4.5642, "step": 400 }, { "epoch": 0.016666666666666666, "grad_norm": 3.431352376937866, "learning_rate": 2.495e-05, "loss": 4.6208, "step": 500 }, { "epoch": 0.02, "grad_norm": 3.2728869915008545, "learning_rate": 2.995e-05, "loss": 4.5531, "step": 600 }, { "epoch": 0.023333333333333334, "grad_norm": 3.092519760131836, "learning_rate": 3.495e-05, "loss": 4.9349, "step": 700 }, { "epoch": 0.02666666666666667, "grad_norm": 3.0196480751037598, "learning_rate": 3.995e-05, "loss": 4.98, "step": 800 }, { "epoch": 0.03, "grad_norm": 3.531619071960449, "learning_rate": 4.495e-05, "loss": 4.963, "step": 900 }, { "epoch": 0.03333333333333333, "grad_norm": 3.0364348888397217, "learning_rate": 4.995e-05, "loss": 4.9439, "step": 1000 }, { "epoch": 0.03666666666666667, "grad_norm": 2.966171979904175, "learning_rate": 4.982931034482759e-05, "loss": 4.9424, "step": 1100 }, { "epoch": 0.04, "grad_norm": 2.858612060546875, "learning_rate": 4.9656896551724144e-05, "loss": 4.9295, "step": 1200 }, { "epoch": 0.043333333333333335, "grad_norm": 2.722503900527954, "learning_rate": 4.948448275862069e-05, "loss": 4.9062, "step": 1300 }, { "epoch": 0.04666666666666667, "grad_norm": 2.561314344406128, "learning_rate": 4.931206896551724e-05, "loss": 4.8918, "step": 1400 }, { "epoch": 0.05, "grad_norm": 3.596597671508789, "learning_rate": 4.91396551724138e-05, "loss": 4.9177, "step": 1500 }, { "epoch": 0.05333333333333334, "grad_norm": 2.5951080322265625, "learning_rate": 4.8967241379310346e-05, "loss": 4.8658, "step": 1600 }, { "epoch": 0.056666666666666664, "grad_norm": 2.546725034713745, "learning_rate": 4.87948275862069e-05, "loss": 4.847, "step": 1700 }, { "epoch": 0.06, "grad_norm": 2.793475866317749, "learning_rate": 4.862241379310345e-05, "loss": 4.8603, "step": 1800 }, { "epoch": 0.06333333333333334, "grad_norm": 2.6936521530151367, "learning_rate": 4.845e-05, "loss": 4.8574, "step": 1900 }, { "epoch": 0.06666666666666667, "grad_norm": 2.6505532264709473, "learning_rate": 4.8277586206896554e-05, "loss": 4.8192, "step": 2000 }, { "epoch": 0.07, "grad_norm": 2.7143611907958984, "learning_rate": 4.81051724137931e-05, "loss": 4.8301, "step": 2100 }, { "epoch": 0.07333333333333333, "grad_norm": 2.251673460006714, "learning_rate": 4.793275862068966e-05, "loss": 4.8221, "step": 2200 }, { "epoch": 0.07666666666666666, "grad_norm": 2.6628541946411133, "learning_rate": 4.776034482758621e-05, "loss": 4.8107, "step": 2300 }, { "epoch": 0.08, "grad_norm": 2.4569995403289795, "learning_rate": 4.758793103448276e-05, "loss": 4.794, "step": 2400 }, { "epoch": 0.08333333333333333, "grad_norm": 2.386894702911377, "learning_rate": 4.741551724137932e-05, "loss": 4.7992, "step": 2500 }, { "epoch": 0.08666666666666667, "grad_norm": 2.4557945728302, "learning_rate": 4.724310344827587e-05, "loss": 4.7774, "step": 2600 }, { "epoch": 0.09, "grad_norm": 2.6066713333129883, "learning_rate": 4.7070689655172415e-05, "loss": 4.7684, "step": 2700 }, { "epoch": 0.09333333333333334, "grad_norm": 2.1568965911865234, "learning_rate": 4.689827586206897e-05, "loss": 4.8058, "step": 2800 }, { "epoch": 0.09666666666666666, "grad_norm": 2.782592535018921, "learning_rate": 4.672586206896552e-05, "loss": 4.7507, "step": 2900 }, { "epoch": 0.1, "grad_norm": 2.0947823524475098, "learning_rate": 4.655344827586207e-05, "loss": 4.7529, "step": 3000 }, { "epoch": 0.10333333333333333, "grad_norm": 2.939363956451416, "learning_rate": 4.6381034482758624e-05, "loss": 4.7397, "step": 3100 }, { "epoch": 0.10666666666666667, "grad_norm": 2.1280272006988525, "learning_rate": 4.620862068965517e-05, "loss": 4.7205, "step": 3200 }, { "epoch": 0.11, "grad_norm": 2.5565991401672363, "learning_rate": 4.603620689655173e-05, "loss": 4.7345, "step": 3300 }, { "epoch": 0.11333333333333333, "grad_norm": 2.393437147140503, "learning_rate": 4.5863793103448277e-05, "loss": 4.7259, "step": 3400 }, { "epoch": 0.11666666666666667, "grad_norm": 2.3334264755249023, "learning_rate": 4.5691379310344825e-05, "loss": 4.7246, "step": 3500 }, { "epoch": 0.12, "grad_norm": 2.3572139739990234, "learning_rate": 4.551896551724138e-05, "loss": 4.7418, "step": 3600 }, { "epoch": 0.12333333333333334, "grad_norm": 2.216188907623291, "learning_rate": 4.534655172413793e-05, "loss": 4.7028, "step": 3700 }, { "epoch": 0.12666666666666668, "grad_norm": 2.218505859375, "learning_rate": 4.5174137931034485e-05, "loss": 4.7195, "step": 3800 }, { "epoch": 0.13, "grad_norm": 2.278543710708618, "learning_rate": 4.5001724137931034e-05, "loss": 4.713, "step": 3900 }, { "epoch": 0.13333333333333333, "grad_norm": 2.791719913482666, "learning_rate": 4.482931034482759e-05, "loss": 4.7183, "step": 4000 }, { "epoch": 0.13666666666666666, "grad_norm": 2.6032369136810303, "learning_rate": 4.4656896551724145e-05, "loss": 4.6735, "step": 4100 }, { "epoch": 0.14, "grad_norm": 2.133446216583252, "learning_rate": 4.448448275862069e-05, "loss": 4.7103, "step": 4200 }, { "epoch": 0.14333333333333334, "grad_norm": 2.0948398113250732, "learning_rate": 4.431206896551724e-05, "loss": 4.7108, "step": 4300 }, { "epoch": 0.14666666666666667, "grad_norm": 2.1138408184051514, "learning_rate": 4.41396551724138e-05, "loss": 4.7027, "step": 4400 }, { "epoch": 0.15, "grad_norm": 2.366734743118286, "learning_rate": 4.3967241379310346e-05, "loss": 4.6546, "step": 4500 }, { "epoch": 0.15333333333333332, "grad_norm": 2.615391254425049, "learning_rate": 4.37948275862069e-05, "loss": 4.6963, "step": 4600 }, { "epoch": 0.15666666666666668, "grad_norm": 2.0809595584869385, "learning_rate": 4.362241379310345e-05, "loss": 4.6004, "step": 4700 }, { "epoch": 0.16, "grad_norm": 2.1302947998046875, "learning_rate": 4.345e-05, "loss": 4.6918, "step": 4800 }, { "epoch": 0.16333333333333333, "grad_norm": 2.247417449951172, "learning_rate": 4.3277586206896555e-05, "loss": 4.6564, "step": 4900 }, { "epoch": 0.16666666666666666, "grad_norm": 2.05452561378479, "learning_rate": 4.31051724137931e-05, "loss": 4.6742, "step": 5000 }, { "epoch": 0.17, "grad_norm": 2.0982797145843506, "learning_rate": 4.293275862068966e-05, "loss": 4.6391, "step": 5100 }, { "epoch": 0.17333333333333334, "grad_norm": 2.3988752365112305, "learning_rate": 4.276034482758621e-05, "loss": 4.6858, "step": 5200 }, { "epoch": 0.17666666666666667, "grad_norm": 2.203742265701294, "learning_rate": 4.2587931034482756e-05, "loss": 4.6463, "step": 5300 }, { "epoch": 0.18, "grad_norm": 2.1824591159820557, "learning_rate": 4.241551724137931e-05, "loss": 4.6393, "step": 5400 }, { "epoch": 0.18333333333333332, "grad_norm": 2.5369467735290527, "learning_rate": 4.224310344827586e-05, "loss": 4.6091, "step": 5500 }, { "epoch": 0.18666666666666668, "grad_norm": 2.1592929363250732, "learning_rate": 4.2070689655172416e-05, "loss": 4.6441, "step": 5600 }, { "epoch": 0.19, "grad_norm": 2.350390672683716, "learning_rate": 4.189827586206897e-05, "loss": 4.604, "step": 5700 }, { "epoch": 0.19333333333333333, "grad_norm": 2.2912168502807617, "learning_rate": 4.172586206896552e-05, "loss": 4.6515, "step": 5800 }, { "epoch": 0.19666666666666666, "grad_norm": 2.186971664428711, "learning_rate": 4.1553448275862075e-05, "loss": 4.6237, "step": 5900 }, { "epoch": 0.2, "grad_norm": 2.28682804107666, "learning_rate": 4.1381034482758624e-05, "loss": 4.6443, "step": 6000 }, { "epoch": 0.20333333333333334, "grad_norm": 2.299591064453125, "learning_rate": 4.120862068965517e-05, "loss": 4.6224, "step": 6100 }, { "epoch": 0.20666666666666667, "grad_norm": 2.407121181488037, "learning_rate": 4.103620689655173e-05, "loss": 4.6194, "step": 6200 }, { "epoch": 0.21, "grad_norm": 2.0112767219543457, "learning_rate": 4.086379310344828e-05, "loss": 4.6089, "step": 6300 }, { "epoch": 0.21333333333333335, "grad_norm": 2.166243076324463, "learning_rate": 4.069137931034483e-05, "loss": 4.6085, "step": 6400 }, { "epoch": 0.21666666666666667, "grad_norm": 2.0218312740325928, "learning_rate": 4.051896551724138e-05, "loss": 4.6101, "step": 6500 }, { "epoch": 0.22, "grad_norm": 2.7403626441955566, "learning_rate": 4.034655172413793e-05, "loss": 4.6245, "step": 6600 }, { "epoch": 0.22333333333333333, "grad_norm": 2.2210118770599365, "learning_rate": 4.0174137931034485e-05, "loss": 4.5907, "step": 6700 }, { "epoch": 0.22666666666666666, "grad_norm": 2.169027090072632, "learning_rate": 4.0001724137931034e-05, "loss": 4.5893, "step": 6800 }, { "epoch": 0.23, "grad_norm": 2.4303510189056396, "learning_rate": 3.982931034482759e-05, "loss": 4.6107, "step": 6900 }, { "epoch": 0.23333333333333334, "grad_norm": 2.163461446762085, "learning_rate": 3.965689655172414e-05, "loss": 4.5775, "step": 7000 }, { "epoch": 0.23666666666666666, "grad_norm": 2.205695390701294, "learning_rate": 3.948448275862069e-05, "loss": 4.5853, "step": 7100 }, { "epoch": 0.24, "grad_norm": 2.0187084674835205, "learning_rate": 3.931206896551725e-05, "loss": 4.5793, "step": 7200 }, { "epoch": 0.24333333333333335, "grad_norm": 1.859401822090149, "learning_rate": 3.91396551724138e-05, "loss": 4.6034, "step": 7300 }, { "epoch": 0.24666666666666667, "grad_norm": 2.290074586868286, "learning_rate": 3.8967241379310347e-05, "loss": 4.5672, "step": 7400 }, { "epoch": 0.25, "grad_norm": 2.1642653942108154, "learning_rate": 3.87948275862069e-05, "loss": 4.5999, "step": 7500 }, { "epoch": 0.25333333333333335, "grad_norm": 2.244406223297119, "learning_rate": 3.862241379310345e-05, "loss": 4.5578, "step": 7600 }, { "epoch": 0.25666666666666665, "grad_norm": 1.9028890132904053, "learning_rate": 3.845e-05, "loss": 4.5886, "step": 7700 }, { "epoch": 0.26, "grad_norm": 2.019014835357666, "learning_rate": 3.8277586206896555e-05, "loss": 4.5244, "step": 7800 }, { "epoch": 0.2633333333333333, "grad_norm": 2.1580286026000977, "learning_rate": 3.8105172413793104e-05, "loss": 4.6004, "step": 7900 }, { "epoch": 0.26666666666666666, "grad_norm": 2.341559410095215, "learning_rate": 3.793275862068966e-05, "loss": 4.5605, "step": 8000 }, { "epoch": 0.27, "grad_norm": 2.279217481613159, "learning_rate": 3.776034482758621e-05, "loss": 4.5713, "step": 8100 }, { "epoch": 0.2733333333333333, "grad_norm": 1.8367992639541626, "learning_rate": 3.7587931034482757e-05, "loss": 4.5318, "step": 8200 }, { "epoch": 0.27666666666666667, "grad_norm": 2.3710546493530273, "learning_rate": 3.741724137931035e-05, "loss": 4.5687, "step": 8300 }, { "epoch": 0.28, "grad_norm": 2.3335001468658447, "learning_rate": 3.72448275862069e-05, "loss": 4.5419, "step": 8400 }, { "epoch": 0.2833333333333333, "grad_norm": 2.4355528354644775, "learning_rate": 3.707241379310345e-05, "loss": 4.5668, "step": 8500 }, { "epoch": 0.2866666666666667, "grad_norm": 2.0626087188720703, "learning_rate": 3.69e-05, "loss": 4.5458, "step": 8600 }, { "epoch": 0.29, "grad_norm": 2.086386203765869, "learning_rate": 3.672758620689655e-05, "loss": 4.5494, "step": 8700 }, { "epoch": 0.29333333333333333, "grad_norm": 2.0059709548950195, "learning_rate": 3.655517241379311e-05, "loss": 4.5051, "step": 8800 }, { "epoch": 0.2966666666666667, "grad_norm": 2.086092233657837, "learning_rate": 3.6382758620689655e-05, "loss": 4.5408, "step": 8900 }, { "epoch": 0.3, "grad_norm": 2.6836307048797607, "learning_rate": 3.6210344827586204e-05, "loss": 4.5253, "step": 9000 }, { "epoch": 0.30333333333333334, "grad_norm": 1.8528039455413818, "learning_rate": 3.603793103448276e-05, "loss": 4.5349, "step": 9100 }, { "epoch": 0.30666666666666664, "grad_norm": 2.2291455268859863, "learning_rate": 3.586551724137931e-05, "loss": 4.5132, "step": 9200 }, { "epoch": 0.31, "grad_norm": 1.973479151725769, "learning_rate": 3.5693103448275864e-05, "loss": 4.5369, "step": 9300 }, { "epoch": 0.31333333333333335, "grad_norm": 2.169776201248169, "learning_rate": 3.552068965517242e-05, "loss": 4.5442, "step": 9400 }, { "epoch": 0.31666666666666665, "grad_norm": 2.312795877456665, "learning_rate": 3.534827586206897e-05, "loss": 4.548, "step": 9500 }, { "epoch": 0.32, "grad_norm": 1.946328043937683, "learning_rate": 3.517586206896552e-05, "loss": 4.512, "step": 9600 }, { "epoch": 0.3233333333333333, "grad_norm": 2.379603147506714, "learning_rate": 3.500344827586207e-05, "loss": 4.5191, "step": 9700 }, { "epoch": 0.32666666666666666, "grad_norm": 2.1291146278381348, "learning_rate": 3.483103448275862e-05, "loss": 4.5521, "step": 9800 }, { "epoch": 0.33, "grad_norm": 2.242424488067627, "learning_rate": 3.4658620689655176e-05, "loss": 4.4897, "step": 9900 }, { "epoch": 0.3333333333333333, "grad_norm": 2.0109705924987793, "learning_rate": 3.448793103448276e-05, "loss": 4.5254, "step": 10000 }, { "epoch": 0.33666666666666667, "grad_norm": 2.0069398880004883, "learning_rate": 3.431551724137931e-05, "loss": 4.4718, "step": 10100 }, { "epoch": 0.34, "grad_norm": 2.110619306564331, "learning_rate": 3.414310344827587e-05, "loss": 4.5204, "step": 10200 }, { "epoch": 0.3433333333333333, "grad_norm": 2.287642478942871, "learning_rate": 3.3970689655172415e-05, "loss": 4.5132, "step": 10300 }, { "epoch": 0.3466666666666667, "grad_norm": 2.430785655975342, "learning_rate": 3.379827586206897e-05, "loss": 4.5419, "step": 10400 }, { "epoch": 0.35, "grad_norm": 2.0009684562683105, "learning_rate": 3.362586206896552e-05, "loss": 4.4966, "step": 10500 }, { "epoch": 0.35333333333333333, "grad_norm": 2.163966417312622, "learning_rate": 3.345344827586207e-05, "loss": 4.5212, "step": 10600 }, { "epoch": 0.3566666666666667, "grad_norm": 2.0159249305725098, "learning_rate": 3.3281034482758624e-05, "loss": 4.4934, "step": 10700 }, { "epoch": 0.36, "grad_norm": 2.01526141166687, "learning_rate": 3.310862068965517e-05, "loss": 4.5503, "step": 10800 }, { "epoch": 0.36333333333333334, "grad_norm": 2.336897850036621, "learning_rate": 3.293620689655173e-05, "loss": 4.4682, "step": 10900 }, { "epoch": 0.36666666666666664, "grad_norm": 2.1598005294799805, "learning_rate": 3.276379310344828e-05, "loss": 4.5306, "step": 11000 }, { "epoch": 0.37, "grad_norm": 2.5167276859283447, "learning_rate": 3.2591379310344825e-05, "loss": 4.4721, "step": 11100 }, { "epoch": 0.37333333333333335, "grad_norm": 1.98994779586792, "learning_rate": 3.241896551724138e-05, "loss": 4.4932, "step": 11200 }, { "epoch": 0.37666666666666665, "grad_norm": 2.22099232673645, "learning_rate": 3.224655172413793e-05, "loss": 4.475, "step": 11300 }, { "epoch": 0.38, "grad_norm": 1.780299186706543, "learning_rate": 3.2074137931034485e-05, "loss": 4.5303, "step": 11400 }, { "epoch": 0.38333333333333336, "grad_norm": 2.1039958000183105, "learning_rate": 3.190172413793104e-05, "loss": 4.4876, "step": 11500 }, { "epoch": 0.38666666666666666, "grad_norm": 2.0175621509552, "learning_rate": 3.172931034482759e-05, "loss": 4.5166, "step": 11600 }, { "epoch": 0.39, "grad_norm": 2.2640490531921387, "learning_rate": 3.155689655172414e-05, "loss": 4.4593, "step": 11700 }, { "epoch": 0.3933333333333333, "grad_norm": 2.259965181350708, "learning_rate": 3.138448275862069e-05, "loss": 4.5223, "step": 11800 }, { "epoch": 0.39666666666666667, "grad_norm": 2.384817600250244, "learning_rate": 3.121206896551724e-05, "loss": 4.493, "step": 11900 }, { "epoch": 0.4, "grad_norm": 1.9847548007965088, "learning_rate": 3.10396551724138e-05, "loss": 4.4944, "step": 12000 }, { "epoch": 0.4033333333333333, "grad_norm": 2.0270016193389893, "learning_rate": 3.0867241379310346e-05, "loss": 4.4925, "step": 12100 }, { "epoch": 0.4066666666666667, "grad_norm": 2.279428482055664, "learning_rate": 3.069655172413793e-05, "loss": 4.4995, "step": 12200 }, { "epoch": 0.41, "grad_norm": 2.1263952255249023, "learning_rate": 3.052413793103449e-05, "loss": 4.4687, "step": 12300 }, { "epoch": 0.41333333333333333, "grad_norm": 2.1277477741241455, "learning_rate": 3.0351724137931037e-05, "loss": 4.4833, "step": 12400 }, { "epoch": 0.4166666666666667, "grad_norm": 1.9847360849380493, "learning_rate": 3.017931034482759e-05, "loss": 4.4832, "step": 12500 }, { "epoch": 0.42, "grad_norm": 1.7778632640838623, "learning_rate": 3.000689655172414e-05, "loss": 4.4682, "step": 12600 }, { "epoch": 0.42333333333333334, "grad_norm": 2.1409926414489746, "learning_rate": 2.983448275862069e-05, "loss": 4.5006, "step": 12700 }, { "epoch": 0.4266666666666667, "grad_norm": 2.5149056911468506, "learning_rate": 2.966206896551724e-05, "loss": 4.4466, "step": 12800 }, { "epoch": 0.43, "grad_norm": 2.458773612976074, "learning_rate": 2.9489655172413794e-05, "loss": 4.4996, "step": 12900 }, { "epoch": 0.43333333333333335, "grad_norm": 1.972216248512268, "learning_rate": 2.9317241379310346e-05, "loss": 4.4611, "step": 13000 }, { "epoch": 0.43666666666666665, "grad_norm": 2.464979887008667, "learning_rate": 2.9144827586206898e-05, "loss": 4.5022, "step": 13100 }, { "epoch": 0.44, "grad_norm": 2.4846181869506836, "learning_rate": 2.8972413793103447e-05, "loss": 4.4629, "step": 13200 }, { "epoch": 0.44333333333333336, "grad_norm": 2.5245821475982666, "learning_rate": 2.88e-05, "loss": 4.4802, "step": 13300 }, { "epoch": 0.44666666666666666, "grad_norm": 2.218487024307251, "learning_rate": 2.862758620689655e-05, "loss": 4.4598, "step": 13400 }, { "epoch": 0.45, "grad_norm": 1.7457364797592163, "learning_rate": 2.8455172413793106e-05, "loss": 4.487, "step": 13500 }, { "epoch": 0.4533333333333333, "grad_norm": 2.262539863586426, "learning_rate": 2.828275862068966e-05, "loss": 4.4315, "step": 13600 }, { "epoch": 0.45666666666666667, "grad_norm": 2.005768299102783, "learning_rate": 2.811034482758621e-05, "loss": 4.4736, "step": 13700 }, { "epoch": 0.46, "grad_norm": 1.9539450407028198, "learning_rate": 2.7937931034482763e-05, "loss": 4.4243, "step": 13800 }, { "epoch": 0.4633333333333333, "grad_norm": 2.2052249908447266, "learning_rate": 2.7765517241379315e-05, "loss": 4.4758, "step": 13900 }, { "epoch": 0.4666666666666667, "grad_norm": 2.210599184036255, "learning_rate": 2.7593103448275863e-05, "loss": 4.4682, "step": 14000 }, { "epoch": 0.47, "grad_norm": 1.977975845336914, "learning_rate": 2.7420689655172415e-05, "loss": 4.4722, "step": 14100 }, { "epoch": 0.47333333333333333, "grad_norm": 2.3111207485198975, "learning_rate": 2.7248275862068968e-05, "loss": 4.4341, "step": 14200 }, { "epoch": 0.4766666666666667, "grad_norm": 2.1010982990264893, "learning_rate": 2.707586206896552e-05, "loss": 4.4488, "step": 14300 }, { "epoch": 0.48, "grad_norm": 2.0630757808685303, "learning_rate": 2.6903448275862068e-05, "loss": 4.4477, "step": 14400 }, { "epoch": 0.48333333333333334, "grad_norm": 1.975195288658142, "learning_rate": 2.673103448275862e-05, "loss": 4.4461, "step": 14500 }, { "epoch": 0.4866666666666667, "grad_norm": 2.149717330932617, "learning_rate": 2.6558620689655172e-05, "loss": 4.46, "step": 14600 }, { "epoch": 0.49, "grad_norm": 2.3318910598754883, "learning_rate": 2.638793103448276e-05, "loss": 4.433, "step": 14700 }, { "epoch": 0.49333333333333335, "grad_norm": 2.138505220413208, "learning_rate": 2.621551724137931e-05, "loss": 4.4408, "step": 14800 }, { "epoch": 0.49666666666666665, "grad_norm": 1.8805365562438965, "learning_rate": 2.6043103448275863e-05, "loss": 4.4495, "step": 14900 }, { "epoch": 0.5, "grad_norm": 2.2338950634002686, "learning_rate": 2.5870689655172415e-05, "loss": 4.4754, "step": 15000 }, { "epoch": 0.5033333333333333, "grad_norm": 2.114830255508423, "learning_rate": 2.5698275862068967e-05, "loss": 4.4402, "step": 15100 }, { "epoch": 0.5066666666666667, "grad_norm": 2.1137115955352783, "learning_rate": 2.5525862068965516e-05, "loss": 4.4754, "step": 15200 }, { "epoch": 0.51, "grad_norm": 2.3145370483398438, "learning_rate": 2.5353448275862068e-05, "loss": 4.4133, "step": 15300 }, { "epoch": 0.5133333333333333, "grad_norm": 1.9466785192489624, "learning_rate": 2.518103448275862e-05, "loss": 4.4558, "step": 15400 }, { "epoch": 0.5166666666666667, "grad_norm": 2.052103042602539, "learning_rate": 2.5008620689655172e-05, "loss": 4.4199, "step": 15500 }, { "epoch": 0.52, "grad_norm": 2.0328545570373535, "learning_rate": 2.4836206896551724e-05, "loss": 4.4633, "step": 15600 }, { "epoch": 0.5233333333333333, "grad_norm": 1.8531575202941895, "learning_rate": 2.4665517241379314e-05, "loss": 4.4161, "step": 15700 }, { "epoch": 0.5266666666666666, "grad_norm": 2.1167118549346924, "learning_rate": 2.4493103448275866e-05, "loss": 4.4631, "step": 15800 }, { "epoch": 0.53, "grad_norm": 2.288839101791382, "learning_rate": 2.4320689655172415e-05, "loss": 4.4275, "step": 15900 }, { "epoch": 0.5333333333333333, "grad_norm": 2.267571449279785, "learning_rate": 2.4148275862068967e-05, "loss": 4.4367, "step": 16000 }, { "epoch": 0.5366666666666666, "grad_norm": 2.238534927368164, "learning_rate": 2.397586206896552e-05, "loss": 4.4161, "step": 16100 }, { "epoch": 0.54, "grad_norm": 1.891422986984253, "learning_rate": 2.380344827586207e-05, "loss": 4.4454, "step": 16200 }, { "epoch": 0.5433333333333333, "grad_norm": 2.3173861503601074, "learning_rate": 2.363103448275862e-05, "loss": 4.4087, "step": 16300 }, { "epoch": 0.5466666666666666, "grad_norm": 1.741228461265564, "learning_rate": 2.345862068965517e-05, "loss": 4.4441, "step": 16400 }, { "epoch": 0.55, "grad_norm": 2.76397442817688, "learning_rate": 2.3286206896551727e-05, "loss": 4.4192, "step": 16500 }, { "epoch": 0.5533333333333333, "grad_norm": 2.1828739643096924, "learning_rate": 2.311379310344828e-05, "loss": 4.4073, "step": 16600 }, { "epoch": 0.5566666666666666, "grad_norm": 1.968559741973877, "learning_rate": 2.2941379310344828e-05, "loss": 4.4374, "step": 16700 }, { "epoch": 0.56, "grad_norm": 2.170126438140869, "learning_rate": 2.276896551724138e-05, "loss": 4.4077, "step": 16800 }, { "epoch": 0.5633333333333334, "grad_norm": 2.200995922088623, "learning_rate": 2.2596551724137932e-05, "loss": 4.4115, "step": 16900 }, { "epoch": 0.5666666666666667, "grad_norm": 2.0842859745025635, "learning_rate": 2.2424137931034484e-05, "loss": 4.3951, "step": 17000 }, { "epoch": 0.57, "grad_norm": 2.1672942638397217, "learning_rate": 2.2251724137931036e-05, "loss": 4.4495, "step": 17100 }, { "epoch": 0.5733333333333334, "grad_norm": 2.1524171829223633, "learning_rate": 2.2079310344827585e-05, "loss": 4.4148, "step": 17200 }, { "epoch": 0.5766666666666667, "grad_norm": 2.0464670658111572, "learning_rate": 2.190689655172414e-05, "loss": 4.4217, "step": 17300 }, { "epoch": 0.58, "grad_norm": 2.345148801803589, "learning_rate": 2.1734482758620693e-05, "loss": 4.3839, "step": 17400 }, { "epoch": 0.5833333333333334, "grad_norm": 2.089466094970703, "learning_rate": 2.1562068965517245e-05, "loss": 4.4422, "step": 17500 }, { "epoch": 0.5866666666666667, "grad_norm": 2.0062997341156006, "learning_rate": 2.1389655172413793e-05, "loss": 4.383, "step": 17600 }, { "epoch": 0.59, "grad_norm": 1.9194973707199097, "learning_rate": 2.1217241379310345e-05, "loss": 4.4357, "step": 17700 }, { "epoch": 0.5933333333333334, "grad_norm": 2.143671989440918, "learning_rate": 2.1044827586206898e-05, "loss": 4.4016, "step": 17800 }, { "epoch": 0.5966666666666667, "grad_norm": 2.0662789344787598, "learning_rate": 2.087241379310345e-05, "loss": 4.4194, "step": 17900 }, { "epoch": 0.6, "grad_norm": 2.1098804473876953, "learning_rate": 2.07e-05, "loss": 4.3904, "step": 18000 }, { "epoch": 0.6033333333333334, "grad_norm": 2.246016502380371, "learning_rate": 2.0527586206896554e-05, "loss": 4.407, "step": 18100 }, { "epoch": 0.6066666666666667, "grad_norm": 2.139479637145996, "learning_rate": 2.0355172413793106e-05, "loss": 4.4069, "step": 18200 }, { "epoch": 0.61, "grad_norm": 2.2395882606506348, "learning_rate": 2.0182758620689658e-05, "loss": 4.4317, "step": 18300 }, { "epoch": 0.6133333333333333, "grad_norm": 2.2215514183044434, "learning_rate": 2.0010344827586207e-05, "loss": 4.4087, "step": 18400 }, { "epoch": 0.6166666666666667, "grad_norm": 2.2115671634674072, "learning_rate": 1.983793103448276e-05, "loss": 4.4261, "step": 18500 }, { "epoch": 0.62, "grad_norm": 2.1851704120635986, "learning_rate": 1.966551724137931e-05, "loss": 4.428, "step": 18600 }, { "epoch": 0.6233333333333333, "grad_norm": 2.017883539199829, "learning_rate": 1.9493103448275863e-05, "loss": 4.3821, "step": 18700 }, { "epoch": 0.6266666666666667, "grad_norm": 1.912879228591919, "learning_rate": 1.9320689655172415e-05, "loss": 4.4048, "step": 18800 }, { "epoch": 0.63, "grad_norm": 2.136014699935913, "learning_rate": 1.9148275862068964e-05, "loss": 4.3849, "step": 18900 }, { "epoch": 0.6333333333333333, "grad_norm": 1.9832309484481812, "learning_rate": 1.897586206896552e-05, "loss": 4.4062, "step": 19000 }, { "epoch": 0.6366666666666667, "grad_norm": 1.8475227355957031, "learning_rate": 1.880344827586207e-05, "loss": 4.3949, "step": 19100 }, { "epoch": 0.64, "grad_norm": 2.476745367050171, "learning_rate": 1.8631034482758623e-05, "loss": 4.416, "step": 19200 }, { "epoch": 0.6433333333333333, "grad_norm": 2.201724052429199, "learning_rate": 1.8458620689655172e-05, "loss": 4.3844, "step": 19300 }, { "epoch": 0.6466666666666666, "grad_norm": 1.9169152975082397, "learning_rate": 1.8286206896551724e-05, "loss": 4.4169, "step": 19400 }, { "epoch": 0.65, "grad_norm": 1.8896160125732422, "learning_rate": 1.8113793103448276e-05, "loss": 4.4032, "step": 19500 }, { "epoch": 0.6533333333333333, "grad_norm": 1.9147884845733643, "learning_rate": 1.794137931034483e-05, "loss": 4.4098, "step": 19600 }, { "epoch": 0.6566666666666666, "grad_norm": 2.461538076400757, "learning_rate": 1.776896551724138e-05, "loss": 4.4274, "step": 19700 }, { "epoch": 0.66, "grad_norm": 2.043869733810425, "learning_rate": 1.7596551724137933e-05, "loss": 4.3963, "step": 19800 }, { "epoch": 0.6633333333333333, "grad_norm": 2.003953218460083, "learning_rate": 1.7424137931034485e-05, "loss": 4.4025, "step": 19900 }, { "epoch": 0.6666666666666666, "grad_norm": 2.514071464538574, "learning_rate": 1.7251724137931037e-05, "loss": 4.3973, "step": 20000 }, { "epoch": 0.67, "grad_norm": 2.3290865421295166, "learning_rate": 1.7079310344827585e-05, "loss": 4.3999, "step": 20100 }, { "epoch": 0.6733333333333333, "grad_norm": 1.8519926071166992, "learning_rate": 1.6906896551724138e-05, "loss": 4.4046, "step": 20200 }, { "epoch": 0.6766666666666666, "grad_norm": 2.53118896484375, "learning_rate": 1.673448275862069e-05, "loss": 4.3959, "step": 20300 }, { "epoch": 0.68, "grad_norm": 1.9727709293365479, "learning_rate": 1.6562068965517242e-05, "loss": 4.4176, "step": 20400 }, { "epoch": 0.6833333333333333, "grad_norm": 1.9265756607055664, "learning_rate": 1.6389655172413794e-05, "loss": 4.3849, "step": 20500 }, { "epoch": 0.6866666666666666, "grad_norm": 2.2798376083374023, "learning_rate": 1.6217241379310346e-05, "loss": 4.4101, "step": 20600 }, { "epoch": 0.69, "grad_norm": 2.1076509952545166, "learning_rate": 1.6044827586206898e-05, "loss": 4.3888, "step": 20700 }, { "epoch": 0.6933333333333334, "grad_norm": 2.338351011276245, "learning_rate": 1.587241379310345e-05, "loss": 4.3772, "step": 20800 }, { "epoch": 0.6966666666666667, "grad_norm": 2.0186917781829834, "learning_rate": 1.5700000000000002e-05, "loss": 4.4018, "step": 20900 }, { "epoch": 0.7, "grad_norm": 2.1765296459198, "learning_rate": 1.552758620689655e-05, "loss": 4.4103, "step": 21000 }, { "epoch": 0.7033333333333334, "grad_norm": 2.109718084335327, "learning_rate": 1.5355172413793103e-05, "loss": 4.3969, "step": 21100 }, { "epoch": 0.7066666666666667, "grad_norm": 2.078711748123169, "learning_rate": 1.5182758620689655e-05, "loss": 4.4051, "step": 21200 }, { "epoch": 0.71, "grad_norm": 2.2366254329681396, "learning_rate": 1.5010344827586207e-05, "loss": 4.377, "step": 21300 }, { "epoch": 0.7133333333333334, "grad_norm": 2.2516391277313232, "learning_rate": 1.4837931034482761e-05, "loss": 4.4015, "step": 21400 }, { "epoch": 0.7166666666666667, "grad_norm": 2.1501176357269287, "learning_rate": 1.4665517241379311e-05, "loss": 4.3737, "step": 21500 }, { "epoch": 0.72, "grad_norm": 1.8726160526275635, "learning_rate": 1.4493103448275863e-05, "loss": 4.3776, "step": 21600 }, { "epoch": 0.7233333333333334, "grad_norm": 2.260007381439209, "learning_rate": 1.4320689655172414e-05, "loss": 4.3961, "step": 21700 }, { "epoch": 0.7266666666666667, "grad_norm": 1.9862884283065796, "learning_rate": 1.415e-05, "loss": 4.3974, "step": 21800 }, { "epoch": 0.73, "grad_norm": 2.1817476749420166, "learning_rate": 1.3977586206896554e-05, "loss": 4.4077, "step": 21900 }, { "epoch": 0.7333333333333333, "grad_norm": 2.2883946895599365, "learning_rate": 1.3805172413793104e-05, "loss": 4.3457, "step": 22000 }, { "epoch": 0.7366666666666667, "grad_norm": 2.1526737213134766, "learning_rate": 1.3632758620689656e-05, "loss": 4.4059, "step": 22100 }, { "epoch": 0.74, "grad_norm": 2.2343320846557617, "learning_rate": 1.3460344827586208e-05, "loss": 4.3799, "step": 22200 }, { "epoch": 0.7433333333333333, "grad_norm": 2.1139650344848633, "learning_rate": 1.3289655172413793e-05, "loss": 4.3759, "step": 22300 }, { "epoch": 0.7466666666666667, "grad_norm": 2.2490551471710205, "learning_rate": 1.3117241379310347e-05, "loss": 4.3726, "step": 22400 }, { "epoch": 0.75, "grad_norm": 2.03560209274292, "learning_rate": 1.2944827586206897e-05, "loss": 4.3795, "step": 22500 }, { "epoch": 0.7533333333333333, "grad_norm": 2.175682783126831, "learning_rate": 1.277241379310345e-05, "loss": 4.3911, "step": 22600 }, { "epoch": 0.7566666666666667, "grad_norm": 2.171412467956543, "learning_rate": 1.2600000000000001e-05, "loss": 4.3755, "step": 22700 }, { "epoch": 0.76, "grad_norm": 2.1491260528564453, "learning_rate": 1.2427586206896552e-05, "loss": 4.3995, "step": 22800 }, { "epoch": 0.7633333333333333, "grad_norm": 2.0756146907806396, "learning_rate": 1.2255172413793104e-05, "loss": 4.3824, "step": 22900 }, { "epoch": 0.7666666666666667, "grad_norm": 1.9129120111465454, "learning_rate": 1.2082758620689656e-05, "loss": 4.379, "step": 23000 }, { "epoch": 0.77, "grad_norm": 2.1584272384643555, "learning_rate": 1.1910344827586208e-05, "loss": 4.393, "step": 23100 }, { "epoch": 0.7733333333333333, "grad_norm": 2.1815624237060547, "learning_rate": 1.1737931034482758e-05, "loss": 4.3407, "step": 23200 }, { "epoch": 0.7766666666666666, "grad_norm": 2.2393853664398193, "learning_rate": 1.156551724137931e-05, "loss": 4.3876, "step": 23300 }, { "epoch": 0.78, "grad_norm": 2.191389560699463, "learning_rate": 1.1393103448275863e-05, "loss": 4.3888, "step": 23400 }, { "epoch": 0.7833333333333333, "grad_norm": 1.861325740814209, "learning_rate": 1.1220689655172415e-05, "loss": 4.3659, "step": 23500 }, { "epoch": 0.7866666666666666, "grad_norm": 2.1595823764801025, "learning_rate": 1.1048275862068965e-05, "loss": 4.374, "step": 23600 }, { "epoch": 0.79, "grad_norm": 2.048743963241577, "learning_rate": 1.0875862068965517e-05, "loss": 4.3554, "step": 23700 }, { "epoch": 0.7933333333333333, "grad_norm": 1.8800294399261475, "learning_rate": 1.070344827586207e-05, "loss": 4.3815, "step": 23800 }, { "epoch": 0.7966666666666666, "grad_norm": 2.2559168338775635, "learning_rate": 1.0531034482758621e-05, "loss": 4.3809, "step": 23900 }, { "epoch": 0.8, "grad_norm": 2.2554898262023926, "learning_rate": 1.0358620689655173e-05, "loss": 4.3688, "step": 24000 }, { "epoch": 0.8033333333333333, "grad_norm": 2.4968557357788086, "learning_rate": 1.0186206896551724e-05, "loss": 4.3834, "step": 24100 }, { "epoch": 0.8066666666666666, "grad_norm": 2.2546260356903076, "learning_rate": 1.0013793103448278e-05, "loss": 4.3671, "step": 24200 }, { "epoch": 0.81, "grad_norm": 2.0959572792053223, "learning_rate": 9.841379310344828e-06, "loss": 4.4036, "step": 24300 }, { "epoch": 0.8133333333333334, "grad_norm": 2.429842472076416, "learning_rate": 9.66896551724138e-06, "loss": 4.3778, "step": 24400 }, { "epoch": 0.8166666666666667, "grad_norm": 1.9144500494003296, "learning_rate": 9.49655172413793e-06, "loss": 4.3597, "step": 24500 }, { "epoch": 0.82, "grad_norm": 2.014716863632202, "learning_rate": 9.324137931034484e-06, "loss": 4.3398, "step": 24600 }, { "epoch": 0.8233333333333334, "grad_norm": 2.0111021995544434, "learning_rate": 9.151724137931035e-06, "loss": 4.3688, "step": 24700 }, { "epoch": 0.8266666666666667, "grad_norm": 2.206125259399414, "learning_rate": 8.979310344827587e-06, "loss": 4.4069, "step": 24800 }, { "epoch": 0.83, "grad_norm": 1.9322938919067383, "learning_rate": 8.806896551724137e-06, "loss": 4.3585, "step": 24900 }, { "epoch": 0.8333333333333334, "grad_norm": 2.382385492324829, "learning_rate": 8.634482758620691e-06, "loss": 4.379, "step": 25000 }, { "epoch": 0.8366666666666667, "grad_norm": 2.0957460403442383, "learning_rate": 8.462068965517241e-06, "loss": 4.3633, "step": 25100 }, { "epoch": 0.84, "grad_norm": 2.191102981567383, "learning_rate": 8.289655172413793e-06, "loss": 4.3723, "step": 25200 }, { "epoch": 0.8433333333333334, "grad_norm": 2.186511993408203, "learning_rate": 8.117241379310346e-06, "loss": 4.396, "step": 25300 }, { "epoch": 0.8466666666666667, "grad_norm": 2.2075576782226562, "learning_rate": 7.944827586206898e-06, "loss": 4.3534, "step": 25400 }, { "epoch": 0.85, "grad_norm": 2.1940252780914307, "learning_rate": 7.772413793103448e-06, "loss": 4.3564, "step": 25500 }, { "epoch": 0.8533333333333334, "grad_norm": 1.975804090499878, "learning_rate": 7.6e-06, "loss": 4.3497, "step": 25600 }, { "epoch": 0.8566666666666667, "grad_norm": 2.2161664962768555, "learning_rate": 7.427586206896551e-06, "loss": 4.3383, "step": 25700 }, { "epoch": 0.86, "grad_norm": 2.422048807144165, "learning_rate": 7.255172413793104e-06, "loss": 4.381, "step": 25800 }, { "epoch": 0.8633333333333333, "grad_norm": 2.26328444480896, "learning_rate": 7.0827586206896555e-06, "loss": 4.337, "step": 25900 }, { "epoch": 0.8666666666666667, "grad_norm": 2.0234344005584717, "learning_rate": 6.912068965517242e-06, "loss": 4.3614, "step": 26000 }, { "epoch": 0.87, "grad_norm": 2.1131584644317627, "learning_rate": 6.739655172413793e-06, "loss": 4.3512, "step": 26100 }, { "epoch": 0.8733333333333333, "grad_norm": 2.498945713043213, "learning_rate": 6.567241379310344e-06, "loss": 4.3559, "step": 26200 }, { "epoch": 0.8766666666666667, "grad_norm": 2.271238327026367, "learning_rate": 6.394827586206897e-06, "loss": 4.3568, "step": 26300 }, { "epoch": 0.88, "grad_norm": 2.2349765300750732, "learning_rate": 6.2224137931034484e-06, "loss": 4.3303, "step": 26400 }, { "epoch": 0.8833333333333333, "grad_norm": 2.2044858932495117, "learning_rate": 6.0500000000000005e-06, "loss": 4.3573, "step": 26500 }, { "epoch": 0.8866666666666667, "grad_norm": 2.143218994140625, "learning_rate": 5.877586206896552e-06, "loss": 4.3548, "step": 26600 }, { "epoch": 0.89, "grad_norm": 2.3432939052581787, "learning_rate": 5.705172413793104e-06, "loss": 4.3687, "step": 26700 }, { "epoch": 0.8933333333333333, "grad_norm": 1.8604556322097778, "learning_rate": 5.532758620689656e-06, "loss": 4.3866, "step": 26800 }, { "epoch": 0.8966666666666666, "grad_norm": 2.41178560256958, "learning_rate": 5.360344827586207e-06, "loss": 4.3309, "step": 26900 }, { "epoch": 0.9, "grad_norm": 2.5105397701263428, "learning_rate": 5.187931034482759e-06, "loss": 4.3829, "step": 27000 }, { "epoch": 0.9033333333333333, "grad_norm": 2.303903102874756, "learning_rate": 5.0155172413793105e-06, "loss": 4.3343, "step": 27100 }, { "epoch": 0.9066666666666666, "grad_norm": 2.1825873851776123, "learning_rate": 4.843103448275863e-06, "loss": 4.3467, "step": 27200 }, { "epoch": 0.91, "grad_norm": 2.1242332458496094, "learning_rate": 4.670689655172414e-06, "loss": 4.3591, "step": 27300 }, { "epoch": 0.9133333333333333, "grad_norm": 2.355365037918091, "learning_rate": 4.498275862068966e-06, "loss": 4.3175, "step": 27400 }, { "epoch": 0.9166666666666666, "grad_norm": 2.075387954711914, "learning_rate": 4.325862068965517e-06, "loss": 4.3861, "step": 27500 }, { "epoch": 0.92, "grad_norm": 2.1146600246429443, "learning_rate": 4.153448275862069e-06, "loss": 4.355, "step": 27600 }, { "epoch": 0.9233333333333333, "grad_norm": 1.9889869689941406, "learning_rate": 3.9810344827586205e-06, "loss": 4.3627, "step": 27700 }, { "epoch": 0.9266666666666666, "grad_norm": 2.166405200958252, "learning_rate": 3.8086206896551726e-06, "loss": 4.3459, "step": 27800 }, { "epoch": 0.93, "grad_norm": 2.054823160171509, "learning_rate": 3.6362068965517243e-06, "loss": 4.3174, "step": 27900 }, { "epoch": 0.9333333333333333, "grad_norm": 2.1031033992767334, "learning_rate": 3.4637931034482764e-06, "loss": 4.358, "step": 28000 }, { "epoch": 0.9366666666666666, "grad_norm": 2.0477893352508545, "learning_rate": 3.2913793103448276e-06, "loss": 4.341, "step": 28100 }, { "epoch": 0.94, "grad_norm": 2.4143428802490234, "learning_rate": 3.1189655172413793e-06, "loss": 4.355, "step": 28200 }, { "epoch": 0.9433333333333334, "grad_norm": 1.8853615522384644, "learning_rate": 2.946551724137931e-06, "loss": 4.3365, "step": 28300 }, { "epoch": 0.9466666666666667, "grad_norm": 2.3704171180725098, "learning_rate": 2.7741379310344826e-06, "loss": 4.3356, "step": 28400 }, { "epoch": 0.95, "grad_norm": 2.3981566429138184, "learning_rate": 2.6017241379310343e-06, "loss": 4.3553, "step": 28500 }, { "epoch": 0.9533333333333334, "grad_norm": 2.259207010269165, "learning_rate": 2.4310344827586205e-06, "loss": 4.3363, "step": 28600 }, { "epoch": 0.9566666666666667, "grad_norm": 2.0507473945617676, "learning_rate": 2.258620689655172e-06, "loss": 4.3574, "step": 28700 }, { "epoch": 0.96, "grad_norm": 2.1110222339630127, "learning_rate": 2.0862068965517243e-06, "loss": 4.3434, "step": 28800 }, { "epoch": 0.9633333333333334, "grad_norm": 2.7897815704345703, "learning_rate": 1.913793103448276e-06, "loss": 4.3536, "step": 28900 }, { "epoch": 0.9666666666666667, "grad_norm": 2.439835548400879, "learning_rate": 1.7413793103448276e-06, "loss": 4.353, "step": 29000 }, { "epoch": 0.97, "grad_norm": 2.11780047416687, "learning_rate": 1.5689655172413793e-06, "loss": 4.3291, "step": 29100 }, { "epoch": 0.9733333333333334, "grad_norm": 2.232104539871216, "learning_rate": 1.3965517241379312e-06, "loss": 4.3563, "step": 29200 }, { "epoch": 0.9766666666666667, "grad_norm": 2.321014404296875, "learning_rate": 1.2241379310344828e-06, "loss": 4.3352, "step": 29300 }, { "epoch": 0.98, "grad_norm": 2.1317617893218994, "learning_rate": 1.0517241379310345e-06, "loss": 4.3548, "step": 29400 }, { "epoch": 0.9833333333333333, "grad_norm": 2.2252442836761475, "learning_rate": 8.793103448275863e-07, "loss": 4.3548, "step": 29500 }, { "epoch": 0.9866666666666667, "grad_norm": 2.241938829421997, "learning_rate": 7.068965517241379e-07, "loss": 4.3312, "step": 29600 }, { "epoch": 0.99, "grad_norm": 2.1634891033172607, "learning_rate": 5.344827586206897e-07, "loss": 4.3697, "step": 29700 }, { "epoch": 0.9933333333333333, "grad_norm": 2.746436357498169, "learning_rate": 3.6206896551724143e-07, "loss": 4.3528, "step": 29800 }, { "epoch": 0.9966666666666667, "grad_norm": 2.436894178390503, "learning_rate": 1.8965517241379312e-07, "loss": 4.34, "step": 29900 }, { "epoch": 1.0, "grad_norm": 2.4377429485321045, "learning_rate": 1.896551724137931e-08, "loss": 4.3691, "step": 30000 }, { "epoch": 1.0000333333333333, "step": 30001, "total_flos": 4.0981544802503885e+17, "train_loss": 0.00044824120156077804, "train_runtime": 24.4073, "train_samples_per_second": 19666.274, "train_steps_per_second": 1229.142 } ], "logging_steps": 100, "max_steps": 30000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 2000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 4.0981544802503885e+17, "train_batch_size": 4, "trial_name": null, "trial_params": null }