| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 1.0000333333333333, |
| "eval_steps": 500, |
| "global_step": 30001, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.0033333333333333335, |
| "grad_norm": 2.432770013809204, |
| "learning_rate": 4.950000000000001e-06, |
| "loss": 4.4748, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.006666666666666667, |
| "grad_norm": 3.0658187866210938, |
| "learning_rate": 9.950000000000001e-06, |
| "loss": 4.5848, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.01, |
| "grad_norm": 3.668822765350342, |
| "learning_rate": 1.4950000000000001e-05, |
| "loss": 4.5434, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "grad_norm": 3.464035749435425, |
| "learning_rate": 1.995e-05, |
| "loss": 4.5642, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.016666666666666666, |
| "grad_norm": 3.431352376937866, |
| "learning_rate": 2.495e-05, |
| "loss": 4.6208, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.02, |
| "grad_norm": 3.2728869915008545, |
| "learning_rate": 2.995e-05, |
| "loss": 4.5531, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.023333333333333334, |
| "grad_norm": 3.092519760131836, |
| "learning_rate": 3.495e-05, |
| "loss": 4.9349, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 3.0196480751037598, |
| "learning_rate": 3.995e-05, |
| "loss": 4.98, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.03, |
| "grad_norm": 3.531619071960449, |
| "learning_rate": 4.495e-05, |
| "loss": 4.963, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.03333333333333333, |
| "grad_norm": 3.0364348888397217, |
| "learning_rate": 4.995e-05, |
| "loss": 4.9439, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.03666666666666667, |
| "grad_norm": 2.966171979904175, |
| "learning_rate": 4.982931034482759e-05, |
| "loss": 4.9424, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.04, |
| "grad_norm": 2.858612060546875, |
| "learning_rate": 4.9656896551724144e-05, |
| "loss": 4.9295, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.043333333333333335, |
| "grad_norm": 2.722503900527954, |
| "learning_rate": 4.948448275862069e-05, |
| "loss": 4.9062, |
| "step": 1300 |
| }, |
| { |
| "epoch": 0.04666666666666667, |
| "grad_norm": 2.561314344406128, |
| "learning_rate": 4.931206896551724e-05, |
| "loss": 4.8918, |
| "step": 1400 |
| }, |
| { |
| "epoch": 0.05, |
| "grad_norm": 3.596597671508789, |
| "learning_rate": 4.91396551724138e-05, |
| "loss": 4.9177, |
| "step": 1500 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 2.5951080322265625, |
| "learning_rate": 4.8967241379310346e-05, |
| "loss": 4.8658, |
| "step": 1600 |
| }, |
| { |
| "epoch": 0.056666666666666664, |
| "grad_norm": 2.546725034713745, |
| "learning_rate": 4.87948275862069e-05, |
| "loss": 4.847, |
| "step": 1700 |
| }, |
| { |
| "epoch": 0.06, |
| "grad_norm": 2.793475866317749, |
| "learning_rate": 4.862241379310345e-05, |
| "loss": 4.8603, |
| "step": 1800 |
| }, |
| { |
| "epoch": 0.06333333333333334, |
| "grad_norm": 2.6936521530151367, |
| "learning_rate": 4.845e-05, |
| "loss": 4.8574, |
| "step": 1900 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 2.6505532264709473, |
| "learning_rate": 4.8277586206896554e-05, |
| "loss": 4.8192, |
| "step": 2000 |
| }, |
| { |
| "epoch": 0.07, |
| "grad_norm": 2.7143611907958984, |
| "learning_rate": 4.81051724137931e-05, |
| "loss": 4.8301, |
| "step": 2100 |
| }, |
| { |
| "epoch": 0.07333333333333333, |
| "grad_norm": 2.251673460006714, |
| "learning_rate": 4.793275862068966e-05, |
| "loss": 4.8221, |
| "step": 2200 |
| }, |
| { |
| "epoch": 0.07666666666666666, |
| "grad_norm": 2.6628541946411133, |
| "learning_rate": 4.776034482758621e-05, |
| "loss": 4.8107, |
| "step": 2300 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 2.4569995403289795, |
| "learning_rate": 4.758793103448276e-05, |
| "loss": 4.794, |
| "step": 2400 |
| }, |
| { |
| "epoch": 0.08333333333333333, |
| "grad_norm": 2.386894702911377, |
| "learning_rate": 4.741551724137932e-05, |
| "loss": 4.7992, |
| "step": 2500 |
| }, |
| { |
| "epoch": 0.08666666666666667, |
| "grad_norm": 2.4557945728302, |
| "learning_rate": 4.724310344827587e-05, |
| "loss": 4.7774, |
| "step": 2600 |
| }, |
| { |
| "epoch": 0.09, |
| "grad_norm": 2.6066713333129883, |
| "learning_rate": 4.7070689655172415e-05, |
| "loss": 4.7684, |
| "step": 2700 |
| }, |
| { |
| "epoch": 0.09333333333333334, |
| "grad_norm": 2.1568965911865234, |
| "learning_rate": 4.689827586206897e-05, |
| "loss": 4.8058, |
| "step": 2800 |
| }, |
| { |
| "epoch": 0.09666666666666666, |
| "grad_norm": 2.782592535018921, |
| "learning_rate": 4.672586206896552e-05, |
| "loss": 4.7507, |
| "step": 2900 |
| }, |
| { |
| "epoch": 0.1, |
| "grad_norm": 2.0947823524475098, |
| "learning_rate": 4.655344827586207e-05, |
| "loss": 4.7529, |
| "step": 3000 |
| }, |
| { |
| "epoch": 0.10333333333333333, |
| "grad_norm": 2.939363956451416, |
| "learning_rate": 4.6381034482758624e-05, |
| "loss": 4.7397, |
| "step": 3100 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 2.1280272006988525, |
| "learning_rate": 4.620862068965517e-05, |
| "loss": 4.7205, |
| "step": 3200 |
| }, |
| { |
| "epoch": 0.11, |
| "grad_norm": 2.5565991401672363, |
| "learning_rate": 4.603620689655173e-05, |
| "loss": 4.7345, |
| "step": 3300 |
| }, |
| { |
| "epoch": 0.11333333333333333, |
| "grad_norm": 2.393437147140503, |
| "learning_rate": 4.5863793103448277e-05, |
| "loss": 4.7259, |
| "step": 3400 |
| }, |
| { |
| "epoch": 0.11666666666666667, |
| "grad_norm": 2.3334264755249023, |
| "learning_rate": 4.5691379310344825e-05, |
| "loss": 4.7246, |
| "step": 3500 |
| }, |
| { |
| "epoch": 0.12, |
| "grad_norm": 2.3572139739990234, |
| "learning_rate": 4.551896551724138e-05, |
| "loss": 4.7418, |
| "step": 3600 |
| }, |
| { |
| "epoch": 0.12333333333333334, |
| "grad_norm": 2.216188907623291, |
| "learning_rate": 4.534655172413793e-05, |
| "loss": 4.7028, |
| "step": 3700 |
| }, |
| { |
| "epoch": 0.12666666666666668, |
| "grad_norm": 2.218505859375, |
| "learning_rate": 4.5174137931034485e-05, |
| "loss": 4.7195, |
| "step": 3800 |
| }, |
| { |
| "epoch": 0.13, |
| "grad_norm": 2.278543710708618, |
| "learning_rate": 4.5001724137931034e-05, |
| "loss": 4.713, |
| "step": 3900 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 2.791719913482666, |
| "learning_rate": 4.482931034482759e-05, |
| "loss": 4.7183, |
| "step": 4000 |
| }, |
| { |
| "epoch": 0.13666666666666666, |
| "grad_norm": 2.6032369136810303, |
| "learning_rate": 4.4656896551724145e-05, |
| "loss": 4.6735, |
| "step": 4100 |
| }, |
| { |
| "epoch": 0.14, |
| "grad_norm": 2.133446216583252, |
| "learning_rate": 4.448448275862069e-05, |
| "loss": 4.7103, |
| "step": 4200 |
| }, |
| { |
| "epoch": 0.14333333333333334, |
| "grad_norm": 2.0948398113250732, |
| "learning_rate": 4.431206896551724e-05, |
| "loss": 4.7108, |
| "step": 4300 |
| }, |
| { |
| "epoch": 0.14666666666666667, |
| "grad_norm": 2.1138408184051514, |
| "learning_rate": 4.41396551724138e-05, |
| "loss": 4.7027, |
| "step": 4400 |
| }, |
| { |
| "epoch": 0.15, |
| "grad_norm": 2.366734743118286, |
| "learning_rate": 4.3967241379310346e-05, |
| "loss": 4.6546, |
| "step": 4500 |
| }, |
| { |
| "epoch": 0.15333333333333332, |
| "grad_norm": 2.615391254425049, |
| "learning_rate": 4.37948275862069e-05, |
| "loss": 4.6963, |
| "step": 4600 |
| }, |
| { |
| "epoch": 0.15666666666666668, |
| "grad_norm": 2.0809595584869385, |
| "learning_rate": 4.362241379310345e-05, |
| "loss": 4.6004, |
| "step": 4700 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 2.1302947998046875, |
| "learning_rate": 4.345e-05, |
| "loss": 4.6918, |
| "step": 4800 |
| }, |
| { |
| "epoch": 0.16333333333333333, |
| "grad_norm": 2.247417449951172, |
| "learning_rate": 4.3277586206896555e-05, |
| "loss": 4.6564, |
| "step": 4900 |
| }, |
| { |
| "epoch": 0.16666666666666666, |
| "grad_norm": 2.05452561378479, |
| "learning_rate": 4.31051724137931e-05, |
| "loss": 4.6742, |
| "step": 5000 |
| }, |
| { |
| "epoch": 0.17, |
| "grad_norm": 2.0982797145843506, |
| "learning_rate": 4.293275862068966e-05, |
| "loss": 4.6391, |
| "step": 5100 |
| }, |
| { |
| "epoch": 0.17333333333333334, |
| "grad_norm": 2.3988752365112305, |
| "learning_rate": 4.276034482758621e-05, |
| "loss": 4.6858, |
| "step": 5200 |
| }, |
| { |
| "epoch": 0.17666666666666667, |
| "grad_norm": 2.203742265701294, |
| "learning_rate": 4.2587931034482756e-05, |
| "loss": 4.6463, |
| "step": 5300 |
| }, |
| { |
| "epoch": 0.18, |
| "grad_norm": 2.1824591159820557, |
| "learning_rate": 4.241551724137931e-05, |
| "loss": 4.6393, |
| "step": 5400 |
| }, |
| { |
| "epoch": 0.18333333333333332, |
| "grad_norm": 2.5369467735290527, |
| "learning_rate": 4.224310344827586e-05, |
| "loss": 4.6091, |
| "step": 5500 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 2.1592929363250732, |
| "learning_rate": 4.2070689655172416e-05, |
| "loss": 4.6441, |
| "step": 5600 |
| }, |
| { |
| "epoch": 0.19, |
| "grad_norm": 2.350390672683716, |
| "learning_rate": 4.189827586206897e-05, |
| "loss": 4.604, |
| "step": 5700 |
| }, |
| { |
| "epoch": 0.19333333333333333, |
| "grad_norm": 2.2912168502807617, |
| "learning_rate": 4.172586206896552e-05, |
| "loss": 4.6515, |
| "step": 5800 |
| }, |
| { |
| "epoch": 0.19666666666666666, |
| "grad_norm": 2.186971664428711, |
| "learning_rate": 4.1553448275862075e-05, |
| "loss": 4.6237, |
| "step": 5900 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 2.28682804107666, |
| "learning_rate": 4.1381034482758624e-05, |
| "loss": 4.6443, |
| "step": 6000 |
| }, |
| { |
| "epoch": 0.20333333333333334, |
| "grad_norm": 2.299591064453125, |
| "learning_rate": 4.120862068965517e-05, |
| "loss": 4.6224, |
| "step": 6100 |
| }, |
| { |
| "epoch": 0.20666666666666667, |
| "grad_norm": 2.407121181488037, |
| "learning_rate": 4.103620689655173e-05, |
| "loss": 4.6194, |
| "step": 6200 |
| }, |
| { |
| "epoch": 0.21, |
| "grad_norm": 2.0112767219543457, |
| "learning_rate": 4.086379310344828e-05, |
| "loss": 4.6089, |
| "step": 6300 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 2.166243076324463, |
| "learning_rate": 4.069137931034483e-05, |
| "loss": 4.6085, |
| "step": 6400 |
| }, |
| { |
| "epoch": 0.21666666666666667, |
| "grad_norm": 2.0218312740325928, |
| "learning_rate": 4.051896551724138e-05, |
| "loss": 4.6101, |
| "step": 6500 |
| }, |
| { |
| "epoch": 0.22, |
| "grad_norm": 2.7403626441955566, |
| "learning_rate": 4.034655172413793e-05, |
| "loss": 4.6245, |
| "step": 6600 |
| }, |
| { |
| "epoch": 0.22333333333333333, |
| "grad_norm": 2.2210118770599365, |
| "learning_rate": 4.0174137931034485e-05, |
| "loss": 4.5907, |
| "step": 6700 |
| }, |
| { |
| "epoch": 0.22666666666666666, |
| "grad_norm": 2.169027090072632, |
| "learning_rate": 4.0001724137931034e-05, |
| "loss": 4.5893, |
| "step": 6800 |
| }, |
| { |
| "epoch": 0.23, |
| "grad_norm": 2.4303510189056396, |
| "learning_rate": 3.982931034482759e-05, |
| "loss": 4.6107, |
| "step": 6900 |
| }, |
| { |
| "epoch": 0.23333333333333334, |
| "grad_norm": 2.163461446762085, |
| "learning_rate": 3.965689655172414e-05, |
| "loss": 4.5775, |
| "step": 7000 |
| }, |
| { |
| "epoch": 0.23666666666666666, |
| "grad_norm": 2.205695390701294, |
| "learning_rate": 3.948448275862069e-05, |
| "loss": 4.5853, |
| "step": 7100 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 2.0187084674835205, |
| "learning_rate": 3.931206896551725e-05, |
| "loss": 4.5793, |
| "step": 7200 |
| }, |
| { |
| "epoch": 0.24333333333333335, |
| "grad_norm": 1.859401822090149, |
| "learning_rate": 3.91396551724138e-05, |
| "loss": 4.6034, |
| "step": 7300 |
| }, |
| { |
| "epoch": 0.24666666666666667, |
| "grad_norm": 2.290074586868286, |
| "learning_rate": 3.8967241379310347e-05, |
| "loss": 4.5672, |
| "step": 7400 |
| }, |
| { |
| "epoch": 0.25, |
| "grad_norm": 2.1642653942108154, |
| "learning_rate": 3.87948275862069e-05, |
| "loss": 4.5999, |
| "step": 7500 |
| }, |
| { |
| "epoch": 0.25333333333333335, |
| "grad_norm": 2.244406223297119, |
| "learning_rate": 3.862241379310345e-05, |
| "loss": 4.5578, |
| "step": 7600 |
| }, |
| { |
| "epoch": 0.25666666666666665, |
| "grad_norm": 1.9028890132904053, |
| "learning_rate": 3.845e-05, |
| "loss": 4.5886, |
| "step": 7700 |
| }, |
| { |
| "epoch": 0.26, |
| "grad_norm": 2.019014835357666, |
| "learning_rate": 3.8277586206896555e-05, |
| "loss": 4.5244, |
| "step": 7800 |
| }, |
| { |
| "epoch": 0.2633333333333333, |
| "grad_norm": 2.1580286026000977, |
| "learning_rate": 3.8105172413793104e-05, |
| "loss": 4.6004, |
| "step": 7900 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 2.341559410095215, |
| "learning_rate": 3.793275862068966e-05, |
| "loss": 4.5605, |
| "step": 8000 |
| }, |
| { |
| "epoch": 0.27, |
| "grad_norm": 2.279217481613159, |
| "learning_rate": 3.776034482758621e-05, |
| "loss": 4.5713, |
| "step": 8100 |
| }, |
| { |
| "epoch": 0.2733333333333333, |
| "grad_norm": 1.8367992639541626, |
| "learning_rate": 3.7587931034482757e-05, |
| "loss": 4.5318, |
| "step": 8200 |
| }, |
| { |
| "epoch": 0.27666666666666667, |
| "grad_norm": 2.3710546493530273, |
| "learning_rate": 3.741724137931035e-05, |
| "loss": 4.5687, |
| "step": 8300 |
| }, |
| { |
| "epoch": 0.28, |
| "grad_norm": 2.3335001468658447, |
| "learning_rate": 3.72448275862069e-05, |
| "loss": 4.5419, |
| "step": 8400 |
| }, |
| { |
| "epoch": 0.2833333333333333, |
| "grad_norm": 2.4355528354644775, |
| "learning_rate": 3.707241379310345e-05, |
| "loss": 4.5668, |
| "step": 8500 |
| }, |
| { |
| "epoch": 0.2866666666666667, |
| "grad_norm": 2.0626087188720703, |
| "learning_rate": 3.69e-05, |
| "loss": 4.5458, |
| "step": 8600 |
| }, |
| { |
| "epoch": 0.29, |
| "grad_norm": 2.086386203765869, |
| "learning_rate": 3.672758620689655e-05, |
| "loss": 4.5494, |
| "step": 8700 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 2.0059709548950195, |
| "learning_rate": 3.655517241379311e-05, |
| "loss": 4.5051, |
| "step": 8800 |
| }, |
| { |
| "epoch": 0.2966666666666667, |
| "grad_norm": 2.086092233657837, |
| "learning_rate": 3.6382758620689655e-05, |
| "loss": 4.5408, |
| "step": 8900 |
| }, |
| { |
| "epoch": 0.3, |
| "grad_norm": 2.6836307048797607, |
| "learning_rate": 3.6210344827586204e-05, |
| "loss": 4.5253, |
| "step": 9000 |
| }, |
| { |
| "epoch": 0.30333333333333334, |
| "grad_norm": 1.8528039455413818, |
| "learning_rate": 3.603793103448276e-05, |
| "loss": 4.5349, |
| "step": 9100 |
| }, |
| { |
| "epoch": 0.30666666666666664, |
| "grad_norm": 2.2291455268859863, |
| "learning_rate": 3.586551724137931e-05, |
| "loss": 4.5132, |
| "step": 9200 |
| }, |
| { |
| "epoch": 0.31, |
| "grad_norm": 1.973479151725769, |
| "learning_rate": 3.5693103448275864e-05, |
| "loss": 4.5369, |
| "step": 9300 |
| }, |
| { |
| "epoch": 0.31333333333333335, |
| "grad_norm": 2.169776201248169, |
| "learning_rate": 3.552068965517242e-05, |
| "loss": 4.5442, |
| "step": 9400 |
| }, |
| { |
| "epoch": 0.31666666666666665, |
| "grad_norm": 2.312795877456665, |
| "learning_rate": 3.534827586206897e-05, |
| "loss": 4.548, |
| "step": 9500 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 1.946328043937683, |
| "learning_rate": 3.517586206896552e-05, |
| "loss": 4.512, |
| "step": 9600 |
| }, |
| { |
| "epoch": 0.3233333333333333, |
| "grad_norm": 2.379603147506714, |
| "learning_rate": 3.500344827586207e-05, |
| "loss": 4.5191, |
| "step": 9700 |
| }, |
| { |
| "epoch": 0.32666666666666666, |
| "grad_norm": 2.1291146278381348, |
| "learning_rate": 3.483103448275862e-05, |
| "loss": 4.5521, |
| "step": 9800 |
| }, |
| { |
| "epoch": 0.33, |
| "grad_norm": 2.242424488067627, |
| "learning_rate": 3.4658620689655176e-05, |
| "loss": 4.4897, |
| "step": 9900 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 2.0109705924987793, |
| "learning_rate": 3.448793103448276e-05, |
| "loss": 4.5254, |
| "step": 10000 |
| }, |
| { |
| "epoch": 0.33666666666666667, |
| "grad_norm": 2.0069398880004883, |
| "learning_rate": 3.431551724137931e-05, |
| "loss": 4.4718, |
| "step": 10100 |
| }, |
| { |
| "epoch": 0.34, |
| "grad_norm": 2.110619306564331, |
| "learning_rate": 3.414310344827587e-05, |
| "loss": 4.5204, |
| "step": 10200 |
| }, |
| { |
| "epoch": 0.3433333333333333, |
| "grad_norm": 2.287642478942871, |
| "learning_rate": 3.3970689655172415e-05, |
| "loss": 4.5132, |
| "step": 10300 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 2.430785655975342, |
| "learning_rate": 3.379827586206897e-05, |
| "loss": 4.5419, |
| "step": 10400 |
| }, |
| { |
| "epoch": 0.35, |
| "grad_norm": 2.0009684562683105, |
| "learning_rate": 3.362586206896552e-05, |
| "loss": 4.4966, |
| "step": 10500 |
| }, |
| { |
| "epoch": 0.35333333333333333, |
| "grad_norm": 2.163966417312622, |
| "learning_rate": 3.345344827586207e-05, |
| "loss": 4.5212, |
| "step": 10600 |
| }, |
| { |
| "epoch": 0.3566666666666667, |
| "grad_norm": 2.0159249305725098, |
| "learning_rate": 3.3281034482758624e-05, |
| "loss": 4.4934, |
| "step": 10700 |
| }, |
| { |
| "epoch": 0.36, |
| "grad_norm": 2.01526141166687, |
| "learning_rate": 3.310862068965517e-05, |
| "loss": 4.5503, |
| "step": 10800 |
| }, |
| { |
| "epoch": 0.36333333333333334, |
| "grad_norm": 2.336897850036621, |
| "learning_rate": 3.293620689655173e-05, |
| "loss": 4.4682, |
| "step": 10900 |
| }, |
| { |
| "epoch": 0.36666666666666664, |
| "grad_norm": 2.1598005294799805, |
| "learning_rate": 3.276379310344828e-05, |
| "loss": 4.5306, |
| "step": 11000 |
| }, |
| { |
| "epoch": 0.37, |
| "grad_norm": 2.5167276859283447, |
| "learning_rate": 3.2591379310344825e-05, |
| "loss": 4.4721, |
| "step": 11100 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 1.98994779586792, |
| "learning_rate": 3.241896551724138e-05, |
| "loss": 4.4932, |
| "step": 11200 |
| }, |
| { |
| "epoch": 0.37666666666666665, |
| "grad_norm": 2.22099232673645, |
| "learning_rate": 3.224655172413793e-05, |
| "loss": 4.475, |
| "step": 11300 |
| }, |
| { |
| "epoch": 0.38, |
| "grad_norm": 1.780299186706543, |
| "learning_rate": 3.2074137931034485e-05, |
| "loss": 4.5303, |
| "step": 11400 |
| }, |
| { |
| "epoch": 0.38333333333333336, |
| "grad_norm": 2.1039958000183105, |
| "learning_rate": 3.190172413793104e-05, |
| "loss": 4.4876, |
| "step": 11500 |
| }, |
| { |
| "epoch": 0.38666666666666666, |
| "grad_norm": 2.0175621509552, |
| "learning_rate": 3.172931034482759e-05, |
| "loss": 4.5166, |
| "step": 11600 |
| }, |
| { |
| "epoch": 0.39, |
| "grad_norm": 2.2640490531921387, |
| "learning_rate": 3.155689655172414e-05, |
| "loss": 4.4593, |
| "step": 11700 |
| }, |
| { |
| "epoch": 0.3933333333333333, |
| "grad_norm": 2.259965181350708, |
| "learning_rate": 3.138448275862069e-05, |
| "loss": 4.5223, |
| "step": 11800 |
| }, |
| { |
| "epoch": 0.39666666666666667, |
| "grad_norm": 2.384817600250244, |
| "learning_rate": 3.121206896551724e-05, |
| "loss": 4.493, |
| "step": 11900 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 1.9847548007965088, |
| "learning_rate": 3.10396551724138e-05, |
| "loss": 4.4944, |
| "step": 12000 |
| }, |
| { |
| "epoch": 0.4033333333333333, |
| "grad_norm": 2.0270016193389893, |
| "learning_rate": 3.0867241379310346e-05, |
| "loss": 4.4925, |
| "step": 12100 |
| }, |
| { |
| "epoch": 0.4066666666666667, |
| "grad_norm": 2.279428482055664, |
| "learning_rate": 3.069655172413793e-05, |
| "loss": 4.4995, |
| "step": 12200 |
| }, |
| { |
| "epoch": 0.41, |
| "grad_norm": 2.1263952255249023, |
| "learning_rate": 3.052413793103449e-05, |
| "loss": 4.4687, |
| "step": 12300 |
| }, |
| { |
| "epoch": 0.41333333333333333, |
| "grad_norm": 2.1277477741241455, |
| "learning_rate": 3.0351724137931037e-05, |
| "loss": 4.4833, |
| "step": 12400 |
| }, |
| { |
| "epoch": 0.4166666666666667, |
| "grad_norm": 1.9847360849380493, |
| "learning_rate": 3.017931034482759e-05, |
| "loss": 4.4832, |
| "step": 12500 |
| }, |
| { |
| "epoch": 0.42, |
| "grad_norm": 1.7778632640838623, |
| "learning_rate": 3.000689655172414e-05, |
| "loss": 4.4682, |
| "step": 12600 |
| }, |
| { |
| "epoch": 0.42333333333333334, |
| "grad_norm": 2.1409926414489746, |
| "learning_rate": 2.983448275862069e-05, |
| "loss": 4.5006, |
| "step": 12700 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 2.5149056911468506, |
| "learning_rate": 2.966206896551724e-05, |
| "loss": 4.4466, |
| "step": 12800 |
| }, |
| { |
| "epoch": 0.43, |
| "grad_norm": 2.458773612976074, |
| "learning_rate": 2.9489655172413794e-05, |
| "loss": 4.4996, |
| "step": 12900 |
| }, |
| { |
| "epoch": 0.43333333333333335, |
| "grad_norm": 1.972216248512268, |
| "learning_rate": 2.9317241379310346e-05, |
| "loss": 4.4611, |
| "step": 13000 |
| }, |
| { |
| "epoch": 0.43666666666666665, |
| "grad_norm": 2.464979887008667, |
| "learning_rate": 2.9144827586206898e-05, |
| "loss": 4.5022, |
| "step": 13100 |
| }, |
| { |
| "epoch": 0.44, |
| "grad_norm": 2.4846181869506836, |
| "learning_rate": 2.8972413793103447e-05, |
| "loss": 4.4629, |
| "step": 13200 |
| }, |
| { |
| "epoch": 0.44333333333333336, |
| "grad_norm": 2.5245821475982666, |
| "learning_rate": 2.88e-05, |
| "loss": 4.4802, |
| "step": 13300 |
| }, |
| { |
| "epoch": 0.44666666666666666, |
| "grad_norm": 2.218487024307251, |
| "learning_rate": 2.862758620689655e-05, |
| "loss": 4.4598, |
| "step": 13400 |
| }, |
| { |
| "epoch": 0.45, |
| "grad_norm": 1.7457364797592163, |
| "learning_rate": 2.8455172413793106e-05, |
| "loss": 4.487, |
| "step": 13500 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 2.262539863586426, |
| "learning_rate": 2.828275862068966e-05, |
| "loss": 4.4315, |
| "step": 13600 |
| }, |
| { |
| "epoch": 0.45666666666666667, |
| "grad_norm": 2.005768299102783, |
| "learning_rate": 2.811034482758621e-05, |
| "loss": 4.4736, |
| "step": 13700 |
| }, |
| { |
| "epoch": 0.46, |
| "grad_norm": 1.9539450407028198, |
| "learning_rate": 2.7937931034482763e-05, |
| "loss": 4.4243, |
| "step": 13800 |
| }, |
| { |
| "epoch": 0.4633333333333333, |
| "grad_norm": 2.2052249908447266, |
| "learning_rate": 2.7765517241379315e-05, |
| "loss": 4.4758, |
| "step": 13900 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 2.210599184036255, |
| "learning_rate": 2.7593103448275863e-05, |
| "loss": 4.4682, |
| "step": 14000 |
| }, |
| { |
| "epoch": 0.47, |
| "grad_norm": 1.977975845336914, |
| "learning_rate": 2.7420689655172415e-05, |
| "loss": 4.4722, |
| "step": 14100 |
| }, |
| { |
| "epoch": 0.47333333333333333, |
| "grad_norm": 2.3111207485198975, |
| "learning_rate": 2.7248275862068968e-05, |
| "loss": 4.4341, |
| "step": 14200 |
| }, |
| { |
| "epoch": 0.4766666666666667, |
| "grad_norm": 2.1010982990264893, |
| "learning_rate": 2.707586206896552e-05, |
| "loss": 4.4488, |
| "step": 14300 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 2.0630757808685303, |
| "learning_rate": 2.6903448275862068e-05, |
| "loss": 4.4477, |
| "step": 14400 |
| }, |
| { |
| "epoch": 0.48333333333333334, |
| "grad_norm": 1.975195288658142, |
| "learning_rate": 2.673103448275862e-05, |
| "loss": 4.4461, |
| "step": 14500 |
| }, |
| { |
| "epoch": 0.4866666666666667, |
| "grad_norm": 2.149717330932617, |
| "learning_rate": 2.6558620689655172e-05, |
| "loss": 4.46, |
| "step": 14600 |
| }, |
| { |
| "epoch": 0.49, |
| "grad_norm": 2.3318910598754883, |
| "learning_rate": 2.638793103448276e-05, |
| "loss": 4.433, |
| "step": 14700 |
| }, |
| { |
| "epoch": 0.49333333333333335, |
| "grad_norm": 2.138505220413208, |
| "learning_rate": 2.621551724137931e-05, |
| "loss": 4.4408, |
| "step": 14800 |
| }, |
| { |
| "epoch": 0.49666666666666665, |
| "grad_norm": 1.8805365562438965, |
| "learning_rate": 2.6043103448275863e-05, |
| "loss": 4.4495, |
| "step": 14900 |
| }, |
| { |
| "epoch": 0.5, |
| "grad_norm": 2.2338950634002686, |
| "learning_rate": 2.5870689655172415e-05, |
| "loss": 4.4754, |
| "step": 15000 |
| }, |
| { |
| "epoch": 0.5033333333333333, |
| "grad_norm": 2.114830255508423, |
| "learning_rate": 2.5698275862068967e-05, |
| "loss": 4.4402, |
| "step": 15100 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 2.1137115955352783, |
| "learning_rate": 2.5525862068965516e-05, |
| "loss": 4.4754, |
| "step": 15200 |
| }, |
| { |
| "epoch": 0.51, |
| "grad_norm": 2.3145370483398438, |
| "learning_rate": 2.5353448275862068e-05, |
| "loss": 4.4133, |
| "step": 15300 |
| }, |
| { |
| "epoch": 0.5133333333333333, |
| "grad_norm": 1.9466785192489624, |
| "learning_rate": 2.518103448275862e-05, |
| "loss": 4.4558, |
| "step": 15400 |
| }, |
| { |
| "epoch": 0.5166666666666667, |
| "grad_norm": 2.052103042602539, |
| "learning_rate": 2.5008620689655172e-05, |
| "loss": 4.4199, |
| "step": 15500 |
| }, |
| { |
| "epoch": 0.52, |
| "grad_norm": 2.0328545570373535, |
| "learning_rate": 2.4836206896551724e-05, |
| "loss": 4.4633, |
| "step": 15600 |
| }, |
| { |
| "epoch": 0.5233333333333333, |
| "grad_norm": 1.8531575202941895, |
| "learning_rate": 2.4665517241379314e-05, |
| "loss": 4.4161, |
| "step": 15700 |
| }, |
| { |
| "epoch": 0.5266666666666666, |
| "grad_norm": 2.1167118549346924, |
| "learning_rate": 2.4493103448275866e-05, |
| "loss": 4.4631, |
| "step": 15800 |
| }, |
| { |
| "epoch": 0.53, |
| "grad_norm": 2.288839101791382, |
| "learning_rate": 2.4320689655172415e-05, |
| "loss": 4.4275, |
| "step": 15900 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 2.267571449279785, |
| "learning_rate": 2.4148275862068967e-05, |
| "loss": 4.4367, |
| "step": 16000 |
| }, |
| { |
| "epoch": 0.5366666666666666, |
| "grad_norm": 2.238534927368164, |
| "learning_rate": 2.397586206896552e-05, |
| "loss": 4.4161, |
| "step": 16100 |
| }, |
| { |
| "epoch": 0.54, |
| "grad_norm": 1.891422986984253, |
| "learning_rate": 2.380344827586207e-05, |
| "loss": 4.4454, |
| "step": 16200 |
| }, |
| { |
| "epoch": 0.5433333333333333, |
| "grad_norm": 2.3173861503601074, |
| "learning_rate": 2.363103448275862e-05, |
| "loss": 4.4087, |
| "step": 16300 |
| }, |
| { |
| "epoch": 0.5466666666666666, |
| "grad_norm": 1.741228461265564, |
| "learning_rate": 2.345862068965517e-05, |
| "loss": 4.4441, |
| "step": 16400 |
| }, |
| { |
| "epoch": 0.55, |
| "grad_norm": 2.76397442817688, |
| "learning_rate": 2.3286206896551727e-05, |
| "loss": 4.4192, |
| "step": 16500 |
| }, |
| { |
| "epoch": 0.5533333333333333, |
| "grad_norm": 2.1828739643096924, |
| "learning_rate": 2.311379310344828e-05, |
| "loss": 4.4073, |
| "step": 16600 |
| }, |
| { |
| "epoch": 0.5566666666666666, |
| "grad_norm": 1.968559741973877, |
| "learning_rate": 2.2941379310344828e-05, |
| "loss": 4.4374, |
| "step": 16700 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 2.170126438140869, |
| "learning_rate": 2.276896551724138e-05, |
| "loss": 4.4077, |
| "step": 16800 |
| }, |
| { |
| "epoch": 0.5633333333333334, |
| "grad_norm": 2.200995922088623, |
| "learning_rate": 2.2596551724137932e-05, |
| "loss": 4.4115, |
| "step": 16900 |
| }, |
| { |
| "epoch": 0.5666666666666667, |
| "grad_norm": 2.0842859745025635, |
| "learning_rate": 2.2424137931034484e-05, |
| "loss": 4.3951, |
| "step": 17000 |
| }, |
| { |
| "epoch": 0.57, |
| "grad_norm": 2.1672942638397217, |
| "learning_rate": 2.2251724137931036e-05, |
| "loss": 4.4495, |
| "step": 17100 |
| }, |
| { |
| "epoch": 0.5733333333333334, |
| "grad_norm": 2.1524171829223633, |
| "learning_rate": 2.2079310344827585e-05, |
| "loss": 4.4148, |
| "step": 17200 |
| }, |
| { |
| "epoch": 0.5766666666666667, |
| "grad_norm": 2.0464670658111572, |
| "learning_rate": 2.190689655172414e-05, |
| "loss": 4.4217, |
| "step": 17300 |
| }, |
| { |
| "epoch": 0.58, |
| "grad_norm": 2.345148801803589, |
| "learning_rate": 2.1734482758620693e-05, |
| "loss": 4.3839, |
| "step": 17400 |
| }, |
| { |
| "epoch": 0.5833333333333334, |
| "grad_norm": 2.089466094970703, |
| "learning_rate": 2.1562068965517245e-05, |
| "loss": 4.4422, |
| "step": 17500 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 2.0062997341156006, |
| "learning_rate": 2.1389655172413793e-05, |
| "loss": 4.383, |
| "step": 17600 |
| }, |
| { |
| "epoch": 0.59, |
| "grad_norm": 1.9194973707199097, |
| "learning_rate": 2.1217241379310345e-05, |
| "loss": 4.4357, |
| "step": 17700 |
| }, |
| { |
| "epoch": 0.5933333333333334, |
| "grad_norm": 2.143671989440918, |
| "learning_rate": 2.1044827586206898e-05, |
| "loss": 4.4016, |
| "step": 17800 |
| }, |
| { |
| "epoch": 0.5966666666666667, |
| "grad_norm": 2.0662789344787598, |
| "learning_rate": 2.087241379310345e-05, |
| "loss": 4.4194, |
| "step": 17900 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 2.1098804473876953, |
| "learning_rate": 2.07e-05, |
| "loss": 4.3904, |
| "step": 18000 |
| }, |
| { |
| "epoch": 0.6033333333333334, |
| "grad_norm": 2.246016502380371, |
| "learning_rate": 2.0527586206896554e-05, |
| "loss": 4.407, |
| "step": 18100 |
| }, |
| { |
| "epoch": 0.6066666666666667, |
| "grad_norm": 2.139479637145996, |
| "learning_rate": 2.0355172413793106e-05, |
| "loss": 4.4069, |
| "step": 18200 |
| }, |
| { |
| "epoch": 0.61, |
| "grad_norm": 2.2395882606506348, |
| "learning_rate": 2.0182758620689658e-05, |
| "loss": 4.4317, |
| "step": 18300 |
| }, |
| { |
| "epoch": 0.6133333333333333, |
| "grad_norm": 2.2215514183044434, |
| "learning_rate": 2.0010344827586207e-05, |
| "loss": 4.4087, |
| "step": 18400 |
| }, |
| { |
| "epoch": 0.6166666666666667, |
| "grad_norm": 2.2115671634674072, |
| "learning_rate": 1.983793103448276e-05, |
| "loss": 4.4261, |
| "step": 18500 |
| }, |
| { |
| "epoch": 0.62, |
| "grad_norm": 2.1851704120635986, |
| "learning_rate": 1.966551724137931e-05, |
| "loss": 4.428, |
| "step": 18600 |
| }, |
| { |
| "epoch": 0.6233333333333333, |
| "grad_norm": 2.017883539199829, |
| "learning_rate": 1.9493103448275863e-05, |
| "loss": 4.3821, |
| "step": 18700 |
| }, |
| { |
| "epoch": 0.6266666666666667, |
| "grad_norm": 1.912879228591919, |
| "learning_rate": 1.9320689655172415e-05, |
| "loss": 4.4048, |
| "step": 18800 |
| }, |
| { |
| "epoch": 0.63, |
| "grad_norm": 2.136014699935913, |
| "learning_rate": 1.9148275862068964e-05, |
| "loss": 4.3849, |
| "step": 18900 |
| }, |
| { |
| "epoch": 0.6333333333333333, |
| "grad_norm": 1.9832309484481812, |
| "learning_rate": 1.897586206896552e-05, |
| "loss": 4.4062, |
| "step": 19000 |
| }, |
| { |
| "epoch": 0.6366666666666667, |
| "grad_norm": 1.8475227355957031, |
| "learning_rate": 1.880344827586207e-05, |
| "loss": 4.3949, |
| "step": 19100 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 2.476745367050171, |
| "learning_rate": 1.8631034482758623e-05, |
| "loss": 4.416, |
| "step": 19200 |
| }, |
| { |
| "epoch": 0.6433333333333333, |
| "grad_norm": 2.201724052429199, |
| "learning_rate": 1.8458620689655172e-05, |
| "loss": 4.3844, |
| "step": 19300 |
| }, |
| { |
| "epoch": 0.6466666666666666, |
| "grad_norm": 1.9169152975082397, |
| "learning_rate": 1.8286206896551724e-05, |
| "loss": 4.4169, |
| "step": 19400 |
| }, |
| { |
| "epoch": 0.65, |
| "grad_norm": 1.8896160125732422, |
| "learning_rate": 1.8113793103448276e-05, |
| "loss": 4.4032, |
| "step": 19500 |
| }, |
| { |
| "epoch": 0.6533333333333333, |
| "grad_norm": 1.9147884845733643, |
| "learning_rate": 1.794137931034483e-05, |
| "loss": 4.4098, |
| "step": 19600 |
| }, |
| { |
| "epoch": 0.6566666666666666, |
| "grad_norm": 2.461538076400757, |
| "learning_rate": 1.776896551724138e-05, |
| "loss": 4.4274, |
| "step": 19700 |
| }, |
| { |
| "epoch": 0.66, |
| "grad_norm": 2.043869733810425, |
| "learning_rate": 1.7596551724137933e-05, |
| "loss": 4.3963, |
| "step": 19800 |
| }, |
| { |
| "epoch": 0.6633333333333333, |
| "grad_norm": 2.003953218460083, |
| "learning_rate": 1.7424137931034485e-05, |
| "loss": 4.4025, |
| "step": 19900 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 2.514071464538574, |
| "learning_rate": 1.7251724137931037e-05, |
| "loss": 4.3973, |
| "step": 20000 |
| }, |
| { |
| "epoch": 0.67, |
| "grad_norm": 2.3290865421295166, |
| "learning_rate": 1.7079310344827585e-05, |
| "loss": 4.3999, |
| "step": 20100 |
| }, |
| { |
| "epoch": 0.6733333333333333, |
| "grad_norm": 1.8519926071166992, |
| "learning_rate": 1.6906896551724138e-05, |
| "loss": 4.4046, |
| "step": 20200 |
| }, |
| { |
| "epoch": 0.6766666666666666, |
| "grad_norm": 2.53118896484375, |
| "learning_rate": 1.673448275862069e-05, |
| "loss": 4.3959, |
| "step": 20300 |
| }, |
| { |
| "epoch": 0.68, |
| "grad_norm": 1.9727709293365479, |
| "learning_rate": 1.6562068965517242e-05, |
| "loss": 4.4176, |
| "step": 20400 |
| }, |
| { |
| "epoch": 0.6833333333333333, |
| "grad_norm": 1.9265756607055664, |
| "learning_rate": 1.6389655172413794e-05, |
| "loss": 4.3849, |
| "step": 20500 |
| }, |
| { |
| "epoch": 0.6866666666666666, |
| "grad_norm": 2.2798376083374023, |
| "learning_rate": 1.6217241379310346e-05, |
| "loss": 4.4101, |
| "step": 20600 |
| }, |
| { |
| "epoch": 0.69, |
| "grad_norm": 2.1076509952545166, |
| "learning_rate": 1.6044827586206898e-05, |
| "loss": 4.3888, |
| "step": 20700 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 2.338351011276245, |
| "learning_rate": 1.587241379310345e-05, |
| "loss": 4.3772, |
| "step": 20800 |
| }, |
| { |
| "epoch": 0.6966666666666667, |
| "grad_norm": 2.0186917781829834, |
| "learning_rate": 1.5700000000000002e-05, |
| "loss": 4.4018, |
| "step": 20900 |
| }, |
| { |
| "epoch": 0.7, |
| "grad_norm": 2.1765296459198, |
| "learning_rate": 1.552758620689655e-05, |
| "loss": 4.4103, |
| "step": 21000 |
| }, |
| { |
| "epoch": 0.7033333333333334, |
| "grad_norm": 2.109718084335327, |
| "learning_rate": 1.5355172413793103e-05, |
| "loss": 4.3969, |
| "step": 21100 |
| }, |
| { |
| "epoch": 0.7066666666666667, |
| "grad_norm": 2.078711748123169, |
| "learning_rate": 1.5182758620689655e-05, |
| "loss": 4.4051, |
| "step": 21200 |
| }, |
| { |
| "epoch": 0.71, |
| "grad_norm": 2.2366254329681396, |
| "learning_rate": 1.5010344827586207e-05, |
| "loss": 4.377, |
| "step": 21300 |
| }, |
| { |
| "epoch": 0.7133333333333334, |
| "grad_norm": 2.2516391277313232, |
| "learning_rate": 1.4837931034482761e-05, |
| "loss": 4.4015, |
| "step": 21400 |
| }, |
| { |
| "epoch": 0.7166666666666667, |
| "grad_norm": 2.1501176357269287, |
| "learning_rate": 1.4665517241379311e-05, |
| "loss": 4.3737, |
| "step": 21500 |
| }, |
| { |
| "epoch": 0.72, |
| "grad_norm": 1.8726160526275635, |
| "learning_rate": 1.4493103448275863e-05, |
| "loss": 4.3776, |
| "step": 21600 |
| }, |
| { |
| "epoch": 0.7233333333333334, |
| "grad_norm": 2.260007381439209, |
| "learning_rate": 1.4320689655172414e-05, |
| "loss": 4.3961, |
| "step": 21700 |
| }, |
| { |
| "epoch": 0.7266666666666667, |
| "grad_norm": 1.9862884283065796, |
| "learning_rate": 1.415e-05, |
| "loss": 4.3974, |
| "step": 21800 |
| }, |
| { |
| "epoch": 0.73, |
| "grad_norm": 2.1817476749420166, |
| "learning_rate": 1.3977586206896554e-05, |
| "loss": 4.4077, |
| "step": 21900 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 2.2883946895599365, |
| "learning_rate": 1.3805172413793104e-05, |
| "loss": 4.3457, |
| "step": 22000 |
| }, |
| { |
| "epoch": 0.7366666666666667, |
| "grad_norm": 2.1526737213134766, |
| "learning_rate": 1.3632758620689656e-05, |
| "loss": 4.4059, |
| "step": 22100 |
| }, |
| { |
| "epoch": 0.74, |
| "grad_norm": 2.2343320846557617, |
| "learning_rate": 1.3460344827586208e-05, |
| "loss": 4.3799, |
| "step": 22200 |
| }, |
| { |
| "epoch": 0.7433333333333333, |
| "grad_norm": 2.1139650344848633, |
| "learning_rate": 1.3289655172413793e-05, |
| "loss": 4.3759, |
| "step": 22300 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 2.2490551471710205, |
| "learning_rate": 1.3117241379310347e-05, |
| "loss": 4.3726, |
| "step": 22400 |
| }, |
| { |
| "epoch": 0.75, |
| "grad_norm": 2.03560209274292, |
| "learning_rate": 1.2944827586206897e-05, |
| "loss": 4.3795, |
| "step": 22500 |
| }, |
| { |
| "epoch": 0.7533333333333333, |
| "grad_norm": 2.175682783126831, |
| "learning_rate": 1.277241379310345e-05, |
| "loss": 4.3911, |
| "step": 22600 |
| }, |
| { |
| "epoch": 0.7566666666666667, |
| "grad_norm": 2.171412467956543, |
| "learning_rate": 1.2600000000000001e-05, |
| "loss": 4.3755, |
| "step": 22700 |
| }, |
| { |
| "epoch": 0.76, |
| "grad_norm": 2.1491260528564453, |
| "learning_rate": 1.2427586206896552e-05, |
| "loss": 4.3995, |
| "step": 22800 |
| }, |
| { |
| "epoch": 0.7633333333333333, |
| "grad_norm": 2.0756146907806396, |
| "learning_rate": 1.2255172413793104e-05, |
| "loss": 4.3824, |
| "step": 22900 |
| }, |
| { |
| "epoch": 0.7666666666666667, |
| "grad_norm": 1.9129120111465454, |
| "learning_rate": 1.2082758620689656e-05, |
| "loss": 4.379, |
| "step": 23000 |
| }, |
| { |
| "epoch": 0.77, |
| "grad_norm": 2.1584272384643555, |
| "learning_rate": 1.1910344827586208e-05, |
| "loss": 4.393, |
| "step": 23100 |
| }, |
| { |
| "epoch": 0.7733333333333333, |
| "grad_norm": 2.1815624237060547, |
| "learning_rate": 1.1737931034482758e-05, |
| "loss": 4.3407, |
| "step": 23200 |
| }, |
| { |
| "epoch": 0.7766666666666666, |
| "grad_norm": 2.2393853664398193, |
| "learning_rate": 1.156551724137931e-05, |
| "loss": 4.3876, |
| "step": 23300 |
| }, |
| { |
| "epoch": 0.78, |
| "grad_norm": 2.191389560699463, |
| "learning_rate": 1.1393103448275863e-05, |
| "loss": 4.3888, |
| "step": 23400 |
| }, |
| { |
| "epoch": 0.7833333333333333, |
| "grad_norm": 1.861325740814209, |
| "learning_rate": 1.1220689655172415e-05, |
| "loss": 4.3659, |
| "step": 23500 |
| }, |
| { |
| "epoch": 0.7866666666666666, |
| "grad_norm": 2.1595823764801025, |
| "learning_rate": 1.1048275862068965e-05, |
| "loss": 4.374, |
| "step": 23600 |
| }, |
| { |
| "epoch": 0.79, |
| "grad_norm": 2.048743963241577, |
| "learning_rate": 1.0875862068965517e-05, |
| "loss": 4.3554, |
| "step": 23700 |
| }, |
| { |
| "epoch": 0.7933333333333333, |
| "grad_norm": 1.8800294399261475, |
| "learning_rate": 1.070344827586207e-05, |
| "loss": 4.3815, |
| "step": 23800 |
| }, |
| { |
| "epoch": 0.7966666666666666, |
| "grad_norm": 2.2559168338775635, |
| "learning_rate": 1.0531034482758621e-05, |
| "loss": 4.3809, |
| "step": 23900 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 2.2554898262023926, |
| "learning_rate": 1.0358620689655173e-05, |
| "loss": 4.3688, |
| "step": 24000 |
| }, |
| { |
| "epoch": 0.8033333333333333, |
| "grad_norm": 2.4968557357788086, |
| "learning_rate": 1.0186206896551724e-05, |
| "loss": 4.3834, |
| "step": 24100 |
| }, |
| { |
| "epoch": 0.8066666666666666, |
| "grad_norm": 2.2546260356903076, |
| "learning_rate": 1.0013793103448278e-05, |
| "loss": 4.3671, |
| "step": 24200 |
| }, |
| { |
| "epoch": 0.81, |
| "grad_norm": 2.0959572792053223, |
| "learning_rate": 9.841379310344828e-06, |
| "loss": 4.4036, |
| "step": 24300 |
| }, |
| { |
| "epoch": 0.8133333333333334, |
| "grad_norm": 2.429842472076416, |
| "learning_rate": 9.66896551724138e-06, |
| "loss": 4.3778, |
| "step": 24400 |
| }, |
| { |
| "epoch": 0.8166666666666667, |
| "grad_norm": 1.9144500494003296, |
| "learning_rate": 9.49655172413793e-06, |
| "loss": 4.3597, |
| "step": 24500 |
| }, |
| { |
| "epoch": 0.82, |
| "grad_norm": 2.014716863632202, |
| "learning_rate": 9.324137931034484e-06, |
| "loss": 4.3398, |
| "step": 24600 |
| }, |
| { |
| "epoch": 0.8233333333333334, |
| "grad_norm": 2.0111021995544434, |
| "learning_rate": 9.151724137931035e-06, |
| "loss": 4.3688, |
| "step": 24700 |
| }, |
| { |
| "epoch": 0.8266666666666667, |
| "grad_norm": 2.206125259399414, |
| "learning_rate": 8.979310344827587e-06, |
| "loss": 4.4069, |
| "step": 24800 |
| }, |
| { |
| "epoch": 0.83, |
| "grad_norm": 1.9322938919067383, |
| "learning_rate": 8.806896551724137e-06, |
| "loss": 4.3585, |
| "step": 24900 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "grad_norm": 2.382385492324829, |
| "learning_rate": 8.634482758620691e-06, |
| "loss": 4.379, |
| "step": 25000 |
| }, |
| { |
| "epoch": 0.8366666666666667, |
| "grad_norm": 2.0957460403442383, |
| "learning_rate": 8.462068965517241e-06, |
| "loss": 4.3633, |
| "step": 25100 |
| }, |
| { |
| "epoch": 0.84, |
| "grad_norm": 2.191102981567383, |
| "learning_rate": 8.289655172413793e-06, |
| "loss": 4.3723, |
| "step": 25200 |
| }, |
| { |
| "epoch": 0.8433333333333334, |
| "grad_norm": 2.186511993408203, |
| "learning_rate": 8.117241379310346e-06, |
| "loss": 4.396, |
| "step": 25300 |
| }, |
| { |
| "epoch": 0.8466666666666667, |
| "grad_norm": 2.2075576782226562, |
| "learning_rate": 7.944827586206898e-06, |
| "loss": 4.3534, |
| "step": 25400 |
| }, |
| { |
| "epoch": 0.85, |
| "grad_norm": 2.1940252780914307, |
| "learning_rate": 7.772413793103448e-06, |
| "loss": 4.3564, |
| "step": 25500 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 1.975804090499878, |
| "learning_rate": 7.6e-06, |
| "loss": 4.3497, |
| "step": 25600 |
| }, |
| { |
| "epoch": 0.8566666666666667, |
| "grad_norm": 2.2161664962768555, |
| "learning_rate": 7.427586206896551e-06, |
| "loss": 4.3383, |
| "step": 25700 |
| }, |
| { |
| "epoch": 0.86, |
| "grad_norm": 2.422048807144165, |
| "learning_rate": 7.255172413793104e-06, |
| "loss": 4.381, |
| "step": 25800 |
| }, |
| { |
| "epoch": 0.8633333333333333, |
| "grad_norm": 2.26328444480896, |
| "learning_rate": 7.0827586206896555e-06, |
| "loss": 4.337, |
| "step": 25900 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 2.0234344005584717, |
| "learning_rate": 6.912068965517242e-06, |
| "loss": 4.3614, |
| "step": 26000 |
| }, |
| { |
| "epoch": 0.87, |
| "grad_norm": 2.1131584644317627, |
| "learning_rate": 6.739655172413793e-06, |
| "loss": 4.3512, |
| "step": 26100 |
| }, |
| { |
| "epoch": 0.8733333333333333, |
| "grad_norm": 2.498945713043213, |
| "learning_rate": 6.567241379310344e-06, |
| "loss": 4.3559, |
| "step": 26200 |
| }, |
| { |
| "epoch": 0.8766666666666667, |
| "grad_norm": 2.271238327026367, |
| "learning_rate": 6.394827586206897e-06, |
| "loss": 4.3568, |
| "step": 26300 |
| }, |
| { |
| "epoch": 0.88, |
| "grad_norm": 2.2349765300750732, |
| "learning_rate": 6.2224137931034484e-06, |
| "loss": 4.3303, |
| "step": 26400 |
| }, |
| { |
| "epoch": 0.8833333333333333, |
| "grad_norm": 2.2044858932495117, |
| "learning_rate": 6.0500000000000005e-06, |
| "loss": 4.3573, |
| "step": 26500 |
| }, |
| { |
| "epoch": 0.8866666666666667, |
| "grad_norm": 2.143218994140625, |
| "learning_rate": 5.877586206896552e-06, |
| "loss": 4.3548, |
| "step": 26600 |
| }, |
| { |
| "epoch": 0.89, |
| "grad_norm": 2.3432939052581787, |
| "learning_rate": 5.705172413793104e-06, |
| "loss": 4.3687, |
| "step": 26700 |
| }, |
| { |
| "epoch": 0.8933333333333333, |
| "grad_norm": 1.8604556322097778, |
| "learning_rate": 5.532758620689656e-06, |
| "loss": 4.3866, |
| "step": 26800 |
| }, |
| { |
| "epoch": 0.8966666666666666, |
| "grad_norm": 2.41178560256958, |
| "learning_rate": 5.360344827586207e-06, |
| "loss": 4.3309, |
| "step": 26900 |
| }, |
| { |
| "epoch": 0.9, |
| "grad_norm": 2.5105397701263428, |
| "learning_rate": 5.187931034482759e-06, |
| "loss": 4.3829, |
| "step": 27000 |
| }, |
| { |
| "epoch": 0.9033333333333333, |
| "grad_norm": 2.303903102874756, |
| "learning_rate": 5.0155172413793105e-06, |
| "loss": 4.3343, |
| "step": 27100 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 2.1825873851776123, |
| "learning_rate": 4.843103448275863e-06, |
| "loss": 4.3467, |
| "step": 27200 |
| }, |
| { |
| "epoch": 0.91, |
| "grad_norm": 2.1242332458496094, |
| "learning_rate": 4.670689655172414e-06, |
| "loss": 4.3591, |
| "step": 27300 |
| }, |
| { |
| "epoch": 0.9133333333333333, |
| "grad_norm": 2.355365037918091, |
| "learning_rate": 4.498275862068966e-06, |
| "loss": 4.3175, |
| "step": 27400 |
| }, |
| { |
| "epoch": 0.9166666666666666, |
| "grad_norm": 2.075387954711914, |
| "learning_rate": 4.325862068965517e-06, |
| "loss": 4.3861, |
| "step": 27500 |
| }, |
| { |
| "epoch": 0.92, |
| "grad_norm": 2.1146600246429443, |
| "learning_rate": 4.153448275862069e-06, |
| "loss": 4.355, |
| "step": 27600 |
| }, |
| { |
| "epoch": 0.9233333333333333, |
| "grad_norm": 1.9889869689941406, |
| "learning_rate": 3.9810344827586205e-06, |
| "loss": 4.3627, |
| "step": 27700 |
| }, |
| { |
| "epoch": 0.9266666666666666, |
| "grad_norm": 2.166405200958252, |
| "learning_rate": 3.8086206896551726e-06, |
| "loss": 4.3459, |
| "step": 27800 |
| }, |
| { |
| "epoch": 0.93, |
| "grad_norm": 2.054823160171509, |
| "learning_rate": 3.6362068965517243e-06, |
| "loss": 4.3174, |
| "step": 27900 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 2.1031033992767334, |
| "learning_rate": 3.4637931034482764e-06, |
| "loss": 4.358, |
| "step": 28000 |
| }, |
| { |
| "epoch": 0.9366666666666666, |
| "grad_norm": 2.0477893352508545, |
| "learning_rate": 3.2913793103448276e-06, |
| "loss": 4.341, |
| "step": 28100 |
| }, |
| { |
| "epoch": 0.94, |
| "grad_norm": 2.4143428802490234, |
| "learning_rate": 3.1189655172413793e-06, |
| "loss": 4.355, |
| "step": 28200 |
| }, |
| { |
| "epoch": 0.9433333333333334, |
| "grad_norm": 1.8853615522384644, |
| "learning_rate": 2.946551724137931e-06, |
| "loss": 4.3365, |
| "step": 28300 |
| }, |
| { |
| "epoch": 0.9466666666666667, |
| "grad_norm": 2.3704171180725098, |
| "learning_rate": 2.7741379310344826e-06, |
| "loss": 4.3356, |
| "step": 28400 |
| }, |
| { |
| "epoch": 0.95, |
| "grad_norm": 2.3981566429138184, |
| "learning_rate": 2.6017241379310343e-06, |
| "loss": 4.3553, |
| "step": 28500 |
| }, |
| { |
| "epoch": 0.9533333333333334, |
| "grad_norm": 2.259207010269165, |
| "learning_rate": 2.4310344827586205e-06, |
| "loss": 4.3363, |
| "step": 28600 |
| }, |
| { |
| "epoch": 0.9566666666666667, |
| "grad_norm": 2.0507473945617676, |
| "learning_rate": 2.258620689655172e-06, |
| "loss": 4.3574, |
| "step": 28700 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 2.1110222339630127, |
| "learning_rate": 2.0862068965517243e-06, |
| "loss": 4.3434, |
| "step": 28800 |
| }, |
| { |
| "epoch": 0.9633333333333334, |
| "grad_norm": 2.7897815704345703, |
| "learning_rate": 1.913793103448276e-06, |
| "loss": 4.3536, |
| "step": 28900 |
| }, |
| { |
| "epoch": 0.9666666666666667, |
| "grad_norm": 2.439835548400879, |
| "learning_rate": 1.7413793103448276e-06, |
| "loss": 4.353, |
| "step": 29000 |
| }, |
| { |
| "epoch": 0.97, |
| "grad_norm": 2.11780047416687, |
| "learning_rate": 1.5689655172413793e-06, |
| "loss": 4.3291, |
| "step": 29100 |
| }, |
| { |
| "epoch": 0.9733333333333334, |
| "grad_norm": 2.232104539871216, |
| "learning_rate": 1.3965517241379312e-06, |
| "loss": 4.3563, |
| "step": 29200 |
| }, |
| { |
| "epoch": 0.9766666666666667, |
| "grad_norm": 2.321014404296875, |
| "learning_rate": 1.2241379310344828e-06, |
| "loss": 4.3352, |
| "step": 29300 |
| }, |
| { |
| "epoch": 0.98, |
| "grad_norm": 2.1317617893218994, |
| "learning_rate": 1.0517241379310345e-06, |
| "loss": 4.3548, |
| "step": 29400 |
| }, |
| { |
| "epoch": 0.9833333333333333, |
| "grad_norm": 2.2252442836761475, |
| "learning_rate": 8.793103448275863e-07, |
| "loss": 4.3548, |
| "step": 29500 |
| }, |
| { |
| "epoch": 0.9866666666666667, |
| "grad_norm": 2.241938829421997, |
| "learning_rate": 7.068965517241379e-07, |
| "loss": 4.3312, |
| "step": 29600 |
| }, |
| { |
| "epoch": 0.99, |
| "grad_norm": 2.1634891033172607, |
| "learning_rate": 5.344827586206897e-07, |
| "loss": 4.3697, |
| "step": 29700 |
| }, |
| { |
| "epoch": 0.9933333333333333, |
| "grad_norm": 2.746436357498169, |
| "learning_rate": 3.6206896551724143e-07, |
| "loss": 4.3528, |
| "step": 29800 |
| }, |
| { |
| "epoch": 0.9966666666666667, |
| "grad_norm": 2.436894178390503, |
| "learning_rate": 1.8965517241379312e-07, |
| "loss": 4.34, |
| "step": 29900 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 2.4377429485321045, |
| "learning_rate": 1.896551724137931e-08, |
| "loss": 4.3691, |
| "step": 30000 |
| }, |
| { |
| "epoch": 1.0000333333333333, |
| "step": 30001, |
| "total_flos": 4.0981544802503885e+17, |
| "train_loss": 0.00044824120156077804, |
| "train_runtime": 24.4073, |
| "train_samples_per_second": 19666.274, |
| "train_steps_per_second": 1229.142 |
| } |
| ], |
| "logging_steps": 100, |
| "max_steps": 30000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 9223372036854775807, |
| "save_steps": 2000, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 4.0981544802503885e+17, |
| "train_batch_size": 4, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|