{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 3.6101083032490973, "eval_steps": 500, "global_step": 1000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.036101083032490974, "grad_norm": 0.8792149424552917, "learning_rate": 6.000000000000001e-07, "loss": 1.1882, "step": 10 }, { "epoch": 0.07220216606498195, "grad_norm": 0.7292852997779846, "learning_rate": 1.2666666666666667e-06, "loss": 1.183, "step": 20 }, { "epoch": 0.10830324909747292, "grad_norm": 0.6755103468894958, "learning_rate": 1.9333333333333336e-06, "loss": 1.172, "step": 30 }, { "epoch": 0.1444043321299639, "grad_norm": 0.5594439506530762, "learning_rate": 2.6e-06, "loss": 1.1539, "step": 40 }, { "epoch": 0.18050541516245489, "grad_norm": 0.5405519008636475, "learning_rate": 3.2666666666666666e-06, "loss": 1.1356, "step": 50 }, { "epoch": 0.21660649819494585, "grad_norm": 0.5031427145004272, "learning_rate": 3.9333333333333335e-06, "loss": 1.1221, "step": 60 }, { "epoch": 0.2527075812274368, "grad_norm": 0.502995491027832, "learning_rate": 4.6e-06, "loss": 1.1053, "step": 70 }, { "epoch": 0.2888086642599278, "grad_norm": 0.46390628814697266, "learning_rate": 5.266666666666667e-06, "loss": 1.0908, "step": 80 }, { "epoch": 0.3249097472924188, "grad_norm": 0.39707711338996887, "learning_rate": 5.933333333333334e-06, "loss": 1.0768, "step": 90 }, { "epoch": 0.36101083032490977, "grad_norm": 0.2680375277996063, "learning_rate": 6.6e-06, "loss": 1.0651, "step": 100 }, { "epoch": 0.3971119133574007, "grad_norm": 0.20656010508537292, "learning_rate": 7.266666666666668e-06, "loss": 1.0499, "step": 110 }, { "epoch": 0.4332129963898917, "grad_norm": 0.2176329642534256, "learning_rate": 7.933333333333334e-06, "loss": 1.04, "step": 120 }, { "epoch": 0.4693140794223827, "grad_norm": 0.1952984780073166, "learning_rate": 8.599999999999999e-06, "loss": 1.0314, "step": 130 }, { "epoch": 0.5054151624548736, "grad_norm": 0.17900057137012482, "learning_rate": 9.266666666666667e-06, "loss": 1.023, "step": 140 }, { "epoch": 0.5415162454873647, "grad_norm": 0.15559467673301697, "learning_rate": 9.933333333333334e-06, "loss": 1.0192, "step": 150 }, { "epoch": 0.5776173285198556, "grad_norm": 0.1702832281589508, "learning_rate": 1.06e-05, "loss": 1.0109, "step": 160 }, { "epoch": 0.6137184115523465, "grad_norm": 0.19487395882606506, "learning_rate": 1.1266666666666667e-05, "loss": 1.008, "step": 170 }, { "epoch": 0.6498194945848376, "grad_norm": 0.16858609020709991, "learning_rate": 1.1933333333333333e-05, "loss": 1.0011, "step": 180 }, { "epoch": 0.6859205776173285, "grad_norm": 0.2135946899652481, "learning_rate": 1.2600000000000001e-05, "loss": 0.9937, "step": 190 }, { "epoch": 0.7220216606498195, "grad_norm": 0.23672480881214142, "learning_rate": 1.3266666666666666e-05, "loss": 0.9848, "step": 200 }, { "epoch": 0.7581227436823105, "grad_norm": 0.36581552028656006, "learning_rate": 1.3933333333333334e-05, "loss": 0.9661, "step": 210 }, { "epoch": 0.7942238267148014, "grad_norm": 0.5021904110908508, "learning_rate": 1.4599999999999999e-05, "loss": 0.9308, "step": 220 }, { "epoch": 0.8303249097472925, "grad_norm": 0.9705759882926941, "learning_rate": 1.5266666666666667e-05, "loss": 0.8545, "step": 230 }, { "epoch": 0.8664259927797834, "grad_norm": 1.263683557510376, "learning_rate": 1.5933333333333332e-05, "loss": 0.7534, "step": 240 }, { "epoch": 0.9025270758122743, "grad_norm": 1.0056917667388916, "learning_rate": 1.66e-05, "loss": 0.669, "step": 250 }, { "epoch": 0.9386281588447654, "grad_norm": 1.5650357007980347, "learning_rate": 1.726666666666667e-05, "loss": 0.595, "step": 260 }, { "epoch": 0.9747292418772563, "grad_norm": 1.4451838731765747, "learning_rate": 1.7933333333333337e-05, "loss": 0.5332, "step": 270 }, { "epoch": 1.0108303249097472, "grad_norm": 1.5739387273788452, "learning_rate": 1.86e-05, "loss": 0.4718, "step": 280 }, { "epoch": 1.0469314079422383, "grad_norm": 1.5814650058746338, "learning_rate": 1.926666666666667e-05, "loss": 0.4245, "step": 290 }, { "epoch": 1.0830324909747293, "grad_norm": 1.677675485610962, "learning_rate": 1.9933333333333334e-05, "loss": 0.3778, "step": 300 }, { "epoch": 1.1191335740072201, "grad_norm": 1.9410228729248047, "learning_rate": 2.06e-05, "loss": 0.3371, "step": 310 }, { "epoch": 1.1552346570397112, "grad_norm": 1.7728365659713745, "learning_rate": 2.1266666666666667e-05, "loss": 0.3061, "step": 320 }, { "epoch": 1.1913357400722022, "grad_norm": 1.5503789186477661, "learning_rate": 2.1933333333333332e-05, "loss": 0.2825, "step": 330 }, { "epoch": 1.2274368231046933, "grad_norm": 1.77287757396698, "learning_rate": 2.26e-05, "loss": 0.2613, "step": 340 }, { "epoch": 1.263537906137184, "grad_norm": 1.6768401861190796, "learning_rate": 2.326666666666667e-05, "loss": 0.2476, "step": 350 }, { "epoch": 1.2996389891696751, "grad_norm": 1.5678222179412842, "learning_rate": 2.3933333333333337e-05, "loss": 0.2395, "step": 360 }, { "epoch": 1.335740072202166, "grad_norm": 1.7035478353500366, "learning_rate": 2.46e-05, "loss": 0.2336, "step": 370 }, { "epoch": 1.371841155234657, "grad_norm": 1.7723883390426636, "learning_rate": 2.5266666666666666e-05, "loss": 0.2269, "step": 380 }, { "epoch": 1.407942238267148, "grad_norm": 1.5948989391326904, "learning_rate": 2.5933333333333338e-05, "loss": 0.224, "step": 390 }, { "epoch": 1.444043321299639, "grad_norm": 2.1878089904785156, "learning_rate": 2.6600000000000003e-05, "loss": 0.2185, "step": 400 }, { "epoch": 1.48014440433213, "grad_norm": 1.9472143650054932, "learning_rate": 2.7266666666666668e-05, "loss": 0.2148, "step": 410 }, { "epoch": 1.516245487364621, "grad_norm": 2.4479265213012695, "learning_rate": 2.7933333333333332e-05, "loss": 0.215, "step": 420 }, { "epoch": 1.5523465703971118, "grad_norm": 1.6668602228164673, "learning_rate": 2.86e-05, "loss": 0.2156, "step": 430 }, { "epoch": 1.5884476534296028, "grad_norm": 2.297792434692383, "learning_rate": 2.926666666666667e-05, "loss": 0.2131, "step": 440 }, { "epoch": 1.6245487364620939, "grad_norm": 1.9421613216400146, "learning_rate": 2.9933333333333337e-05, "loss": 0.2136, "step": 450 }, { "epoch": 1.660649819494585, "grad_norm": 2.2717418670654297, "learning_rate": 3.06e-05, "loss": 0.2093, "step": 460 }, { "epoch": 1.696750902527076, "grad_norm": 2.1423869132995605, "learning_rate": 3.126666666666666e-05, "loss": 0.2094, "step": 470 }, { "epoch": 1.7328519855595668, "grad_norm": 2.2144198417663574, "learning_rate": 3.1933333333333335e-05, "loss": 0.2092, "step": 480 }, { "epoch": 1.7689530685920578, "grad_norm": 1.9322779178619385, "learning_rate": 3.26e-05, "loss": 0.2064, "step": 490 }, { "epoch": 1.8050541516245486, "grad_norm": 1.9350993633270264, "learning_rate": 3.326666666666667e-05, "loss": 0.2077, "step": 500 }, { "epoch": 1.8411552346570397, "grad_norm": 1.7844723463058472, "learning_rate": 3.3933333333333336e-05, "loss": 0.2067, "step": 510 }, { "epoch": 1.8772563176895307, "grad_norm": 2.405451774597168, "learning_rate": 3.46e-05, "loss": 0.2026, "step": 520 }, { "epoch": 1.9133574007220218, "grad_norm": 2.382427453994751, "learning_rate": 3.526666666666667e-05, "loss": 0.2004, "step": 530 }, { "epoch": 1.9494584837545126, "grad_norm": 2.5038397312164307, "learning_rate": 3.593333333333334e-05, "loss": 0.2034, "step": 540 }, { "epoch": 1.9855595667870036, "grad_norm": 2.2127082347869873, "learning_rate": 3.66e-05, "loss": 0.2005, "step": 550 }, { "epoch": 2.0216606498194944, "grad_norm": 2.9056589603424072, "learning_rate": 3.726666666666667e-05, "loss": 0.1995, "step": 560 }, { "epoch": 2.0577617328519855, "grad_norm": 2.2383415699005127, "learning_rate": 3.793333333333334e-05, "loss": 0.2031, "step": 570 }, { "epoch": 2.0938628158844765, "grad_norm": 1.9492878913879395, "learning_rate": 3.86e-05, "loss": 0.1991, "step": 580 }, { "epoch": 2.1299638989169676, "grad_norm": 1.8478870391845703, "learning_rate": 3.926666666666667e-05, "loss": 0.1993, "step": 590 }, { "epoch": 2.1660649819494586, "grad_norm": 2.0714190006256104, "learning_rate": 3.993333333333333e-05, "loss": 0.1977, "step": 600 }, { "epoch": 2.2021660649819497, "grad_norm": 2.0085227489471436, "learning_rate": 4.0600000000000004e-05, "loss": 0.1949, "step": 610 }, { "epoch": 2.2382671480144403, "grad_norm": 2.1462786197662354, "learning_rate": 4.126666666666667e-05, "loss": 0.1955, "step": 620 }, { "epoch": 2.2743682310469313, "grad_norm": 1.9504297971725464, "learning_rate": 4.1933333333333334e-05, "loss": 0.1932, "step": 630 }, { "epoch": 2.3104693140794224, "grad_norm": 2.304089069366455, "learning_rate": 4.26e-05, "loss": 0.1935, "step": 640 }, { "epoch": 2.3465703971119134, "grad_norm": 2.4123048782348633, "learning_rate": 4.3266666666666664e-05, "loss": 0.1911, "step": 650 }, { "epoch": 2.3826714801444044, "grad_norm": 2.5345194339752197, "learning_rate": 4.3933333333333335e-05, "loss": 0.1861, "step": 660 }, { "epoch": 2.4187725631768955, "grad_norm": 2.2014682292938232, "learning_rate": 4.46e-05, "loss": 0.1887, "step": 670 }, { "epoch": 2.4548736462093865, "grad_norm": 2.7363312244415283, "learning_rate": 4.526666666666667e-05, "loss": 0.1826, "step": 680 }, { "epoch": 2.490974729241877, "grad_norm": 2.445457935333252, "learning_rate": 4.5933333333333336e-05, "loss": 0.1782, "step": 690 }, { "epoch": 2.527075812274368, "grad_norm": 3.096940279006958, "learning_rate": 4.660000000000001e-05, "loss": 0.1719, "step": 700 }, { "epoch": 2.563176895306859, "grad_norm": 3.281512498855591, "learning_rate": 4.726666666666667e-05, "loss": 0.168, "step": 710 }, { "epoch": 2.5992779783393503, "grad_norm": 3.32570743560791, "learning_rate": 4.793333333333334e-05, "loss": 0.1634, "step": 720 }, { "epoch": 2.6353790613718413, "grad_norm": 2.5920348167419434, "learning_rate": 4.86e-05, "loss": 0.1641, "step": 730 }, { "epoch": 2.671480144404332, "grad_norm": 3.0771641731262207, "learning_rate": 4.926666666666667e-05, "loss": 0.1589, "step": 740 }, { "epoch": 2.707581227436823, "grad_norm": 3.3847527503967285, "learning_rate": 4.993333333333334e-05, "loss": 0.1588, "step": 750 }, { "epoch": 2.743682310469314, "grad_norm": 3.3967106342315674, "learning_rate": 5.0600000000000003e-05, "loss": 0.1537, "step": 760 }, { "epoch": 2.779783393501805, "grad_norm": 3.562208652496338, "learning_rate": 5.1266666666666675e-05, "loss": 0.1518, "step": 770 }, { "epoch": 2.815884476534296, "grad_norm": 4.249292850494385, "learning_rate": 5.193333333333333e-05, "loss": 0.1517, "step": 780 }, { "epoch": 2.851985559566787, "grad_norm": 3.7535207271575928, "learning_rate": 5.2600000000000005e-05, "loss": 0.1489, "step": 790 }, { "epoch": 2.888086642599278, "grad_norm": 4.374902248382568, "learning_rate": 5.326666666666666e-05, "loss": 0.1449, "step": 800 }, { "epoch": 2.9241877256317688, "grad_norm": 3.9763412475585938, "learning_rate": 5.3933333333333334e-05, "loss": 0.1359, "step": 810 }, { "epoch": 2.96028880866426, "grad_norm": 3.976372241973877, "learning_rate": 5.4600000000000006e-05, "loss": 0.1327, "step": 820 }, { "epoch": 2.996389891696751, "grad_norm": 2.532400131225586, "learning_rate": 5.5266666666666664e-05, "loss": 0.1238, "step": 830 }, { "epoch": 3.032490974729242, "grad_norm": 7.225079536437988, "learning_rate": 5.5933333333333335e-05, "loss": 0.1338, "step": 840 }, { "epoch": 3.068592057761733, "grad_norm": 3.196591854095459, "learning_rate": 5.66e-05, "loss": 0.1232, "step": 850 }, { "epoch": 3.104693140794224, "grad_norm": 4.404566764831543, "learning_rate": 5.726666666666667e-05, "loss": 0.1137, "step": 860 }, { "epoch": 3.140794223826715, "grad_norm": 5.581392765045166, "learning_rate": 5.7933333333333337e-05, "loss": 0.1121, "step": 870 }, { "epoch": 3.1768953068592056, "grad_norm": 4.208507061004639, "learning_rate": 5.86e-05, "loss": 0.1147, "step": 880 }, { "epoch": 3.2129963898916967, "grad_norm": 4.072608947753906, "learning_rate": 5.926666666666667e-05, "loss": 0.1048, "step": 890 }, { "epoch": 3.2490974729241877, "grad_norm": 6.415537357330322, "learning_rate": 5.9933333333333345e-05, "loss": 0.1023, "step": 900 }, { "epoch": 3.2851985559566788, "grad_norm": 5.0296854972839355, "learning_rate": 6.06e-05, "loss": 0.0996, "step": 910 }, { "epoch": 3.32129963898917, "grad_norm": 3.894113779067993, "learning_rate": 6.126666666666667e-05, "loss": 0.0899, "step": 920 }, { "epoch": 3.357400722021661, "grad_norm": 4.2843017578125, "learning_rate": 6.193333333333333e-05, "loss": 0.0829, "step": 930 }, { "epoch": 3.3935018050541514, "grad_norm": 7.592728614807129, "learning_rate": 6.26e-05, "loss": 0.0781, "step": 940 }, { "epoch": 3.4296028880866425, "grad_norm": 5.444018840789795, "learning_rate": 6.326666666666667e-05, "loss": 0.0922, "step": 950 }, { "epoch": 3.4657039711191335, "grad_norm": 4.786616802215576, "learning_rate": 6.393333333333333e-05, "loss": 0.0789, "step": 960 }, { "epoch": 3.5018050541516246, "grad_norm": 3.325745105743408, "learning_rate": 6.460000000000001e-05, "loss": 0.0673, "step": 970 }, { "epoch": 3.5379061371841156, "grad_norm": 3.444308280944824, "learning_rate": 6.526666666666666e-05, "loss": 0.063, "step": 980 }, { "epoch": 3.5740072202166067, "grad_norm": 4.334812641143799, "learning_rate": 6.593333333333334e-05, "loss": 0.0629, "step": 990 }, { "epoch": 3.6101083032490973, "grad_norm": 3.642155647277832, "learning_rate": 6.66e-05, "loss": 0.0584, "step": 1000 } ], "logging_steps": 10, "max_steps": 30000, "num_input_tokens_seen": 0, "num_train_epochs": 109, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 0.0, "train_batch_size": 128, "trial_name": null, "trial_params": null }