| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 3.6101083032490973, |
| "eval_steps": 500, |
| "global_step": 1000, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.036101083032490974, |
| "grad_norm": 0.8792149424552917, |
| "learning_rate": 6.000000000000001e-07, |
| "loss": 1.1882, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.07220216606498195, |
| "grad_norm": 0.7292852997779846, |
| "learning_rate": 1.2666666666666667e-06, |
| "loss": 1.183, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.10830324909747292, |
| "grad_norm": 0.6755103468894958, |
| "learning_rate": 1.9333333333333336e-06, |
| "loss": 1.172, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.1444043321299639, |
| "grad_norm": 0.5594439506530762, |
| "learning_rate": 2.6e-06, |
| "loss": 1.1539, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.18050541516245489, |
| "grad_norm": 0.5405519008636475, |
| "learning_rate": 3.2666666666666666e-06, |
| "loss": 1.1356, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.21660649819494585, |
| "grad_norm": 0.5031427145004272, |
| "learning_rate": 3.9333333333333335e-06, |
| "loss": 1.1221, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.2527075812274368, |
| "grad_norm": 0.502995491027832, |
| "learning_rate": 4.6e-06, |
| "loss": 1.1053, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.2888086642599278, |
| "grad_norm": 0.46390628814697266, |
| "learning_rate": 5.266666666666667e-06, |
| "loss": 1.0908, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.3249097472924188, |
| "grad_norm": 0.39707711338996887, |
| "learning_rate": 5.933333333333334e-06, |
| "loss": 1.0768, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.36101083032490977, |
| "grad_norm": 0.2680375277996063, |
| "learning_rate": 6.6e-06, |
| "loss": 1.0651, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.3971119133574007, |
| "grad_norm": 0.20656010508537292, |
| "learning_rate": 7.266666666666668e-06, |
| "loss": 1.0499, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.4332129963898917, |
| "grad_norm": 0.2176329642534256, |
| "learning_rate": 7.933333333333334e-06, |
| "loss": 1.04, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.4693140794223827, |
| "grad_norm": 0.1952984780073166, |
| "learning_rate": 8.599999999999999e-06, |
| "loss": 1.0314, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.5054151624548736, |
| "grad_norm": 0.17900057137012482, |
| "learning_rate": 9.266666666666667e-06, |
| "loss": 1.023, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.5415162454873647, |
| "grad_norm": 0.15559467673301697, |
| "learning_rate": 9.933333333333334e-06, |
| "loss": 1.0192, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.5776173285198556, |
| "grad_norm": 0.1702832281589508, |
| "learning_rate": 1.06e-05, |
| "loss": 1.0109, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.6137184115523465, |
| "grad_norm": 0.19487395882606506, |
| "learning_rate": 1.1266666666666667e-05, |
| "loss": 1.008, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.6498194945848376, |
| "grad_norm": 0.16858609020709991, |
| "learning_rate": 1.1933333333333333e-05, |
| "loss": 1.0011, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.6859205776173285, |
| "grad_norm": 0.2135946899652481, |
| "learning_rate": 1.2600000000000001e-05, |
| "loss": 0.9937, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.7220216606498195, |
| "grad_norm": 0.23672480881214142, |
| "learning_rate": 1.3266666666666666e-05, |
| "loss": 0.9848, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.7581227436823105, |
| "grad_norm": 0.36581552028656006, |
| "learning_rate": 1.3933333333333334e-05, |
| "loss": 0.9661, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.7942238267148014, |
| "grad_norm": 0.5021904110908508, |
| "learning_rate": 1.4599999999999999e-05, |
| "loss": 0.9308, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.8303249097472925, |
| "grad_norm": 0.9705759882926941, |
| "learning_rate": 1.5266666666666667e-05, |
| "loss": 0.8545, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.8664259927797834, |
| "grad_norm": 1.263683557510376, |
| "learning_rate": 1.5933333333333332e-05, |
| "loss": 0.7534, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.9025270758122743, |
| "grad_norm": 1.0056917667388916, |
| "learning_rate": 1.66e-05, |
| "loss": 0.669, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.9386281588447654, |
| "grad_norm": 1.5650357007980347, |
| "learning_rate": 1.726666666666667e-05, |
| "loss": 0.595, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.9747292418772563, |
| "grad_norm": 1.4451838731765747, |
| "learning_rate": 1.7933333333333337e-05, |
| "loss": 0.5332, |
| "step": 270 |
| }, |
| { |
| "epoch": 1.0108303249097472, |
| "grad_norm": 1.5739387273788452, |
| "learning_rate": 1.86e-05, |
| "loss": 0.4718, |
| "step": 280 |
| }, |
| { |
| "epoch": 1.0469314079422383, |
| "grad_norm": 1.5814650058746338, |
| "learning_rate": 1.926666666666667e-05, |
| "loss": 0.4245, |
| "step": 290 |
| }, |
| { |
| "epoch": 1.0830324909747293, |
| "grad_norm": 1.677675485610962, |
| "learning_rate": 1.9933333333333334e-05, |
| "loss": 0.3778, |
| "step": 300 |
| }, |
| { |
| "epoch": 1.1191335740072201, |
| "grad_norm": 1.9410228729248047, |
| "learning_rate": 2.06e-05, |
| "loss": 0.3371, |
| "step": 310 |
| }, |
| { |
| "epoch": 1.1552346570397112, |
| "grad_norm": 1.7728365659713745, |
| "learning_rate": 2.1266666666666667e-05, |
| "loss": 0.3061, |
| "step": 320 |
| }, |
| { |
| "epoch": 1.1913357400722022, |
| "grad_norm": 1.5503789186477661, |
| "learning_rate": 2.1933333333333332e-05, |
| "loss": 0.2825, |
| "step": 330 |
| }, |
| { |
| "epoch": 1.2274368231046933, |
| "grad_norm": 1.77287757396698, |
| "learning_rate": 2.26e-05, |
| "loss": 0.2613, |
| "step": 340 |
| }, |
| { |
| "epoch": 1.263537906137184, |
| "grad_norm": 1.6768401861190796, |
| "learning_rate": 2.326666666666667e-05, |
| "loss": 0.2476, |
| "step": 350 |
| }, |
| { |
| "epoch": 1.2996389891696751, |
| "grad_norm": 1.5678222179412842, |
| "learning_rate": 2.3933333333333337e-05, |
| "loss": 0.2395, |
| "step": 360 |
| }, |
| { |
| "epoch": 1.335740072202166, |
| "grad_norm": 1.7035478353500366, |
| "learning_rate": 2.46e-05, |
| "loss": 0.2336, |
| "step": 370 |
| }, |
| { |
| "epoch": 1.371841155234657, |
| "grad_norm": 1.7723883390426636, |
| "learning_rate": 2.5266666666666666e-05, |
| "loss": 0.2269, |
| "step": 380 |
| }, |
| { |
| "epoch": 1.407942238267148, |
| "grad_norm": 1.5948989391326904, |
| "learning_rate": 2.5933333333333338e-05, |
| "loss": 0.224, |
| "step": 390 |
| }, |
| { |
| "epoch": 1.444043321299639, |
| "grad_norm": 2.1878089904785156, |
| "learning_rate": 2.6600000000000003e-05, |
| "loss": 0.2185, |
| "step": 400 |
| }, |
| { |
| "epoch": 1.48014440433213, |
| "grad_norm": 1.9472143650054932, |
| "learning_rate": 2.7266666666666668e-05, |
| "loss": 0.2148, |
| "step": 410 |
| }, |
| { |
| "epoch": 1.516245487364621, |
| "grad_norm": 2.4479265213012695, |
| "learning_rate": 2.7933333333333332e-05, |
| "loss": 0.215, |
| "step": 420 |
| }, |
| { |
| "epoch": 1.5523465703971118, |
| "grad_norm": 1.6668602228164673, |
| "learning_rate": 2.86e-05, |
| "loss": 0.2156, |
| "step": 430 |
| }, |
| { |
| "epoch": 1.5884476534296028, |
| "grad_norm": 2.297792434692383, |
| "learning_rate": 2.926666666666667e-05, |
| "loss": 0.2131, |
| "step": 440 |
| }, |
| { |
| "epoch": 1.6245487364620939, |
| "grad_norm": 1.9421613216400146, |
| "learning_rate": 2.9933333333333337e-05, |
| "loss": 0.2136, |
| "step": 450 |
| }, |
| { |
| "epoch": 1.660649819494585, |
| "grad_norm": 2.2717418670654297, |
| "learning_rate": 3.06e-05, |
| "loss": 0.2093, |
| "step": 460 |
| }, |
| { |
| "epoch": 1.696750902527076, |
| "grad_norm": 2.1423869132995605, |
| "learning_rate": 3.126666666666666e-05, |
| "loss": 0.2094, |
| "step": 470 |
| }, |
| { |
| "epoch": 1.7328519855595668, |
| "grad_norm": 2.2144198417663574, |
| "learning_rate": 3.1933333333333335e-05, |
| "loss": 0.2092, |
| "step": 480 |
| }, |
| { |
| "epoch": 1.7689530685920578, |
| "grad_norm": 1.9322779178619385, |
| "learning_rate": 3.26e-05, |
| "loss": 0.2064, |
| "step": 490 |
| }, |
| { |
| "epoch": 1.8050541516245486, |
| "grad_norm": 1.9350993633270264, |
| "learning_rate": 3.326666666666667e-05, |
| "loss": 0.2077, |
| "step": 500 |
| }, |
| { |
| "epoch": 1.8411552346570397, |
| "grad_norm": 1.7844723463058472, |
| "learning_rate": 3.3933333333333336e-05, |
| "loss": 0.2067, |
| "step": 510 |
| }, |
| { |
| "epoch": 1.8772563176895307, |
| "grad_norm": 2.405451774597168, |
| "learning_rate": 3.46e-05, |
| "loss": 0.2026, |
| "step": 520 |
| }, |
| { |
| "epoch": 1.9133574007220218, |
| "grad_norm": 2.382427453994751, |
| "learning_rate": 3.526666666666667e-05, |
| "loss": 0.2004, |
| "step": 530 |
| }, |
| { |
| "epoch": 1.9494584837545126, |
| "grad_norm": 2.5038397312164307, |
| "learning_rate": 3.593333333333334e-05, |
| "loss": 0.2034, |
| "step": 540 |
| }, |
| { |
| "epoch": 1.9855595667870036, |
| "grad_norm": 2.2127082347869873, |
| "learning_rate": 3.66e-05, |
| "loss": 0.2005, |
| "step": 550 |
| }, |
| { |
| "epoch": 2.0216606498194944, |
| "grad_norm": 2.9056589603424072, |
| "learning_rate": 3.726666666666667e-05, |
| "loss": 0.1995, |
| "step": 560 |
| }, |
| { |
| "epoch": 2.0577617328519855, |
| "grad_norm": 2.2383415699005127, |
| "learning_rate": 3.793333333333334e-05, |
| "loss": 0.2031, |
| "step": 570 |
| }, |
| { |
| "epoch": 2.0938628158844765, |
| "grad_norm": 1.9492878913879395, |
| "learning_rate": 3.86e-05, |
| "loss": 0.1991, |
| "step": 580 |
| }, |
| { |
| "epoch": 2.1299638989169676, |
| "grad_norm": 1.8478870391845703, |
| "learning_rate": 3.926666666666667e-05, |
| "loss": 0.1993, |
| "step": 590 |
| }, |
| { |
| "epoch": 2.1660649819494586, |
| "grad_norm": 2.0714190006256104, |
| "learning_rate": 3.993333333333333e-05, |
| "loss": 0.1977, |
| "step": 600 |
| }, |
| { |
| "epoch": 2.2021660649819497, |
| "grad_norm": 2.0085227489471436, |
| "learning_rate": 4.0600000000000004e-05, |
| "loss": 0.1949, |
| "step": 610 |
| }, |
| { |
| "epoch": 2.2382671480144403, |
| "grad_norm": 2.1462786197662354, |
| "learning_rate": 4.126666666666667e-05, |
| "loss": 0.1955, |
| "step": 620 |
| }, |
| { |
| "epoch": 2.2743682310469313, |
| "grad_norm": 1.9504297971725464, |
| "learning_rate": 4.1933333333333334e-05, |
| "loss": 0.1932, |
| "step": 630 |
| }, |
| { |
| "epoch": 2.3104693140794224, |
| "grad_norm": 2.304089069366455, |
| "learning_rate": 4.26e-05, |
| "loss": 0.1935, |
| "step": 640 |
| }, |
| { |
| "epoch": 2.3465703971119134, |
| "grad_norm": 2.4123048782348633, |
| "learning_rate": 4.3266666666666664e-05, |
| "loss": 0.1911, |
| "step": 650 |
| }, |
| { |
| "epoch": 2.3826714801444044, |
| "grad_norm": 2.5345194339752197, |
| "learning_rate": 4.3933333333333335e-05, |
| "loss": 0.1861, |
| "step": 660 |
| }, |
| { |
| "epoch": 2.4187725631768955, |
| "grad_norm": 2.2014682292938232, |
| "learning_rate": 4.46e-05, |
| "loss": 0.1887, |
| "step": 670 |
| }, |
| { |
| "epoch": 2.4548736462093865, |
| "grad_norm": 2.7363312244415283, |
| "learning_rate": 4.526666666666667e-05, |
| "loss": 0.1826, |
| "step": 680 |
| }, |
| { |
| "epoch": 2.490974729241877, |
| "grad_norm": 2.445457935333252, |
| "learning_rate": 4.5933333333333336e-05, |
| "loss": 0.1782, |
| "step": 690 |
| }, |
| { |
| "epoch": 2.527075812274368, |
| "grad_norm": 3.096940279006958, |
| "learning_rate": 4.660000000000001e-05, |
| "loss": 0.1719, |
| "step": 700 |
| }, |
| { |
| "epoch": 2.563176895306859, |
| "grad_norm": 3.281512498855591, |
| "learning_rate": 4.726666666666667e-05, |
| "loss": 0.168, |
| "step": 710 |
| }, |
| { |
| "epoch": 2.5992779783393503, |
| "grad_norm": 3.32570743560791, |
| "learning_rate": 4.793333333333334e-05, |
| "loss": 0.1634, |
| "step": 720 |
| }, |
| { |
| "epoch": 2.6353790613718413, |
| "grad_norm": 2.5920348167419434, |
| "learning_rate": 4.86e-05, |
| "loss": 0.1641, |
| "step": 730 |
| }, |
| { |
| "epoch": 2.671480144404332, |
| "grad_norm": 3.0771641731262207, |
| "learning_rate": 4.926666666666667e-05, |
| "loss": 0.1589, |
| "step": 740 |
| }, |
| { |
| "epoch": 2.707581227436823, |
| "grad_norm": 3.3847527503967285, |
| "learning_rate": 4.993333333333334e-05, |
| "loss": 0.1588, |
| "step": 750 |
| }, |
| { |
| "epoch": 2.743682310469314, |
| "grad_norm": 3.3967106342315674, |
| "learning_rate": 5.0600000000000003e-05, |
| "loss": 0.1537, |
| "step": 760 |
| }, |
| { |
| "epoch": 2.779783393501805, |
| "grad_norm": 3.562208652496338, |
| "learning_rate": 5.1266666666666675e-05, |
| "loss": 0.1518, |
| "step": 770 |
| }, |
| { |
| "epoch": 2.815884476534296, |
| "grad_norm": 4.249292850494385, |
| "learning_rate": 5.193333333333333e-05, |
| "loss": 0.1517, |
| "step": 780 |
| }, |
| { |
| "epoch": 2.851985559566787, |
| "grad_norm": 3.7535207271575928, |
| "learning_rate": 5.2600000000000005e-05, |
| "loss": 0.1489, |
| "step": 790 |
| }, |
| { |
| "epoch": 2.888086642599278, |
| "grad_norm": 4.374902248382568, |
| "learning_rate": 5.326666666666666e-05, |
| "loss": 0.1449, |
| "step": 800 |
| }, |
| { |
| "epoch": 2.9241877256317688, |
| "grad_norm": 3.9763412475585938, |
| "learning_rate": 5.3933333333333334e-05, |
| "loss": 0.1359, |
| "step": 810 |
| }, |
| { |
| "epoch": 2.96028880866426, |
| "grad_norm": 3.976372241973877, |
| "learning_rate": 5.4600000000000006e-05, |
| "loss": 0.1327, |
| "step": 820 |
| }, |
| { |
| "epoch": 2.996389891696751, |
| "grad_norm": 2.532400131225586, |
| "learning_rate": 5.5266666666666664e-05, |
| "loss": 0.1238, |
| "step": 830 |
| }, |
| { |
| "epoch": 3.032490974729242, |
| "grad_norm": 7.225079536437988, |
| "learning_rate": 5.5933333333333335e-05, |
| "loss": 0.1338, |
| "step": 840 |
| }, |
| { |
| "epoch": 3.068592057761733, |
| "grad_norm": 3.196591854095459, |
| "learning_rate": 5.66e-05, |
| "loss": 0.1232, |
| "step": 850 |
| }, |
| { |
| "epoch": 3.104693140794224, |
| "grad_norm": 4.404566764831543, |
| "learning_rate": 5.726666666666667e-05, |
| "loss": 0.1137, |
| "step": 860 |
| }, |
| { |
| "epoch": 3.140794223826715, |
| "grad_norm": 5.581392765045166, |
| "learning_rate": 5.7933333333333337e-05, |
| "loss": 0.1121, |
| "step": 870 |
| }, |
| { |
| "epoch": 3.1768953068592056, |
| "grad_norm": 4.208507061004639, |
| "learning_rate": 5.86e-05, |
| "loss": 0.1147, |
| "step": 880 |
| }, |
| { |
| "epoch": 3.2129963898916967, |
| "grad_norm": 4.072608947753906, |
| "learning_rate": 5.926666666666667e-05, |
| "loss": 0.1048, |
| "step": 890 |
| }, |
| { |
| "epoch": 3.2490974729241877, |
| "grad_norm": 6.415537357330322, |
| "learning_rate": 5.9933333333333345e-05, |
| "loss": 0.1023, |
| "step": 900 |
| }, |
| { |
| "epoch": 3.2851985559566788, |
| "grad_norm": 5.0296854972839355, |
| "learning_rate": 6.06e-05, |
| "loss": 0.0996, |
| "step": 910 |
| }, |
| { |
| "epoch": 3.32129963898917, |
| "grad_norm": 3.894113779067993, |
| "learning_rate": 6.126666666666667e-05, |
| "loss": 0.0899, |
| "step": 920 |
| }, |
| { |
| "epoch": 3.357400722021661, |
| "grad_norm": 4.2843017578125, |
| "learning_rate": 6.193333333333333e-05, |
| "loss": 0.0829, |
| "step": 930 |
| }, |
| { |
| "epoch": 3.3935018050541514, |
| "grad_norm": 7.592728614807129, |
| "learning_rate": 6.26e-05, |
| "loss": 0.0781, |
| "step": 940 |
| }, |
| { |
| "epoch": 3.4296028880866425, |
| "grad_norm": 5.444018840789795, |
| "learning_rate": 6.326666666666667e-05, |
| "loss": 0.0922, |
| "step": 950 |
| }, |
| { |
| "epoch": 3.4657039711191335, |
| "grad_norm": 4.786616802215576, |
| "learning_rate": 6.393333333333333e-05, |
| "loss": 0.0789, |
| "step": 960 |
| }, |
| { |
| "epoch": 3.5018050541516246, |
| "grad_norm": 3.325745105743408, |
| "learning_rate": 6.460000000000001e-05, |
| "loss": 0.0673, |
| "step": 970 |
| }, |
| { |
| "epoch": 3.5379061371841156, |
| "grad_norm": 3.444308280944824, |
| "learning_rate": 6.526666666666666e-05, |
| "loss": 0.063, |
| "step": 980 |
| }, |
| { |
| "epoch": 3.5740072202166067, |
| "grad_norm": 4.334812641143799, |
| "learning_rate": 6.593333333333334e-05, |
| "loss": 0.0629, |
| "step": 990 |
| }, |
| { |
| "epoch": 3.6101083032490973, |
| "grad_norm": 3.642155647277832, |
| "learning_rate": 6.66e-05, |
| "loss": 0.0584, |
| "step": 1000 |
| } |
| ], |
| "logging_steps": 10, |
| "max_steps": 30000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 109, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 0.0, |
| "train_batch_size": 128, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|