{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 0.25, "eval_steps": 1000, "global_step": 120000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 2.0833333333333333e-05, "grad_norm": 7.369266510009766, "learning_rate": 1.4999999999999998e-06, "loss": 3.9784, "step": 10 }, { "epoch": 4.1666666666666665e-05, "grad_norm": 6.514930248260498, "learning_rate": 2.9999999999999997e-06, "loss": 4.0876, "step": 20 }, { "epoch": 6.25e-05, "grad_norm": 6.609025001525879, "learning_rate": 4.499999999999999e-06, "loss": 4.1488, "step": 30 }, { "epoch": 8.333333333333333e-05, "grad_norm": 6.772834300994873, "learning_rate": 5.999999999999999e-06, "loss": 3.8901, "step": 40 }, { "epoch": 0.00010416666666666667, "grad_norm": 7.126350402832031, "learning_rate": 7.499999999999999e-06, "loss": 4.0864, "step": 50 }, { "epoch": 0.000125, "grad_norm": 6.566469192504883, "learning_rate": 8.999999999999999e-06, "loss": 4.1959, "step": 60 }, { "epoch": 0.00014583333333333335, "grad_norm": 5.515867710113525, "learning_rate": 1.05e-05, "loss": 3.8084, "step": 70 }, { "epoch": 0.00016666666666666666, "grad_norm": 5.790792942047119, "learning_rate": 1.1999999999999999e-05, "loss": 4.0739, "step": 80 }, { "epoch": 0.0001875, "grad_norm": 6.053430557250977, "learning_rate": 1.3499999999999998e-05, "loss": 4.2123, "step": 90 }, { "epoch": 0.00020833333333333335, "grad_norm": 5.650411128997803, "learning_rate": 1.4999999999999999e-05, "loss": 3.9249, "step": 100 }, { "epoch": 0.00022916666666666666, "grad_norm": 5.531260013580322, "learning_rate": 1.6499999999999998e-05, "loss": 4.0193, "step": 110 }, { "epoch": 0.00025, "grad_norm": 4.885991096496582, "learning_rate": 1.7999999999999997e-05, "loss": 3.724, "step": 120 }, { "epoch": 0.0002708333333333333, "grad_norm": 5.165462970733643, "learning_rate": 1.95e-05, "loss": 3.9344, "step": 130 }, { "epoch": 0.0002916666666666667, "grad_norm": 4.782204627990723, "learning_rate": 2.1e-05, "loss": 4.0379, "step": 140 }, { "epoch": 0.0003125, "grad_norm": 4.9411420822143555, "learning_rate": 2.2499999999999998e-05, "loss": 4.0888, "step": 150 }, { "epoch": 0.0003333333333333333, "grad_norm": 4.048075199127197, "learning_rate": 2.3999999999999997e-05, "loss": 3.9382, "step": 160 }, { "epoch": 0.0003541666666666667, "grad_norm": 4.106828212738037, "learning_rate": 2.55e-05, "loss": 3.9063, "step": 170 }, { "epoch": 0.000375, "grad_norm": 3.967660903930664, "learning_rate": 2.6999999999999996e-05, "loss": 3.8479, "step": 180 }, { "epoch": 0.0003958333333333333, "grad_norm": 4.1011834144592285, "learning_rate": 2.8499999999999998e-05, "loss": 4.0807, "step": 190 }, { "epoch": 0.0004166666666666667, "grad_norm": 3.6805419921875, "learning_rate": 2.9999999999999997e-05, "loss": 4.1101, "step": 200 }, { "epoch": 0.0004375, "grad_norm": 4.586904048919678, "learning_rate": 3.149999999999999e-05, "loss": 3.8571, "step": 210 }, { "epoch": 0.0004583333333333333, "grad_norm": 3.1647002696990967, "learning_rate": 3.2999999999999996e-05, "loss": 3.729, "step": 220 }, { "epoch": 0.00047916666666666664, "grad_norm": 2.835263729095459, "learning_rate": 3.45e-05, "loss": 3.9869, "step": 230 }, { "epoch": 0.0005, "grad_norm": 3.3656539916992188, "learning_rate": 3.5999999999999994e-05, "loss": 3.918, "step": 240 }, { "epoch": 0.0005208333333333333, "grad_norm": 2.8719184398651123, "learning_rate": 3.75e-05, "loss": 3.7732, "step": 250 }, { "epoch": 0.0005416666666666666, "grad_norm": 2.6891679763793945, "learning_rate": 3.9e-05, "loss": 3.7452, "step": 260 }, { "epoch": 0.0005625, "grad_norm": 2.6710000038146973, "learning_rate": 4.05e-05, "loss": 3.7136, "step": 270 }, { "epoch": 0.0005833333333333334, "grad_norm": 2.977600574493408, "learning_rate": 4.2e-05, "loss": 3.7154, "step": 280 }, { "epoch": 0.0006041666666666667, "grad_norm": 2.6756129264831543, "learning_rate": 4.3499999999999993e-05, "loss": 4.0673, "step": 290 }, { "epoch": 0.000625, "grad_norm": 2.4988200664520264, "learning_rate": 4.4999999999999996e-05, "loss": 4.0176, "step": 300 }, { "epoch": 0.0006458333333333333, "grad_norm": 2.9364583492279053, "learning_rate": 4.65e-05, "loss": 3.952, "step": 310 }, { "epoch": 0.0006666666666666666, "grad_norm": 2.2746999263763428, "learning_rate": 4.7999999999999994e-05, "loss": 3.9988, "step": 320 }, { "epoch": 0.0006875, "grad_norm": 3.031714916229248, "learning_rate": 4.95e-05, "loss": 3.9168, "step": 330 }, { "epoch": 0.0007083333333333334, "grad_norm": 2.9307734966278076, "learning_rate": 5.1e-05, "loss": 3.6942, "step": 340 }, { "epoch": 0.0007291666666666667, "grad_norm": 2.580369234085083, "learning_rate": 5.2499999999999995e-05, "loss": 3.9896, "step": 350 }, { "epoch": 0.00075, "grad_norm": 2.8122284412384033, "learning_rate": 5.399999999999999e-05, "loss": 3.9724, "step": 360 }, { "epoch": 0.0007708333333333333, "grad_norm": 2.378981113433838, "learning_rate": 5.5499999999999994e-05, "loss": 3.9802, "step": 370 }, { "epoch": 0.0007916666666666666, "grad_norm": 2.870683431625366, "learning_rate": 5.6999999999999996e-05, "loss": 3.9385, "step": 380 }, { "epoch": 0.0008125, "grad_norm": 2.762826442718506, "learning_rate": 5.85e-05, "loss": 3.7719, "step": 390 }, { "epoch": 0.0008333333333333334, "grad_norm": 2.886190891265869, "learning_rate": 5.9999999999999995e-05, "loss": 3.8097, "step": 400 }, { "epoch": 0.0008541666666666667, "grad_norm": 2.836409568786621, "learning_rate": 6.149999999999999e-05, "loss": 3.818, "step": 410 }, { "epoch": 0.000875, "grad_norm": 2.8510560989379883, "learning_rate": 6.299999999999999e-05, "loss": 3.8657, "step": 420 }, { "epoch": 0.0008958333333333333, "grad_norm": 2.677159309387207, "learning_rate": 6.45e-05, "loss": 3.772, "step": 430 }, { "epoch": 0.0009166666666666666, "grad_norm": 2.7777462005615234, "learning_rate": 6.599999999999999e-05, "loss": 3.9021, "step": 440 }, { "epoch": 0.0009375, "grad_norm": 2.45473313331604, "learning_rate": 6.75e-05, "loss": 3.829, "step": 450 }, { "epoch": 0.0009583333333333333, "grad_norm": 2.926514148712158, "learning_rate": 6.9e-05, "loss": 3.898, "step": 460 }, { "epoch": 0.0009791666666666666, "grad_norm": 2.252542495727539, "learning_rate": 7.049999999999999e-05, "loss": 4.0223, "step": 470 }, { "epoch": 0.001, "grad_norm": 2.351160764694214, "learning_rate": 7.199999999999999e-05, "loss": 3.9716, "step": 480 }, { "epoch": 0.0010208333333333332, "grad_norm": 2.2558159828186035, "learning_rate": 7.35e-05, "loss": 3.8676, "step": 490 }, { "epoch": 0.0010416666666666667, "grad_norm": 2.1864795684814453, "learning_rate": 7.5e-05, "loss": 3.935, "step": 500 }, { "epoch": 0.0010625, "grad_norm": 2.233490228652954, "learning_rate": 7.649999999999999e-05, "loss": 3.9034, "step": 510 }, { "epoch": 0.0010833333333333333, "grad_norm": 2.337550163269043, "learning_rate": 7.8e-05, "loss": 3.8822, "step": 520 }, { "epoch": 0.0011041666666666667, "grad_norm": 2.284830093383789, "learning_rate": 7.95e-05, "loss": 3.9275, "step": 530 }, { "epoch": 0.001125, "grad_norm": 2.2319915294647217, "learning_rate": 8.1e-05, "loss": 3.8581, "step": 540 }, { "epoch": 0.0011458333333333333, "grad_norm": 2.0077998638153076, "learning_rate": 8.25e-05, "loss": 4.1426, "step": 550 }, { "epoch": 0.0011666666666666668, "grad_norm": 1.9239250421524048, "learning_rate": 8.4e-05, "loss": 4.0844, "step": 560 }, { "epoch": 0.0011875, "grad_norm": 2.4204318523406982, "learning_rate": 8.549999999999999e-05, "loss": 3.824, "step": 570 }, { "epoch": 0.0012083333333333334, "grad_norm": 3.8920788764953613, "learning_rate": 8.699999999999999e-05, "loss": 3.9309, "step": 580 }, { "epoch": 0.0012291666666666666, "grad_norm": 2.097668409347534, "learning_rate": 8.849999999999998e-05, "loss": 3.8477, "step": 590 }, { "epoch": 0.00125, "grad_norm": 2.2848875522613525, "learning_rate": 8.999999999999999e-05, "loss": 3.8475, "step": 600 }, { "epoch": 0.0012708333333333332, "grad_norm": 2.121750831604004, "learning_rate": 9.149999999999999e-05, "loss": 3.9012, "step": 610 }, { "epoch": 0.0012916666666666667, "grad_norm": 1.888998031616211, "learning_rate": 9.3e-05, "loss": 4.2044, "step": 620 }, { "epoch": 0.0013125, "grad_norm": 1.9981203079223633, "learning_rate": 9.449999999999999e-05, "loss": 3.8536, "step": 630 }, { "epoch": 0.0013333333333333333, "grad_norm": 2.53363299369812, "learning_rate": 9.599999999999999e-05, "loss": 3.8059, "step": 640 }, { "epoch": 0.0013541666666666667, "grad_norm": 2.019169569015503, "learning_rate": 9.75e-05, "loss": 4.0733, "step": 650 }, { "epoch": 0.001375, "grad_norm": 2.37184739112854, "learning_rate": 9.9e-05, "loss": 3.9411, "step": 660 }, { "epoch": 0.0013958333333333333, "grad_norm": 2.0165822505950928, "learning_rate": 0.0001005, "loss": 4.0182, "step": 670 }, { "epoch": 0.0014166666666666668, "grad_norm": 1.9455044269561768, "learning_rate": 0.000102, "loss": 3.8239, "step": 680 }, { "epoch": 0.0014375, "grad_norm": 1.9293179512023926, "learning_rate": 0.00010349999999999998, "loss": 3.8611, "step": 690 }, { "epoch": 0.0014583333333333334, "grad_norm": 2.145423650741577, "learning_rate": 0.00010499999999999999, "loss": 4.0455, "step": 700 }, { "epoch": 0.0014791666666666666, "grad_norm": 2.0064008235931396, "learning_rate": 0.00010649999999999999, "loss": 3.9075, "step": 710 }, { "epoch": 0.0015, "grad_norm": 1.8732527494430542, "learning_rate": 0.00010799999999999998, "loss": 3.9255, "step": 720 }, { "epoch": 0.0015208333333333332, "grad_norm": 1.9233214855194092, "learning_rate": 0.00010949999999999999, "loss": 3.8687, "step": 730 }, { "epoch": 0.0015416666666666667, "grad_norm": 1.7792178392410278, "learning_rate": 0.00011099999999999999, "loss": 4.0953, "step": 740 }, { "epoch": 0.0015625, "grad_norm": 1.6663944721221924, "learning_rate": 0.0001125, "loss": 3.9122, "step": 750 }, { "epoch": 0.0015833333333333333, "grad_norm": 1.86878502368927, "learning_rate": 0.00011399999999999999, "loss": 3.7749, "step": 760 }, { "epoch": 0.0016041666666666667, "grad_norm": 1.9254858493804932, "learning_rate": 0.00011549999999999999, "loss": 3.8661, "step": 770 }, { "epoch": 0.001625, "grad_norm": 1.8493620157241821, "learning_rate": 0.000117, "loss": 3.8769, "step": 780 }, { "epoch": 0.0016458333333333333, "grad_norm": 1.7688013315200806, "learning_rate": 0.0001185, "loss": 3.8536, "step": 790 }, { "epoch": 0.0016666666666666668, "grad_norm": 1.916062831878662, "learning_rate": 0.00011999999999999999, "loss": 4.1509, "step": 800 }, { "epoch": 0.0016875, "grad_norm": 1.925788164138794, "learning_rate": 0.0001215, "loss": 4.0038, "step": 810 }, { "epoch": 0.0017083333333333334, "grad_norm": 1.761607050895691, "learning_rate": 0.00012299999999999998, "loss": 4.0914, "step": 820 }, { "epoch": 0.0017291666666666666, "grad_norm": 1.664099931716919, "learning_rate": 0.0001245, "loss": 4.0469, "step": 830 }, { "epoch": 0.00175, "grad_norm": 1.8013993501663208, "learning_rate": 0.00012599999999999997, "loss": 3.8813, "step": 840 }, { "epoch": 0.0017708333333333332, "grad_norm": 1.6956766843795776, "learning_rate": 0.00012749999999999998, "loss": 3.822, "step": 850 }, { "epoch": 0.0017916666666666667, "grad_norm": 2.446249008178711, "learning_rate": 0.000129, "loss": 4.1627, "step": 860 }, { "epoch": 0.0018125, "grad_norm": 1.7902626991271973, "learning_rate": 0.0001305, "loss": 3.9155, "step": 870 }, { "epoch": 0.0018333333333333333, "grad_norm": 1.739357590675354, "learning_rate": 0.00013199999999999998, "loss": 3.9453, "step": 880 }, { "epoch": 0.0018541666666666667, "grad_norm": 1.642500638961792, "learning_rate": 0.0001335, "loss": 3.923, "step": 890 }, { "epoch": 0.001875, "grad_norm": 1.722559928894043, "learning_rate": 0.000135, "loss": 3.6202, "step": 900 }, { "epoch": 0.0018958333333333334, "grad_norm": 1.6645526885986328, "learning_rate": 0.00013649999999999998, "loss": 3.9847, "step": 910 }, { "epoch": 0.0019166666666666666, "grad_norm": 1.858047604560852, "learning_rate": 0.000138, "loss": 3.9687, "step": 920 }, { "epoch": 0.0019375, "grad_norm": 1.6346834897994995, "learning_rate": 0.0001395, "loss": 3.8396, "step": 930 }, { "epoch": 0.001958333333333333, "grad_norm": 1.6274609565734863, "learning_rate": 0.00014099999999999998, "loss": 3.9659, "step": 940 }, { "epoch": 0.001979166666666667, "grad_norm": 1.5527580976486206, "learning_rate": 0.0001425, "loss": 4.1579, "step": 950 }, { "epoch": 0.002, "grad_norm": 1.4515953063964844, "learning_rate": 0.00014399999999999998, "loss": 4.0735, "step": 960 }, { "epoch": 0.0020208333333333332, "grad_norm": 1.5999442338943481, "learning_rate": 0.00014549999999999999, "loss": 3.7239, "step": 970 }, { "epoch": 0.0020416666666666665, "grad_norm": 1.4522101879119873, "learning_rate": 0.000147, "loss": 3.9694, "step": 980 }, { "epoch": 0.0020625, "grad_norm": 1.5093501806259155, "learning_rate": 0.00014849999999999998, "loss": 3.9805, "step": 990 }, { "epoch": 0.0020833333333333333, "grad_norm": 1.4990453720092773, "learning_rate": 0.00015, "loss": 3.9406, "step": 1000 }, { "epoch": 0.0020833333333333333, "eval_loss": 4.242117404937744, "eval_runtime": 10.3451, "eval_samples_per_second": 0.967, "eval_steps_per_second": 0.29, "step": 1000 }, { "epoch": 0.0021041666666666665, "grad_norm": 1.5953153371810913, "learning_rate": 0.0001515, "loss": 3.973, "step": 1010 }, { "epoch": 0.002125, "grad_norm": 1.5966213941574097, "learning_rate": 0.00015299999999999998, "loss": 4.0613, "step": 1020 }, { "epoch": 0.0021458333333333334, "grad_norm": 1.6065714359283447, "learning_rate": 0.0001545, "loss": 3.9056, "step": 1030 }, { "epoch": 0.0021666666666666666, "grad_norm": 1.5830721855163574, "learning_rate": 0.000156, "loss": 3.8975, "step": 1040 }, { "epoch": 0.0021875, "grad_norm": 2.020400047302246, "learning_rate": 0.00015749999999999998, "loss": 4.0566, "step": 1050 }, { "epoch": 0.0022083333333333334, "grad_norm": 1.5964298248291016, "learning_rate": 0.000159, "loss": 3.8835, "step": 1060 }, { "epoch": 0.0022291666666666666, "grad_norm": 1.416454792022705, "learning_rate": 0.0001605, "loss": 3.8443, "step": 1070 }, { "epoch": 0.00225, "grad_norm": 1.5983104705810547, "learning_rate": 0.000162, "loss": 3.9339, "step": 1080 }, { "epoch": 0.0022708333333333335, "grad_norm": 1.468064785003662, "learning_rate": 0.0001635, "loss": 3.9165, "step": 1090 }, { "epoch": 0.0022916666666666667, "grad_norm": 1.4951664209365845, "learning_rate": 0.000165, "loss": 4.1157, "step": 1100 }, { "epoch": 0.0023125, "grad_norm": 1.4276723861694336, "learning_rate": 0.0001665, "loss": 4.1812, "step": 1110 }, { "epoch": 0.0023333333333333335, "grad_norm": 1.5610439777374268, "learning_rate": 0.000168, "loss": 3.8691, "step": 1120 }, { "epoch": 0.0023541666666666667, "grad_norm": 1.53255295753479, "learning_rate": 0.00016949999999999997, "loss": 3.9833, "step": 1130 }, { "epoch": 0.002375, "grad_norm": 1.3743901252746582, "learning_rate": 0.00017099999999999998, "loss": 4.0057, "step": 1140 }, { "epoch": 0.002395833333333333, "grad_norm": 1.3765223026275635, "learning_rate": 0.00017249999999999996, "loss": 4.0022, "step": 1150 }, { "epoch": 0.002416666666666667, "grad_norm": 1.446834683418274, "learning_rate": 0.00017399999999999997, "loss": 3.9921, "step": 1160 }, { "epoch": 0.0024375, "grad_norm": 1.5292930603027344, "learning_rate": 0.00017549999999999998, "loss": 4.0972, "step": 1170 }, { "epoch": 0.002458333333333333, "grad_norm": 2.05924654006958, "learning_rate": 0.00017699999999999997, "loss": 3.9467, "step": 1180 }, { "epoch": 0.002479166666666667, "grad_norm": 1.3823415040969849, "learning_rate": 0.00017849999999999997, "loss": 3.9854, "step": 1190 }, { "epoch": 0.0025, "grad_norm": 1.386183738708496, "learning_rate": 0.00017999999999999998, "loss": 4.0909, "step": 1200 }, { "epoch": 0.0025208333333333333, "grad_norm": 1.5277749300003052, "learning_rate": 0.00018149999999999997, "loss": 4.3117, "step": 1210 }, { "epoch": 0.0025416666666666665, "grad_norm": 1.3108004331588745, "learning_rate": 0.00018299999999999998, "loss": 4.0516, "step": 1220 }, { "epoch": 0.0025625, "grad_norm": 1.484606385231018, "learning_rate": 0.00018449999999999999, "loss": 4.1339, "step": 1230 }, { "epoch": 0.0025833333333333333, "grad_norm": 1.4781019687652588, "learning_rate": 0.000186, "loss": 4.2401, "step": 1240 }, { "epoch": 0.0026041666666666665, "grad_norm": 1.3698230981826782, "learning_rate": 0.00018749999999999998, "loss": 3.8749, "step": 1250 }, { "epoch": 0.002625, "grad_norm": 1.4999946355819702, "learning_rate": 0.00018899999999999999, "loss": 4.2945, "step": 1260 }, { "epoch": 0.0026458333333333334, "grad_norm": 1.264510154724121, "learning_rate": 0.0001905, "loss": 4.0403, "step": 1270 }, { "epoch": 0.0026666666666666666, "grad_norm": 1.4496684074401855, "learning_rate": 0.00019199999999999998, "loss": 3.9182, "step": 1280 }, { "epoch": 0.0026875, "grad_norm": 1.4432339668273926, "learning_rate": 0.0001935, "loss": 4.0175, "step": 1290 }, { "epoch": 0.0027083333333333334, "grad_norm": 1.306222677230835, "learning_rate": 0.000195, "loss": 4.0138, "step": 1300 }, { "epoch": 0.0027291666666666666, "grad_norm": 1.4940820932388306, "learning_rate": 0.00019649999999999998, "loss": 4.0746, "step": 1310 }, { "epoch": 0.00275, "grad_norm": 1.342800498008728, "learning_rate": 0.000198, "loss": 3.9512, "step": 1320 }, { "epoch": 0.0027708333333333335, "grad_norm": 1.2622003555297852, "learning_rate": 0.0001995, "loss": 3.956, "step": 1330 }, { "epoch": 0.0027916666666666667, "grad_norm": 1.3727186918258667, "learning_rate": 0.000201, "loss": 3.9796, "step": 1340 }, { "epoch": 0.0028125, "grad_norm": 1.2846344709396362, "learning_rate": 0.0002025, "loss": 4.0527, "step": 1350 }, { "epoch": 0.0028333333333333335, "grad_norm": 1.3601651191711426, "learning_rate": 0.000204, "loss": 3.9333, "step": 1360 }, { "epoch": 0.0028541666666666667, "grad_norm": 1.3182964324951172, "learning_rate": 0.0002055, "loss": 3.991, "step": 1370 }, { "epoch": 0.002875, "grad_norm": 1.363232135772705, "learning_rate": 0.00020699999999999996, "loss": 4.1472, "step": 1380 }, { "epoch": 0.002895833333333333, "grad_norm": 1.6237571239471436, "learning_rate": 0.00020849999999999997, "loss": 3.9768, "step": 1390 }, { "epoch": 0.002916666666666667, "grad_norm": 1.8679720163345337, "learning_rate": 0.00020999999999999998, "loss": 3.9835, "step": 1400 }, { "epoch": 0.0029375, "grad_norm": 1.1690763235092163, "learning_rate": 0.00021149999999999996, "loss": 4.1292, "step": 1410 }, { "epoch": 0.002958333333333333, "grad_norm": 1.364965558052063, "learning_rate": 0.00021299999999999997, "loss": 3.8245, "step": 1420 }, { "epoch": 0.002979166666666667, "grad_norm": 1.122480869293213, "learning_rate": 0.00021449999999999998, "loss": 4.0, "step": 1430 }, { "epoch": 0.003, "grad_norm": 1.2842473983764648, "learning_rate": 0.00021599999999999996, "loss": 4.0448, "step": 1440 }, { "epoch": 0.0030208333333333333, "grad_norm": 1.4669883251190186, "learning_rate": 0.00021749999999999997, "loss": 4.1627, "step": 1450 }, { "epoch": 0.0030416666666666665, "grad_norm": 1.3798481225967407, "learning_rate": 0.00021899999999999998, "loss": 3.9475, "step": 1460 }, { "epoch": 0.0030625, "grad_norm": 1.3747225999832153, "learning_rate": 0.00022049999999999997, "loss": 3.9597, "step": 1470 }, { "epoch": 0.0030833333333333333, "grad_norm": 1.3016811609268188, "learning_rate": 0.00022199999999999998, "loss": 4.0458, "step": 1480 }, { "epoch": 0.0031041666666666665, "grad_norm": 1.2116535902023315, "learning_rate": 0.00022349999999999998, "loss": 4.1549, "step": 1490 }, { "epoch": 0.003125, "grad_norm": 1.475224256515503, "learning_rate": 0.000225, "loss": 4.0192, "step": 1500 }, { "epoch": 0.0031458333333333334, "grad_norm": 1.411436915397644, "learning_rate": 0.00022649999999999998, "loss": 4.0533, "step": 1510 }, { "epoch": 0.0031666666666666666, "grad_norm": 1.175031304359436, "learning_rate": 0.00022799999999999999, "loss": 3.994, "step": 1520 }, { "epoch": 0.0031875, "grad_norm": 1.2909666299819946, "learning_rate": 0.0002295, "loss": 4.1104, "step": 1530 }, { "epoch": 0.0032083333333333334, "grad_norm": 1.1881543397903442, "learning_rate": 0.00023099999999999998, "loss": 4.1381, "step": 1540 }, { "epoch": 0.0032291666666666666, "grad_norm": 1.2744104862213135, "learning_rate": 0.00023249999999999999, "loss": 4.0251, "step": 1550 }, { "epoch": 0.00325, "grad_norm": 1.3131662607192993, "learning_rate": 0.000234, "loss": 4.167, "step": 1560 }, { "epoch": 0.0032708333333333335, "grad_norm": 1.2335139513015747, "learning_rate": 0.00023549999999999998, "loss": 3.8963, "step": 1570 }, { "epoch": 0.0032916666666666667, "grad_norm": 1.1656324863433838, "learning_rate": 0.000237, "loss": 4.2505, "step": 1580 }, { "epoch": 0.0033125, "grad_norm": 1.3538964986801147, "learning_rate": 0.0002385, "loss": 3.9851, "step": 1590 }, { "epoch": 0.0033333333333333335, "grad_norm": 1.3212934732437134, "learning_rate": 0.00023999999999999998, "loss": 4.1367, "step": 1600 }, { "epoch": 0.0033541666666666668, "grad_norm": 1.171884298324585, "learning_rate": 0.0002415, "loss": 4.2488, "step": 1610 }, { "epoch": 0.003375, "grad_norm": 1.3764070272445679, "learning_rate": 0.000243, "loss": 4.1123, "step": 1620 }, { "epoch": 0.003395833333333333, "grad_norm": 1.267585277557373, "learning_rate": 0.0002445, "loss": 4.1675, "step": 1630 }, { "epoch": 0.003416666666666667, "grad_norm": 1.3058395385742188, "learning_rate": 0.00024599999999999996, "loss": 3.8901, "step": 1640 }, { "epoch": 0.0034375, "grad_norm": 1.341983675956726, "learning_rate": 0.00024749999999999994, "loss": 4.0792, "step": 1650 }, { "epoch": 0.0034583333333333332, "grad_norm": 1.173112392425537, "learning_rate": 0.000249, "loss": 3.8471, "step": 1660 }, { "epoch": 0.003479166666666667, "grad_norm": 1.409528374671936, "learning_rate": 0.00025049999999999996, "loss": 4.0386, "step": 1670 }, { "epoch": 0.0035, "grad_norm": 1.1081422567367554, "learning_rate": 0.00025199999999999995, "loss": 4.0552, "step": 1680 }, { "epoch": 0.0035208333333333333, "grad_norm": 1.300365924835205, "learning_rate": 0.0002535, "loss": 4.0157, "step": 1690 }, { "epoch": 0.0035416666666666665, "grad_norm": 1.1579424142837524, "learning_rate": 0.00025499999999999996, "loss": 3.979, "step": 1700 }, { "epoch": 0.0035625, "grad_norm": 1.1906883716583252, "learning_rate": 0.00025649999999999995, "loss": 4.0803, "step": 1710 }, { "epoch": 0.0035833333333333333, "grad_norm": 1.1819592714309692, "learning_rate": 0.000258, "loss": 4.0365, "step": 1720 }, { "epoch": 0.0036041666666666665, "grad_norm": 1.3222588300704956, "learning_rate": 0.00025949999999999997, "loss": 4.0097, "step": 1730 }, { "epoch": 0.003625, "grad_norm": 1.2372713088989258, "learning_rate": 0.000261, "loss": 4.2415, "step": 1740 }, { "epoch": 0.0036458333333333334, "grad_norm": 1.192972183227539, "learning_rate": 0.0002625, "loss": 3.9821, "step": 1750 }, { "epoch": 0.0036666666666666666, "grad_norm": 1.2455264329910278, "learning_rate": 0.00026399999999999997, "loss": 4.2005, "step": 1760 }, { "epoch": 0.0036875, "grad_norm": 1.2281546592712402, "learning_rate": 0.0002655, "loss": 3.9592, "step": 1770 }, { "epoch": 0.0037083333333333334, "grad_norm": 2.3578450679779053, "learning_rate": 0.000267, "loss": 4.0041, "step": 1780 }, { "epoch": 0.0037291666666666667, "grad_norm": 1.2774590253829956, "learning_rate": 0.00026849999999999997, "loss": 3.9978, "step": 1790 }, { "epoch": 0.00375, "grad_norm": 1.3133232593536377, "learning_rate": 0.00027, "loss": 4.1734, "step": 1800 }, { "epoch": 0.0037708333333333335, "grad_norm": 1.335173487663269, "learning_rate": 0.0002715, "loss": 4.117, "step": 1810 }, { "epoch": 0.0037916666666666667, "grad_norm": 1.1842995882034302, "learning_rate": 0.00027299999999999997, "loss": 3.9825, "step": 1820 }, { "epoch": 0.0038125, "grad_norm": 1.1911958456039429, "learning_rate": 0.0002745, "loss": 4.1208, "step": 1830 }, { "epoch": 0.003833333333333333, "grad_norm": 1.4115355014801025, "learning_rate": 0.000276, "loss": 4.0871, "step": 1840 }, { "epoch": 0.0038541666666666668, "grad_norm": 1.940555214881897, "learning_rate": 0.00027749999999999997, "loss": 4.0454, "step": 1850 }, { "epoch": 0.003875, "grad_norm": 1.300365924835205, "learning_rate": 0.000279, "loss": 3.9271, "step": 1860 }, { "epoch": 0.003895833333333333, "grad_norm": 1.2404224872589111, "learning_rate": 0.0002805, "loss": 4.0941, "step": 1870 }, { "epoch": 0.003916666666666666, "grad_norm": 1.1379237174987793, "learning_rate": 0.00028199999999999997, "loss": 4.1332, "step": 1880 }, { "epoch": 0.0039375, "grad_norm": 1.171494483947754, "learning_rate": 0.00028349999999999995, "loss": 4.0771, "step": 1890 }, { "epoch": 0.003958333333333334, "grad_norm": 1.444305658340454, "learning_rate": 0.000285, "loss": 4.0065, "step": 1900 }, { "epoch": 0.0039791666666666664, "grad_norm": 1.1444891691207886, "learning_rate": 0.00028649999999999997, "loss": 4.0505, "step": 1910 }, { "epoch": 0.004, "grad_norm": 1.1751891374588013, "learning_rate": 0.00028799999999999995, "loss": 4.04, "step": 1920 }, { "epoch": 0.004020833333333334, "grad_norm": 1.3004765510559082, "learning_rate": 0.0002895, "loss": 4.0351, "step": 1930 }, { "epoch": 0.0040416666666666665, "grad_norm": 1.166332721710205, "learning_rate": 0.00029099999999999997, "loss": 3.8519, "step": 1940 }, { "epoch": 0.0040625, "grad_norm": 1.0714452266693115, "learning_rate": 0.00029249999999999995, "loss": 4.0759, "step": 1950 }, { "epoch": 0.004083333333333333, "grad_norm": 1.2121813297271729, "learning_rate": 0.000294, "loss": 3.9862, "step": 1960 }, { "epoch": 0.0041041666666666666, "grad_norm": 1.2187029123306274, "learning_rate": 0.00029549999999999997, "loss": 4.1827, "step": 1970 }, { "epoch": 0.004125, "grad_norm": 1.1891403198242188, "learning_rate": 0.00029699999999999996, "loss": 4.203, "step": 1980 }, { "epoch": 0.004145833333333333, "grad_norm": 1.3048672676086426, "learning_rate": 0.0002985, "loss": 4.1336, "step": 1990 }, { "epoch": 0.004166666666666667, "grad_norm": 1.2116934061050415, "learning_rate": 0.0003, "loss": 4.1862, "step": 2000 }, { "epoch": 0.004166666666666667, "eval_loss": 4.382291316986084, "eval_runtime": 10.3886, "eval_samples_per_second": 0.963, "eval_steps_per_second": 0.289, "step": 2000 }, { "epoch": 0.0041875, "grad_norm": 1.0577685832977295, "learning_rate": 0.00029999999967602963, "loss": 4.2605, "step": 2010 }, { "epoch": 0.004208333333333333, "grad_norm": 1.0988579988479614, "learning_rate": 0.0002999999987041187, "loss": 4.1993, "step": 2020 }, { "epoch": 0.004229166666666667, "grad_norm": 1.1419802904129028, "learning_rate": 0.00029999999708426716, "loss": 4.0242, "step": 2030 }, { "epoch": 0.00425, "grad_norm": 1.0286445617675781, "learning_rate": 0.000299999994816475, "loss": 3.8877, "step": 2040 }, { "epoch": 0.004270833333333333, "grad_norm": 1.1018036603927612, "learning_rate": 0.0002999999919007422, "loss": 4.264, "step": 2050 }, { "epoch": 0.004291666666666667, "grad_norm": 1.399141788482666, "learning_rate": 0.00029999998833706883, "loss": 4.3198, "step": 2060 }, { "epoch": 0.0043125, "grad_norm": 1.1172322034835815, "learning_rate": 0.0002999999841254549, "loss": 4.1278, "step": 2070 }, { "epoch": 0.004333333333333333, "grad_norm": 1.2724196910858154, "learning_rate": 0.0002999999792659004, "loss": 4.2393, "step": 2080 }, { "epoch": 0.004354166666666667, "grad_norm": 1.2641189098358154, "learning_rate": 0.00029999997375840536, "loss": 4.0983, "step": 2090 }, { "epoch": 0.004375, "grad_norm": 1.0351061820983887, "learning_rate": 0.0002999999676029699, "loss": 4.1453, "step": 2100 }, { "epoch": 0.004395833333333333, "grad_norm": 1.1754543781280518, "learning_rate": 0.00029999996079959376, "loss": 4.0488, "step": 2110 }, { "epoch": 0.004416666666666667, "grad_norm": 1.1882072687149048, "learning_rate": 0.0002999999533482773, "loss": 4.0995, "step": 2120 }, { "epoch": 0.0044375, "grad_norm": 1.2081167697906494, "learning_rate": 0.0002999999452490204, "loss": 4.0441, "step": 2130 }, { "epoch": 0.004458333333333333, "grad_norm": 1.2373205423355103, "learning_rate": 0.0002999999365018231, "loss": 4.1271, "step": 2140 }, { "epoch": 0.004479166666666667, "grad_norm": 1.3180184364318848, "learning_rate": 0.00029999992710668543, "loss": 4.152, "step": 2150 }, { "epoch": 0.0045, "grad_norm": 1.0901281833648682, "learning_rate": 0.00029999991706360747, "loss": 4.0374, "step": 2160 }, { "epoch": 0.004520833333333333, "grad_norm": 1.6377564668655396, "learning_rate": 0.0002999999063725892, "loss": 4.0079, "step": 2170 }, { "epoch": 0.004541666666666667, "grad_norm": 1.2074567079544067, "learning_rate": 0.00029999989503363077, "loss": 4.0182, "step": 2180 }, { "epoch": 0.0045625, "grad_norm": 1.2036203145980835, "learning_rate": 0.00029999988304673216, "loss": 3.9318, "step": 2190 }, { "epoch": 0.004583333333333333, "grad_norm": 1.0758192539215088, "learning_rate": 0.0002999998704118934, "loss": 4.1446, "step": 2200 }, { "epoch": 0.004604166666666667, "grad_norm": 1.3355058431625366, "learning_rate": 0.0002999998571291146, "loss": 4.117, "step": 2210 }, { "epoch": 0.004625, "grad_norm": 1.189584493637085, "learning_rate": 0.0002999998431983958, "loss": 4.1027, "step": 2220 }, { "epoch": 0.004645833333333333, "grad_norm": 1.054349660873413, "learning_rate": 0.000299999828619737, "loss": 4.2338, "step": 2230 }, { "epoch": 0.004666666666666667, "grad_norm": 1.0139858722686768, "learning_rate": 0.00029999981339313834, "loss": 4.0107, "step": 2240 }, { "epoch": 0.0046875, "grad_norm": 1.1467679738998413, "learning_rate": 0.00029999979751859984, "loss": 4.2146, "step": 2250 }, { "epoch": 0.0047083333333333335, "grad_norm": 1.0526251792907715, "learning_rate": 0.00029999978099612163, "loss": 4.0815, "step": 2260 }, { "epoch": 0.004729166666666666, "grad_norm": 1.1610180139541626, "learning_rate": 0.0002999997638257037, "loss": 4.002, "step": 2270 }, { "epoch": 0.00475, "grad_norm": 1.1730180978775024, "learning_rate": 0.0002999997460073462, "loss": 4.2205, "step": 2280 }, { "epoch": 0.0047708333333333335, "grad_norm": 1.184383511543274, "learning_rate": 0.0002999997275410492, "loss": 3.9301, "step": 2290 }, { "epoch": 0.004791666666666666, "grad_norm": 1.253609299659729, "learning_rate": 0.00029999970842681267, "loss": 4.3028, "step": 2300 }, { "epoch": 0.0048125, "grad_norm": 1.12043297290802, "learning_rate": 0.00029999968866463683, "loss": 4.1619, "step": 2310 }, { "epoch": 0.004833333333333334, "grad_norm": 1.2768105268478394, "learning_rate": 0.00029999966825452166, "loss": 4.2285, "step": 2320 }, { "epoch": 0.004854166666666666, "grad_norm": 1.096865177154541, "learning_rate": 0.00029999964719646733, "loss": 3.9927, "step": 2330 }, { "epoch": 0.004875, "grad_norm": 1.147199273109436, "learning_rate": 0.00029999962549047394, "loss": 4.1024, "step": 2340 }, { "epoch": 0.004895833333333334, "grad_norm": 1.2145557403564453, "learning_rate": 0.0002999996031365415, "loss": 4.1925, "step": 2350 }, { "epoch": 0.004916666666666666, "grad_norm": 1.2878481149673462, "learning_rate": 0.00029999958013467013, "loss": 4.29, "step": 2360 }, { "epoch": 0.0049375, "grad_norm": 1.0913647413253784, "learning_rate": 0.00029999955648485994, "loss": 4.0452, "step": 2370 }, { "epoch": 0.004958333333333334, "grad_norm": 1.0784485340118408, "learning_rate": 0.00029999953218711107, "loss": 3.9526, "step": 2380 }, { "epoch": 0.0049791666666666665, "grad_norm": 1.2260849475860596, "learning_rate": 0.0002999995072414236, "loss": 4.0098, "step": 2390 }, { "epoch": 0.005, "grad_norm": 1.08518648147583, "learning_rate": 0.0002999994816477976, "loss": 4.2647, "step": 2400 }, { "epoch": 0.005020833333333334, "grad_norm": 1.3454649448394775, "learning_rate": 0.00029999945540623324, "loss": 4.1582, "step": 2410 }, { "epoch": 0.0050416666666666665, "grad_norm": 1.1058865785598755, "learning_rate": 0.00029999942851673063, "loss": 4.2149, "step": 2420 }, { "epoch": 0.0050625, "grad_norm": 1.1923335790634155, "learning_rate": 0.0002999994009792898, "loss": 4.1541, "step": 2430 }, { "epoch": 0.005083333333333333, "grad_norm": 1.142852544784546, "learning_rate": 0.000299999372793911, "loss": 4.0744, "step": 2440 }, { "epoch": 0.005104166666666667, "grad_norm": 1.1746304035186768, "learning_rate": 0.00029999934396059423, "loss": 4.231, "step": 2450 }, { "epoch": 0.005125, "grad_norm": 0.9712422490119934, "learning_rate": 0.0002999993144793397, "loss": 4.3394, "step": 2460 }, { "epoch": 0.005145833333333333, "grad_norm": 1.2291202545166016, "learning_rate": 0.0002999992843501475, "loss": 4.028, "step": 2470 }, { "epoch": 0.005166666666666667, "grad_norm": 1.145798683166504, "learning_rate": 0.00029999925357301774, "loss": 4.114, "step": 2480 }, { "epoch": 0.0051875, "grad_norm": 1.0704258680343628, "learning_rate": 0.0002999992221479506, "loss": 4.3541, "step": 2490 }, { "epoch": 0.005208333333333333, "grad_norm": 1.0827873945236206, "learning_rate": 0.0002999991900749462, "loss": 4.099, "step": 2500 }, { "epoch": 0.005229166666666667, "grad_norm": 1.0499145984649658, "learning_rate": 0.0002999991573540047, "loss": 4.2679, "step": 2510 }, { "epoch": 0.00525, "grad_norm": 1.093379259109497, "learning_rate": 0.0002999991239851261, "loss": 4.1012, "step": 2520 }, { "epoch": 0.005270833333333333, "grad_norm": 1.046856164932251, "learning_rate": 0.00029999908996831075, "loss": 4.2928, "step": 2530 }, { "epoch": 0.005291666666666667, "grad_norm": 1.163751482963562, "learning_rate": 0.0002999990553035587, "loss": 4.3245, "step": 2540 }, { "epoch": 0.0053125, "grad_norm": 1.4320194721221924, "learning_rate": 0.00029999901999087014, "loss": 3.9341, "step": 2550 }, { "epoch": 0.005333333333333333, "grad_norm": 1.0278105735778809, "learning_rate": 0.0002999989840302451, "loss": 4.1493, "step": 2560 }, { "epoch": 0.005354166666666667, "grad_norm": 1.0652390718460083, "learning_rate": 0.00029999894742168385, "loss": 4.194, "step": 2570 }, { "epoch": 0.005375, "grad_norm": 1.0480515956878662, "learning_rate": 0.0002999989101651866, "loss": 3.9721, "step": 2580 }, { "epoch": 0.005395833333333333, "grad_norm": 1.142817497253418, "learning_rate": 0.0002999988722607533, "loss": 3.9859, "step": 2590 }, { "epoch": 0.005416666666666667, "grad_norm": 1.164863109588623, "learning_rate": 0.00029999883370838434, "loss": 4.058, "step": 2600 }, { "epoch": 0.0054375, "grad_norm": 1.197238802909851, "learning_rate": 0.00029999879450807977, "loss": 3.9827, "step": 2610 }, { "epoch": 0.005458333333333333, "grad_norm": 1.0357304811477661, "learning_rate": 0.00029999875465983977, "loss": 4.1392, "step": 2620 }, { "epoch": 0.005479166666666667, "grad_norm": 1.1916322708129883, "learning_rate": 0.00029999871416366456, "loss": 4.19, "step": 2630 }, { "epoch": 0.0055, "grad_norm": 4.384791374206543, "learning_rate": 0.00029999867301955425, "loss": 4.0635, "step": 2640 }, { "epoch": 0.005520833333333333, "grad_norm": 1.0943084955215454, "learning_rate": 0.000299998631227509, "loss": 4.1459, "step": 2650 }, { "epoch": 0.005541666666666667, "grad_norm": 0.9524834752082825, "learning_rate": 0.0002999985887875291, "loss": 4.0846, "step": 2660 }, { "epoch": 0.0055625, "grad_norm": 1.2036954164505005, "learning_rate": 0.00029999854569961467, "loss": 4.0522, "step": 2670 }, { "epoch": 0.005583333333333333, "grad_norm": 1.0524048805236816, "learning_rate": 0.00029999850196376585, "loss": 4.1405, "step": 2680 }, { "epoch": 0.005604166666666667, "grad_norm": 0.9235457181930542, "learning_rate": 0.0002999984575799829, "loss": 4.2421, "step": 2690 }, { "epoch": 0.005625, "grad_norm": 1.0990880727767944, "learning_rate": 0.000299998412548266, "loss": 4.282, "step": 2700 }, { "epoch": 0.005645833333333333, "grad_norm": 0.926478922367096, "learning_rate": 0.0002999983668686153, "loss": 4.2851, "step": 2710 }, { "epoch": 0.005666666666666667, "grad_norm": 1.0308059453964233, "learning_rate": 0.00029999832054103105, "loss": 4.1306, "step": 2720 }, { "epoch": 0.0056875, "grad_norm": 1.2634823322296143, "learning_rate": 0.00029999827356551345, "loss": 4.1079, "step": 2730 }, { "epoch": 0.0057083333333333335, "grad_norm": 1.12738835811615, "learning_rate": 0.0002999982259420627, "loss": 4.0866, "step": 2740 }, { "epoch": 0.005729166666666666, "grad_norm": 1.2450400590896606, "learning_rate": 0.00029999817767067895, "loss": 4.1577, "step": 2750 }, { "epoch": 0.00575, "grad_norm": 1.7179460525512695, "learning_rate": 0.0002999981287513624, "loss": 4.146, "step": 2760 }, { "epoch": 0.0057708333333333335, "grad_norm": 1.095332384109497, "learning_rate": 0.00029999807918411336, "loss": 4.1192, "step": 2770 }, { "epoch": 0.005791666666666666, "grad_norm": 1.1595033407211304, "learning_rate": 0.00029999802896893196, "loss": 4.1392, "step": 2780 }, { "epoch": 0.0058125, "grad_norm": 1.1099618673324585, "learning_rate": 0.0002999979781058185, "loss": 4.1111, "step": 2790 }, { "epoch": 0.005833333333333334, "grad_norm": 0.9408655166625977, "learning_rate": 0.0002999979265947731, "loss": 4.1332, "step": 2800 }, { "epoch": 0.005854166666666666, "grad_norm": 1.1000653505325317, "learning_rate": 0.00029999787443579605, "loss": 4.4146, "step": 2810 }, { "epoch": 0.005875, "grad_norm": 1.7831401824951172, "learning_rate": 0.0002999978216288876, "loss": 4.1126, "step": 2820 }, { "epoch": 0.005895833333333334, "grad_norm": 1.0727406740188599, "learning_rate": 0.00029999776817404784, "loss": 4.0295, "step": 2830 }, { "epoch": 0.005916666666666666, "grad_norm": 1.111051082611084, "learning_rate": 0.0002999977140712772, "loss": 4.0813, "step": 2840 }, { "epoch": 0.0059375, "grad_norm": 1.1414178609848022, "learning_rate": 0.0002999976593205757, "loss": 4.1177, "step": 2850 }, { "epoch": 0.005958333333333334, "grad_norm": 0.964155912399292, "learning_rate": 0.00029999760392194374, "loss": 4.1353, "step": 2860 }, { "epoch": 0.0059791666666666665, "grad_norm": 0.9044974446296692, "learning_rate": 0.0002999975478753815, "loss": 4.2462, "step": 2870 }, { "epoch": 0.006, "grad_norm": 1.0221383571624756, "learning_rate": 0.00029999749118088924, "loss": 4.1503, "step": 2880 }, { "epoch": 0.006020833333333334, "grad_norm": 0.9620047211647034, "learning_rate": 0.0002999974338384672, "loss": 4.0076, "step": 2890 }, { "epoch": 0.0060416666666666665, "grad_norm": 0.9373981356620789, "learning_rate": 0.0002999973758481156, "loss": 4.2175, "step": 2900 }, { "epoch": 0.0060625, "grad_norm": 1.0862994194030762, "learning_rate": 0.00029999731720983466, "loss": 4.0353, "step": 2910 }, { "epoch": 0.006083333333333333, "grad_norm": 1.1491087675094604, "learning_rate": 0.00029999725792362477, "loss": 4.1164, "step": 2920 }, { "epoch": 0.006104166666666667, "grad_norm": 1.0262116193771362, "learning_rate": 0.000299997197989486, "loss": 4.0479, "step": 2930 }, { "epoch": 0.006125, "grad_norm": 1.1843056678771973, "learning_rate": 0.0002999971374074188, "loss": 4.1838, "step": 2940 }, { "epoch": 0.006145833333333333, "grad_norm": 1.049102544784546, "learning_rate": 0.0002999970761774233, "loss": 4.1142, "step": 2950 }, { "epoch": 0.006166666666666667, "grad_norm": 0.9689348936080933, "learning_rate": 0.0002999970142994998, "loss": 4.1138, "step": 2960 }, { "epoch": 0.0061875, "grad_norm": 1.0530732870101929, "learning_rate": 0.0002999969517736486, "loss": 4.29, "step": 2970 }, { "epoch": 0.006208333333333333, "grad_norm": 1.7195388078689575, "learning_rate": 0.0002999968885998699, "loss": 4.1257, "step": 2980 }, { "epoch": 0.006229166666666667, "grad_norm": 1.0450174808502197, "learning_rate": 0.000299996824778164, "loss": 4.1088, "step": 2990 }, { "epoch": 0.00625, "grad_norm": 1.228456735610962, "learning_rate": 0.00029999676030853127, "loss": 4.2825, "step": 3000 }, { "epoch": 0.00625, "eval_loss": 4.378960609436035, "eval_runtime": 8.8477, "eval_samples_per_second": 1.13, "eval_steps_per_second": 0.339, "step": 3000 }, { "epoch": 0.006270833333333333, "grad_norm": 1.0226293802261353, "learning_rate": 0.00029999669519097187, "loss": 4.0176, "step": 3010 }, { "epoch": 0.006291666666666667, "grad_norm": 1.0989165306091309, "learning_rate": 0.0002999966294254861, "loss": 4.0433, "step": 3020 }, { "epoch": 0.0063125, "grad_norm": 1.1580628156661987, "learning_rate": 0.00029999656301207426, "loss": 4.2991, "step": 3030 }, { "epoch": 0.006333333333333333, "grad_norm": 1.0603053569793701, "learning_rate": 0.0002999964959507367, "loss": 4.2655, "step": 3040 }, { "epoch": 0.006354166666666667, "grad_norm": 1.0689760446548462, "learning_rate": 0.00029999642824147355, "loss": 4.2025, "step": 3050 }, { "epoch": 0.006375, "grad_norm": 0.9069424867630005, "learning_rate": 0.00029999635988428526, "loss": 4.1641, "step": 3060 }, { "epoch": 0.006395833333333333, "grad_norm": 1.004957914352417, "learning_rate": 0.0002999962908791721, "loss": 4.0479, "step": 3070 }, { "epoch": 0.006416666666666667, "grad_norm": 1.0289911031723022, "learning_rate": 0.0002999962212261343, "loss": 4.2761, "step": 3080 }, { "epoch": 0.0064375, "grad_norm": 1.219789981842041, "learning_rate": 0.0002999961509251722, "loss": 4.1492, "step": 3090 }, { "epoch": 0.006458333333333333, "grad_norm": 1.4861950874328613, "learning_rate": 0.0002999960799762861, "loss": 4.0238, "step": 3100 }, { "epoch": 0.006479166666666667, "grad_norm": 0.96826171875, "learning_rate": 0.00029999600837947633, "loss": 4.1346, "step": 3110 }, { "epoch": 0.0065, "grad_norm": 1.0257459878921509, "learning_rate": 0.00029999593613474313, "loss": 4.0958, "step": 3120 }, { "epoch": 0.006520833333333333, "grad_norm": 1.6640087366104126, "learning_rate": 0.00029999586324208687, "loss": 3.9899, "step": 3130 }, { "epoch": 0.006541666666666667, "grad_norm": 1.0861214399337769, "learning_rate": 0.0002999957897015079, "loss": 3.9649, "step": 3140 }, { "epoch": 0.0065625, "grad_norm": 0.9673305153846741, "learning_rate": 0.00029999571551300643, "loss": 4.0539, "step": 3150 }, { "epoch": 0.006583333333333333, "grad_norm": 0.9759741425514221, "learning_rate": 0.0002999956406765829, "loss": 4.0037, "step": 3160 }, { "epoch": 0.006604166666666667, "grad_norm": 1.2089710235595703, "learning_rate": 0.0002999955651922376, "loss": 4.0834, "step": 3170 }, { "epoch": 0.006625, "grad_norm": 1.2135523557662964, "learning_rate": 0.00029999548905997075, "loss": 4.2219, "step": 3180 }, { "epoch": 0.0066458333333333335, "grad_norm": 0.9745142459869385, "learning_rate": 0.00029999541227978275, "loss": 4.1502, "step": 3190 }, { "epoch": 0.006666666666666667, "grad_norm": 0.9930278658866882, "learning_rate": 0.00029999533485167395, "loss": 4.0187, "step": 3200 }, { "epoch": 0.0066875, "grad_norm": 0.9936468601226807, "learning_rate": 0.0002999952567756447, "loss": 3.9984, "step": 3210 }, { "epoch": 0.0067083333333333335, "grad_norm": 1.0657151937484741, "learning_rate": 0.00029999517805169535, "loss": 3.9239, "step": 3220 }, { "epoch": 0.006729166666666666, "grad_norm": 1.2029967308044434, "learning_rate": 0.00029999509867982614, "loss": 4.0249, "step": 3230 }, { "epoch": 0.00675, "grad_norm": 1.0581333637237549, "learning_rate": 0.00029999501866003755, "loss": 4.1263, "step": 3240 }, { "epoch": 0.0067708333333333336, "grad_norm": 0.9429060220718384, "learning_rate": 0.00029999493799232974, "loss": 4.1181, "step": 3250 }, { "epoch": 0.006791666666666666, "grad_norm": 1.3834877014160156, "learning_rate": 0.00029999485667670325, "loss": 4.0355, "step": 3260 }, { "epoch": 0.0068125, "grad_norm": 1.0421152114868164, "learning_rate": 0.00029999477471315836, "loss": 4.0786, "step": 3270 }, { "epoch": 0.006833333333333334, "grad_norm": 0.9363729953765869, "learning_rate": 0.00029999469210169533, "loss": 4.2617, "step": 3280 }, { "epoch": 0.006854166666666666, "grad_norm": 0.9872600436210632, "learning_rate": 0.0002999946088423147, "loss": 4.3244, "step": 3290 }, { "epoch": 0.006875, "grad_norm": 0.9648100137710571, "learning_rate": 0.0002999945249350167, "loss": 4.209, "step": 3300 }, { "epoch": 0.006895833333333334, "grad_norm": 0.9150853157043457, "learning_rate": 0.00029999444037980173, "loss": 4.1278, "step": 3310 }, { "epoch": 0.0069166666666666664, "grad_norm": 1.055658221244812, "learning_rate": 0.0002999943551766701, "loss": 4.0166, "step": 3320 }, { "epoch": 0.0069375, "grad_norm": 1.0330820083618164, "learning_rate": 0.0002999942693256223, "loss": 3.9702, "step": 3330 }, { "epoch": 0.006958333333333334, "grad_norm": 1.051222801208496, "learning_rate": 0.00029999418282665864, "loss": 3.9864, "step": 3340 }, { "epoch": 0.0069791666666666665, "grad_norm": 1.012973427772522, "learning_rate": 0.00029999409567977935, "loss": 3.9872, "step": 3350 }, { "epoch": 0.007, "grad_norm": 1.0198677778244019, "learning_rate": 0.0002999940078849851, "loss": 4.0731, "step": 3360 }, { "epoch": 0.007020833333333333, "grad_norm": 0.8081440925598145, "learning_rate": 0.000299993919442276, "loss": 4.1988, "step": 3370 }, { "epoch": 0.0070416666666666666, "grad_norm": 0.9568122029304504, "learning_rate": 0.0002999938303516526, "loss": 4.0705, "step": 3380 }, { "epoch": 0.0070625, "grad_norm": 1.230553150177002, "learning_rate": 0.0002999937406131152, "loss": 4.1092, "step": 3390 }, { "epoch": 0.007083333333333333, "grad_norm": 1.1079275608062744, "learning_rate": 0.00029999365022666415, "loss": 4.2416, "step": 3400 }, { "epoch": 0.007104166666666667, "grad_norm": 0.9667612910270691, "learning_rate": 0.00029999355919229997, "loss": 4.194, "step": 3410 }, { "epoch": 0.007125, "grad_norm": 1.2702641487121582, "learning_rate": 0.00029999346751002296, "loss": 4.179, "step": 3420 }, { "epoch": 0.007145833333333333, "grad_norm": 1.158349871635437, "learning_rate": 0.00029999337517983357, "loss": 3.9772, "step": 3430 }, { "epoch": 0.007166666666666667, "grad_norm": 1.153567910194397, "learning_rate": 0.00029999328220173217, "loss": 3.9881, "step": 3440 }, { "epoch": 0.0071875, "grad_norm": 0.9724677801132202, "learning_rate": 0.0002999931885757192, "loss": 4.0156, "step": 3450 }, { "epoch": 0.007208333333333333, "grad_norm": 0.9752664566040039, "learning_rate": 0.0002999930943017949, "loss": 4.0632, "step": 3460 }, { "epoch": 0.007229166666666667, "grad_norm": 1.0466904640197754, "learning_rate": 0.00029999299937995993, "loss": 4.1103, "step": 3470 }, { "epoch": 0.00725, "grad_norm": 1.1763368844985962, "learning_rate": 0.0002999929038102145, "loss": 3.9864, "step": 3480 }, { "epoch": 0.007270833333333333, "grad_norm": 1.0249053239822388, "learning_rate": 0.00029999280759255913, "loss": 4.1273, "step": 3490 }, { "epoch": 0.007291666666666667, "grad_norm": 1.0555284023284912, "learning_rate": 0.0002999927107269942, "loss": 4.0869, "step": 3500 }, { "epoch": 0.0073125, "grad_norm": 0.8717091083526611, "learning_rate": 0.0002999926132135202, "loss": 4.1583, "step": 3510 }, { "epoch": 0.007333333333333333, "grad_norm": 0.9739394187927246, "learning_rate": 0.00029999251505213734, "loss": 4.0874, "step": 3520 }, { "epoch": 0.007354166666666667, "grad_norm": 1.0422697067260742, "learning_rate": 0.00029999241624284624, "loss": 4.2855, "step": 3530 }, { "epoch": 0.007375, "grad_norm": 0.8878806233406067, "learning_rate": 0.0002999923167856473, "loss": 4.0969, "step": 3540 }, { "epoch": 0.007395833333333333, "grad_norm": 0.9929745197296143, "learning_rate": 0.0002999922166805409, "loss": 4.181, "step": 3550 }, { "epoch": 0.007416666666666667, "grad_norm": 1.059216022491455, "learning_rate": 0.0002999921159275275, "loss": 4.0431, "step": 3560 }, { "epoch": 0.0074375, "grad_norm": 0.9647489190101624, "learning_rate": 0.0002999920145266076, "loss": 3.9452, "step": 3570 }, { "epoch": 0.007458333333333333, "grad_norm": 0.9883825182914734, "learning_rate": 0.0002999919124777815, "loss": 3.9943, "step": 3580 }, { "epoch": 0.007479166666666667, "grad_norm": 1.7491518259048462, "learning_rate": 0.00029999180978104966, "loss": 4.2686, "step": 3590 }, { "epoch": 0.0075, "grad_norm": 0.9396332502365112, "learning_rate": 0.00029999170643641267, "loss": 4.0992, "step": 3600 }, { "epoch": 0.007520833333333333, "grad_norm": 1.0325697660446167, "learning_rate": 0.0002999916024438708, "loss": 4.0462, "step": 3610 }, { "epoch": 0.007541666666666667, "grad_norm": 1.132477879524231, "learning_rate": 0.0002999914978034246, "loss": 4.0857, "step": 3620 }, { "epoch": 0.0075625, "grad_norm": 0.9360105395317078, "learning_rate": 0.0002999913925150746, "loss": 4.1431, "step": 3630 }, { "epoch": 0.007583333333333333, "grad_norm": 1.0355085134506226, "learning_rate": 0.000299991286578821, "loss": 4.0801, "step": 3640 }, { "epoch": 0.007604166666666667, "grad_norm": 1.011344313621521, "learning_rate": 0.0002999911799946645, "loss": 4.0594, "step": 3650 }, { "epoch": 0.007625, "grad_norm": 1.94801926612854, "learning_rate": 0.00029999107276260545, "loss": 3.8672, "step": 3660 }, { "epoch": 0.0076458333333333335, "grad_norm": 1.0276235342025757, "learning_rate": 0.00029999096488264436, "loss": 4.2793, "step": 3670 }, { "epoch": 0.007666666666666666, "grad_norm": 1.0639641284942627, "learning_rate": 0.00029999085635478166, "loss": 4.1022, "step": 3680 }, { "epoch": 0.0076875, "grad_norm": 1.0312830209732056, "learning_rate": 0.0002999907471790178, "loss": 4.1329, "step": 3690 }, { "epoch": 0.0077083333333333335, "grad_norm": 0.9456416368484497, "learning_rate": 0.0002999906373553533, "loss": 4.1512, "step": 3700 }, { "epoch": 0.007729166666666666, "grad_norm": 1.0327266454696655, "learning_rate": 0.00029999052688378864, "loss": 4.0437, "step": 3710 }, { "epoch": 0.00775, "grad_norm": 1.0199079513549805, "learning_rate": 0.00029999041576432426, "loss": 4.1266, "step": 3720 }, { "epoch": 0.007770833333333334, "grad_norm": 0.9087216854095459, "learning_rate": 0.00029999030399696067, "loss": 4.0776, "step": 3730 }, { "epoch": 0.007791666666666666, "grad_norm": 1.1087385416030884, "learning_rate": 0.0002999901915816983, "loss": 4.2229, "step": 3740 }, { "epoch": 0.0078125, "grad_norm": 0.8982157707214355, "learning_rate": 0.0002999900785185377, "loss": 4.1174, "step": 3750 }, { "epoch": 0.007833333333333333, "grad_norm": 0.8922094106674194, "learning_rate": 0.0002999899648074793, "loss": 4.1664, "step": 3760 }, { "epoch": 0.007854166666666667, "grad_norm": 0.9248464107513428, "learning_rate": 0.00029998985044852363, "loss": 3.9535, "step": 3770 }, { "epoch": 0.007875, "grad_norm": 1.0945724248886108, "learning_rate": 0.0002999897354416712, "loss": 4.0894, "step": 3780 }, { "epoch": 0.007895833333333333, "grad_norm": 1.1510943174362183, "learning_rate": 0.0002999896197869225, "loss": 4.1383, "step": 3790 }, { "epoch": 0.007916666666666667, "grad_norm": 1.1635935306549072, "learning_rate": 0.000299989503484278, "loss": 4.1987, "step": 3800 }, { "epoch": 0.0079375, "grad_norm": 0.8856581449508667, "learning_rate": 0.0002999893865337382, "loss": 4.2426, "step": 3810 }, { "epoch": 0.007958333333333333, "grad_norm": 0.9936603903770447, "learning_rate": 0.00029998926893530357, "loss": 4.0476, "step": 3820 }, { "epoch": 0.007979166666666667, "grad_norm": 1.0611181259155273, "learning_rate": 0.0002999891506889747, "loss": 4.0121, "step": 3830 }, { "epoch": 0.008, "grad_norm": 0.9917404651641846, "learning_rate": 0.0002999890317947521, "loss": 4.1045, "step": 3840 }, { "epoch": 0.008020833333333333, "grad_norm": 0.9718139171600342, "learning_rate": 0.0002999889122526363, "loss": 4.0057, "step": 3850 }, { "epoch": 0.008041666666666667, "grad_norm": 0.9431995749473572, "learning_rate": 0.00029998879206262767, "loss": 3.978, "step": 3860 }, { "epoch": 0.0080625, "grad_norm": 0.9864229559898376, "learning_rate": 0.0002999886712247269, "loss": 4.0648, "step": 3870 }, { "epoch": 0.008083333333333333, "grad_norm": 0.941291868686676, "learning_rate": 0.0002999885497389344, "loss": 3.9596, "step": 3880 }, { "epoch": 0.008104166666666668, "grad_norm": 0.9219740033149719, "learning_rate": 0.00029998842760525074, "loss": 3.9756, "step": 3890 }, { "epoch": 0.008125, "grad_norm": 0.9785711169242859, "learning_rate": 0.00029998830482367645, "loss": 4.0041, "step": 3900 }, { "epoch": 0.008145833333333333, "grad_norm": 1.0201159715652466, "learning_rate": 0.00029998818139421204, "loss": 3.9864, "step": 3910 }, { "epoch": 0.008166666666666666, "grad_norm": 0.9140158891677856, "learning_rate": 0.0002999880573168581, "loss": 4.0738, "step": 3920 }, { "epoch": 0.0081875, "grad_norm": 1.0216072797775269, "learning_rate": 0.00029998793259161503, "loss": 4.0114, "step": 3930 }, { "epoch": 0.008208333333333333, "grad_norm": 1.4922420978546143, "learning_rate": 0.00029998780721848356, "loss": 4.1293, "step": 3940 }, { "epoch": 0.008229166666666666, "grad_norm": 1.0311052799224854, "learning_rate": 0.00029998768119746404, "loss": 4.2765, "step": 3950 }, { "epoch": 0.00825, "grad_norm": 1.01318359375, "learning_rate": 0.0002999875545285572, "loss": 4.221, "step": 3960 }, { "epoch": 0.008270833333333333, "grad_norm": 1.1478917598724365, "learning_rate": 0.0002999874272117634, "loss": 4.2538, "step": 3970 }, { "epoch": 0.008291666666666666, "grad_norm": 0.9388420581817627, "learning_rate": 0.0002999872992470833, "loss": 4.1074, "step": 3980 }, { "epoch": 0.0083125, "grad_norm": 0.9623293876647949, "learning_rate": 0.0002999871706345175, "loss": 4.1475, "step": 3990 }, { "epoch": 0.008333333333333333, "grad_norm": 0.9232184886932373, "learning_rate": 0.0002999870413740665, "loss": 4.1645, "step": 4000 }, { "epoch": 0.008333333333333333, "eval_loss": 4.344626426696777, "eval_runtime": 8.8815, "eval_samples_per_second": 1.126, "eval_steps_per_second": 0.338, "step": 4000 }, { "epoch": 0.008354166666666666, "grad_norm": 1.1243256330490112, "learning_rate": 0.00029998691146573077, "loss": 4.1855, "step": 4010 }, { "epoch": 0.008375, "grad_norm": 1.0673884153366089, "learning_rate": 0.000299986780909511, "loss": 4.1537, "step": 4020 }, { "epoch": 0.008395833333333333, "grad_norm": 1.016884684562683, "learning_rate": 0.00029998664970540766, "loss": 4.1361, "step": 4030 }, { "epoch": 0.008416666666666666, "grad_norm": 1.143649935722351, "learning_rate": 0.0002999865178534214, "loss": 4.2514, "step": 4040 }, { "epoch": 0.0084375, "grad_norm": 0.955266535282135, "learning_rate": 0.0002999863853535528, "loss": 4.0963, "step": 4050 }, { "epoch": 0.008458333333333333, "grad_norm": 0.9963364601135254, "learning_rate": 0.00029998625220580233, "loss": 4.1306, "step": 4060 }, { "epoch": 0.008479166666666666, "grad_norm": 1.0318132638931274, "learning_rate": 0.00029998611841017064, "loss": 4.0334, "step": 4070 }, { "epoch": 0.0085, "grad_norm": 1.06947660446167, "learning_rate": 0.00029998598396665827, "loss": 4.0345, "step": 4080 }, { "epoch": 0.008520833333333333, "grad_norm": 0.7951093912124634, "learning_rate": 0.0002999858488752658, "loss": 4.0281, "step": 4090 }, { "epoch": 0.008541666666666666, "grad_norm": 1.0295147895812988, "learning_rate": 0.00029998571313599384, "loss": 3.9276, "step": 4100 }, { "epoch": 0.0085625, "grad_norm": 1.0354214906692505, "learning_rate": 0.000299985576748843, "loss": 4.0168, "step": 4110 }, { "epoch": 0.008583333333333333, "grad_norm": 1.069574236869812, "learning_rate": 0.0002999854397138138, "loss": 4.0646, "step": 4120 }, { "epoch": 0.008604166666666666, "grad_norm": 0.9855145215988159, "learning_rate": 0.0002999853020309069, "loss": 4.1169, "step": 4130 }, { "epoch": 0.008625, "grad_norm": 0.9590917825698853, "learning_rate": 0.00029998516370012286, "loss": 4.3467, "step": 4140 }, { "epoch": 0.008645833333333333, "grad_norm": 1.0236679315567017, "learning_rate": 0.00029998502472146224, "loss": 4.0406, "step": 4150 }, { "epoch": 0.008666666666666666, "grad_norm": 1.089318871498108, "learning_rate": 0.00029998488509492573, "loss": 4.0066, "step": 4160 }, { "epoch": 0.0086875, "grad_norm": 0.9119101762771606, "learning_rate": 0.00029998474482051385, "loss": 4.0957, "step": 4170 }, { "epoch": 0.008708333333333334, "grad_norm": 0.9008681774139404, "learning_rate": 0.00029998460389822726, "loss": 4.0443, "step": 4180 }, { "epoch": 0.008729166666666666, "grad_norm": 1.3638948202133179, "learning_rate": 0.00029998446232806656, "loss": 4.1917, "step": 4190 }, { "epoch": 0.00875, "grad_norm": 1.1425158977508545, "learning_rate": 0.00029998432011003233, "loss": 4.0617, "step": 4200 }, { "epoch": 0.008770833333333334, "grad_norm": 1.031792163848877, "learning_rate": 0.0002999841772441252, "loss": 3.9981, "step": 4210 }, { "epoch": 0.008791666666666666, "grad_norm": 1.0319832563400269, "learning_rate": 0.00029998403373034577, "loss": 3.9967, "step": 4220 }, { "epoch": 0.0088125, "grad_norm": 0.9644712805747986, "learning_rate": 0.0002999838895686947, "loss": 4.1769, "step": 4230 }, { "epoch": 0.008833333333333334, "grad_norm": 1.019997477531433, "learning_rate": 0.00029998374475917266, "loss": 4.052, "step": 4240 }, { "epoch": 0.008854166666666666, "grad_norm": 1.0303020477294922, "learning_rate": 0.0002999835993017801, "loss": 4.143, "step": 4250 }, { "epoch": 0.008875, "grad_norm": 0.9148163795471191, "learning_rate": 0.00029998345319651783, "loss": 4.1927, "step": 4260 }, { "epoch": 0.008895833333333334, "grad_norm": 0.8995682597160339, "learning_rate": 0.00029998330644338643, "loss": 4.0264, "step": 4270 }, { "epoch": 0.008916666666666666, "grad_norm": 0.9485030770301819, "learning_rate": 0.00029998315904238644, "loss": 4.2882, "step": 4280 }, { "epoch": 0.0089375, "grad_norm": 1.0049161911010742, "learning_rate": 0.0002999830109935187, "loss": 4.1111, "step": 4290 }, { "epoch": 0.008958333333333334, "grad_norm": 0.9980230927467346, "learning_rate": 0.0002999828622967836, "loss": 4.0975, "step": 4300 }, { "epoch": 0.008979166666666667, "grad_norm": 1.0125739574432373, "learning_rate": 0.0002999827129521819, "loss": 3.983, "step": 4310 }, { "epoch": 0.009, "grad_norm": 0.9592376947402954, "learning_rate": 0.0002999825629597143, "loss": 4.1672, "step": 4320 }, { "epoch": 0.009020833333333334, "grad_norm": 0.9460607767105103, "learning_rate": 0.00029998241231938134, "loss": 3.9299, "step": 4330 }, { "epoch": 0.009041666666666667, "grad_norm": 0.8304726481437683, "learning_rate": 0.00029998226103118377, "loss": 4.2397, "step": 4340 }, { "epoch": 0.0090625, "grad_norm": 0.9739450216293335, "learning_rate": 0.00029998210909512217, "loss": 3.9122, "step": 4350 }, { "epoch": 0.009083333333333334, "grad_norm": 1.1449451446533203, "learning_rate": 0.0002999819565111973, "loss": 3.9826, "step": 4360 }, { "epoch": 0.009104166666666667, "grad_norm": 1.0574077367782593, "learning_rate": 0.00029998180327940973, "loss": 4.1161, "step": 4370 }, { "epoch": 0.009125, "grad_norm": 1.0234532356262207, "learning_rate": 0.00029998164939976004, "loss": 4.0794, "step": 4380 }, { "epoch": 0.009145833333333334, "grad_norm": 0.8376774787902832, "learning_rate": 0.0002999814948722491, "loss": 4.1355, "step": 4390 }, { "epoch": 0.009166666666666667, "grad_norm": 0.8910546898841858, "learning_rate": 0.0002999813396968774, "loss": 4.0935, "step": 4400 }, { "epoch": 0.0091875, "grad_norm": 0.8840876817703247, "learning_rate": 0.0002999811838736457, "loss": 4.3061, "step": 4410 }, { "epoch": 0.009208333333333334, "grad_norm": 0.9769382476806641, "learning_rate": 0.0002999810274025546, "loss": 4.0736, "step": 4420 }, { "epoch": 0.009229166666666667, "grad_norm": 1.0291005373001099, "learning_rate": 0.0002999808702836049, "loss": 4.1609, "step": 4430 }, { "epoch": 0.00925, "grad_norm": 0.9491590261459351, "learning_rate": 0.00029998071251679723, "loss": 4.0267, "step": 4440 }, { "epoch": 0.009270833333333334, "grad_norm": 1.089226245880127, "learning_rate": 0.00029998055410213216, "loss": 4.0875, "step": 4450 }, { "epoch": 0.009291666666666667, "grad_norm": 1.0706385374069214, "learning_rate": 0.00029998039503961055, "loss": 4.0191, "step": 4460 }, { "epoch": 0.0093125, "grad_norm": 0.9832356572151184, "learning_rate": 0.0002999802353292329, "loss": 4.2588, "step": 4470 }, { "epoch": 0.009333333333333334, "grad_norm": 0.966361939907074, "learning_rate": 0.0002999800749710001, "loss": 4.0292, "step": 4480 }, { "epoch": 0.009354166666666667, "grad_norm": 0.9859091639518738, "learning_rate": 0.00029997991396491267, "loss": 4.2235, "step": 4490 }, { "epoch": 0.009375, "grad_norm": 0.9760363698005676, "learning_rate": 0.0002999797523109714, "loss": 4.1272, "step": 4500 }, { "epoch": 0.009395833333333334, "grad_norm": 1.1319416761398315, "learning_rate": 0.000299979590009177, "loss": 3.8141, "step": 4510 }, { "epoch": 0.009416666666666667, "grad_norm": 1.058521032333374, "learning_rate": 0.0002999794270595301, "loss": 4.2047, "step": 4520 }, { "epoch": 0.0094375, "grad_norm": 0.9600679874420166, "learning_rate": 0.0002999792634620314, "loss": 4.0714, "step": 4530 }, { "epoch": 0.009458333333333332, "grad_norm": 1.0818012952804565, "learning_rate": 0.0002999790992166817, "loss": 4.0849, "step": 4540 }, { "epoch": 0.009479166666666667, "grad_norm": 1.0046089887619019, "learning_rate": 0.00029997893432348165, "loss": 3.9717, "step": 4550 }, { "epoch": 0.0095, "grad_norm": 1.1016243696212769, "learning_rate": 0.00029997876878243204, "loss": 4.26, "step": 4560 }, { "epoch": 0.009520833333333333, "grad_norm": 1.1213055849075317, "learning_rate": 0.00029997860259353346, "loss": 3.9202, "step": 4570 }, { "epoch": 0.009541666666666667, "grad_norm": 1.0830364227294922, "learning_rate": 0.00029997843575678667, "loss": 4.0014, "step": 4580 }, { "epoch": 0.0095625, "grad_norm": 0.892376720905304, "learning_rate": 0.0002999782682721924, "loss": 4.1357, "step": 4590 }, { "epoch": 0.009583333333333333, "grad_norm": 1.0177985429763794, "learning_rate": 0.00029997810013975137, "loss": 4.0604, "step": 4600 }, { "epoch": 0.009604166666666667, "grad_norm": 1.0660438537597656, "learning_rate": 0.0002999779313594643, "loss": 4.1728, "step": 4610 }, { "epoch": 0.009625, "grad_norm": 0.9619247913360596, "learning_rate": 0.000299977761931332, "loss": 4.0696, "step": 4620 }, { "epoch": 0.009645833333333333, "grad_norm": 1.0453952550888062, "learning_rate": 0.0002999775918553551, "loss": 4.2251, "step": 4630 }, { "epoch": 0.009666666666666667, "grad_norm": 0.9851884245872498, "learning_rate": 0.0002999774211315343, "loss": 4.1434, "step": 4640 }, { "epoch": 0.0096875, "grad_norm": 0.9162231683731079, "learning_rate": 0.0002999772497598705, "loss": 4.1694, "step": 4650 }, { "epoch": 0.009708333333333333, "grad_norm": 1.106068730354309, "learning_rate": 0.0002999770777403643, "loss": 4.081, "step": 4660 }, { "epoch": 0.009729166666666667, "grad_norm": 0.8733890652656555, "learning_rate": 0.0002999769050730165, "loss": 4.2417, "step": 4670 }, { "epoch": 0.00975, "grad_norm": 0.9880221486091614, "learning_rate": 0.00029997673175782786, "loss": 4.2314, "step": 4680 }, { "epoch": 0.009770833333333333, "grad_norm": 1.1616184711456299, "learning_rate": 0.00029997655779479904, "loss": 4.1721, "step": 4690 }, { "epoch": 0.009791666666666667, "grad_norm": 0.8936964869499207, "learning_rate": 0.00029997638318393096, "loss": 4.2603, "step": 4700 }, { "epoch": 0.0098125, "grad_norm": 0.9306889176368713, "learning_rate": 0.00029997620792522416, "loss": 4.2908, "step": 4710 }, { "epoch": 0.009833333333333333, "grad_norm": 1.1105449199676514, "learning_rate": 0.00029997603201867957, "loss": 4.1358, "step": 4720 }, { "epoch": 0.009854166666666667, "grad_norm": 1.1639209985733032, "learning_rate": 0.00029997585546429783, "loss": 4.0373, "step": 4730 }, { "epoch": 0.009875, "grad_norm": 1.1427661180496216, "learning_rate": 0.0002999756782620798, "loss": 4.0461, "step": 4740 }, { "epoch": 0.009895833333333333, "grad_norm": 1.0038659572601318, "learning_rate": 0.00029997550041202623, "loss": 4.1233, "step": 4750 }, { "epoch": 0.009916666666666667, "grad_norm": 0.9660082459449768, "learning_rate": 0.00029997532191413783, "loss": 4.2012, "step": 4760 }, { "epoch": 0.0099375, "grad_norm": 0.8811535835266113, "learning_rate": 0.0002999751427684154, "loss": 4.223, "step": 4770 }, { "epoch": 0.009958333333333333, "grad_norm": 0.8887596726417542, "learning_rate": 0.00029997496297485974, "loss": 3.9292, "step": 4780 }, { "epoch": 0.009979166666666667, "grad_norm": 1.0434662103652954, "learning_rate": 0.00029997478253347156, "loss": 4.1467, "step": 4790 }, { "epoch": 0.01, "grad_norm": 0.9406684041023254, "learning_rate": 0.0002999746014442517, "loss": 4.1734, "step": 4800 }, { "epoch": 0.010020833333333333, "grad_norm": 1.1713988780975342, "learning_rate": 0.0002999744197072009, "loss": 4.1302, "step": 4810 }, { "epoch": 0.010041666666666667, "grad_norm": 1.012882947921753, "learning_rate": 0.00029997423732232005, "loss": 3.896, "step": 4820 }, { "epoch": 0.0100625, "grad_norm": 1.1197835206985474, "learning_rate": 0.0002999740542896098, "loss": 3.9719, "step": 4830 }, { "epoch": 0.010083333333333333, "grad_norm": 1.0985404253005981, "learning_rate": 0.00029997387060907104, "loss": 3.9741, "step": 4840 }, { "epoch": 0.010104166666666666, "grad_norm": 0.9690613150596619, "learning_rate": 0.0002999736862807045, "loss": 4.4011, "step": 4850 }, { "epoch": 0.010125, "grad_norm": 3.1978161334991455, "learning_rate": 0.000299973501304511, "loss": 4.09, "step": 4860 }, { "epoch": 0.010145833333333333, "grad_norm": 1.0629050731658936, "learning_rate": 0.00029997331568049133, "loss": 3.9067, "step": 4870 }, { "epoch": 0.010166666666666666, "grad_norm": 0.9088018536567688, "learning_rate": 0.0002999731294086463, "loss": 4.0977, "step": 4880 }, { "epoch": 0.0101875, "grad_norm": 1.1026993989944458, "learning_rate": 0.0002999729424889767, "loss": 4.048, "step": 4890 }, { "epoch": 0.010208333333333333, "grad_norm": 0.9417087435722351, "learning_rate": 0.00029997275492148337, "loss": 3.9495, "step": 4900 }, { "epoch": 0.010229166666666666, "grad_norm": 1.0456846952438354, "learning_rate": 0.0002999725667061671, "loss": 4.0785, "step": 4910 }, { "epoch": 0.01025, "grad_norm": 0.9317986369132996, "learning_rate": 0.00029997237784302875, "loss": 4.1543, "step": 4920 }, { "epoch": 0.010270833333333333, "grad_norm": 1.1679273843765259, "learning_rate": 0.0002999721883320691, "loss": 4.088, "step": 4930 }, { "epoch": 0.010291666666666666, "grad_norm": 0.9274995923042297, "learning_rate": 0.0002999719981732889, "loss": 4.0281, "step": 4940 }, { "epoch": 0.0103125, "grad_norm": 1.1864968538284302, "learning_rate": 0.000299971807366689, "loss": 3.9755, "step": 4950 }, { "epoch": 0.010333333333333333, "grad_norm": 0.9755812883377075, "learning_rate": 0.0002999716159122703, "loss": 4.1841, "step": 4960 }, { "epoch": 0.010354166666666666, "grad_norm": 0.9211527109146118, "learning_rate": 0.00029997142381003357, "loss": 4.0401, "step": 4970 }, { "epoch": 0.010375, "grad_norm": 1.3366219997406006, "learning_rate": 0.00029997123105997964, "loss": 4.1101, "step": 4980 }, { "epoch": 0.010395833333333333, "grad_norm": 0.9389422535896301, "learning_rate": 0.00029997103766210944, "loss": 3.8959, "step": 4990 }, { "epoch": 0.010416666666666666, "grad_norm": 0.8832875490188599, "learning_rate": 0.0002999708436164236, "loss": 4.2677, "step": 5000 }, { "epoch": 0.010416666666666666, "eval_loss": 4.370577812194824, "eval_runtime": 8.8729, "eval_samples_per_second": 1.127, "eval_steps_per_second": 0.338, "step": 5000 }, { "epoch": 0.0104375, "grad_norm": 0.873633861541748, "learning_rate": 0.00029997064892292314, "loss": 4.1391, "step": 5010 }, { "epoch": 0.010458333333333333, "grad_norm": 1.0159385204315186, "learning_rate": 0.00029997045358160884, "loss": 4.1271, "step": 5020 }, { "epoch": 0.010479166666666666, "grad_norm": 0.9279839396476746, "learning_rate": 0.0002999702575924815, "loss": 4.0717, "step": 5030 }, { "epoch": 0.0105, "grad_norm": 0.8764974474906921, "learning_rate": 0.00029997006095554204, "loss": 4.0442, "step": 5040 }, { "epoch": 0.010520833333333333, "grad_norm": 0.9061101675033569, "learning_rate": 0.0002999698636707913, "loss": 4.1291, "step": 5050 }, { "epoch": 0.010541666666666666, "grad_norm": 1.1503463983535767, "learning_rate": 0.0002999696657382301, "loss": 4.0456, "step": 5060 }, { "epoch": 0.0105625, "grad_norm": 1.005418062210083, "learning_rate": 0.0002999694671578593, "loss": 4.1166, "step": 5070 }, { "epoch": 0.010583333333333333, "grad_norm": 0.9875721335411072, "learning_rate": 0.00029996926792967977, "loss": 4.0771, "step": 5080 }, { "epoch": 0.010604166666666666, "grad_norm": 0.9183871746063232, "learning_rate": 0.0002999690680536924, "loss": 4.1778, "step": 5090 }, { "epoch": 0.010625, "grad_norm": 1.0354697704315186, "learning_rate": 0.000299968867529898, "loss": 4.0515, "step": 5100 }, { "epoch": 0.010645833333333334, "grad_norm": 0.9327830672264099, "learning_rate": 0.0002999686663582974, "loss": 4.061, "step": 5110 }, { "epoch": 0.010666666666666666, "grad_norm": 1.0666239261627197, "learning_rate": 0.0002999684645388915, "loss": 3.9381, "step": 5120 }, { "epoch": 0.0106875, "grad_norm": 0.8940494060516357, "learning_rate": 0.00029996826207168126, "loss": 4.1398, "step": 5130 }, { "epoch": 0.010708333333333334, "grad_norm": 1.1079604625701904, "learning_rate": 0.0002999680589566675, "loss": 4.2036, "step": 5140 }, { "epoch": 0.010729166666666666, "grad_norm": 0.9707878232002258, "learning_rate": 0.00029996785519385106, "loss": 4.0504, "step": 5150 }, { "epoch": 0.01075, "grad_norm": 0.923814594745636, "learning_rate": 0.00029996765078323285, "loss": 4.2121, "step": 5160 }, { "epoch": 0.010770833333333334, "grad_norm": 0.86277174949646, "learning_rate": 0.00029996744572481377, "loss": 4.1438, "step": 5170 }, { "epoch": 0.010791666666666666, "grad_norm": 1.055037260055542, "learning_rate": 0.0002999672400185947, "loss": 3.9951, "step": 5180 }, { "epoch": 0.0108125, "grad_norm": 0.9854041337966919, "learning_rate": 0.00029996703366457644, "loss": 3.9555, "step": 5190 }, { "epoch": 0.010833333333333334, "grad_norm": 0.9806405305862427, "learning_rate": 0.00029996682666276, "loss": 4.1025, "step": 5200 }, { "epoch": 0.010854166666666666, "grad_norm": 0.8483632206916809, "learning_rate": 0.0002999666190131462, "loss": 4.0765, "step": 5210 }, { "epoch": 0.010875, "grad_norm": 0.9474264979362488, "learning_rate": 0.000299966410715736, "loss": 4.2195, "step": 5220 }, { "epoch": 0.010895833333333334, "grad_norm": 1.0165170431137085, "learning_rate": 0.0002999662017705303, "loss": 4.0818, "step": 5230 }, { "epoch": 0.010916666666666667, "grad_norm": 0.9026477932929993, "learning_rate": 0.0002999659921775299, "loss": 4.0267, "step": 5240 }, { "epoch": 0.0109375, "grad_norm": 0.8660348653793335, "learning_rate": 0.0002999657819367358, "loss": 4.0821, "step": 5250 }, { "epoch": 0.010958333333333334, "grad_norm": 0.946662962436676, "learning_rate": 0.0002999655710481489, "loss": 4.1237, "step": 5260 }, { "epoch": 0.010979166666666667, "grad_norm": 0.8683421611785889, "learning_rate": 0.0002999653595117701, "loss": 4.0454, "step": 5270 }, { "epoch": 0.011, "grad_norm": 1.072624921798706, "learning_rate": 0.0002999651473276003, "loss": 4.0367, "step": 5280 }, { "epoch": 0.011020833333333334, "grad_norm": 1.0327613353729248, "learning_rate": 0.0002999649344956404, "loss": 4.1558, "step": 5290 }, { "epoch": 0.011041666666666667, "grad_norm": 0.9970088601112366, "learning_rate": 0.0002999647210158913, "loss": 4.1735, "step": 5300 }, { "epoch": 0.0110625, "grad_norm": 0.9861274361610413, "learning_rate": 0.00029996450688835405, "loss": 3.8541, "step": 5310 }, { "epoch": 0.011083333333333334, "grad_norm": 0.8053154349327087, "learning_rate": 0.00029996429211302946, "loss": 4.0191, "step": 5320 }, { "epoch": 0.011104166666666667, "grad_norm": 0.9291845560073853, "learning_rate": 0.00029996407668991847, "loss": 4.1135, "step": 5330 }, { "epoch": 0.011125, "grad_norm": 0.9447972178459167, "learning_rate": 0.00029996386061902205, "loss": 4.1278, "step": 5340 }, { "epoch": 0.011145833333333334, "grad_norm": 0.9961071610450745, "learning_rate": 0.00029996364390034113, "loss": 4.0927, "step": 5350 }, { "epoch": 0.011166666666666667, "grad_norm": 0.9535923004150391, "learning_rate": 0.0002999634265338766, "loss": 4.1082, "step": 5360 }, { "epoch": 0.0111875, "grad_norm": 1.1580954790115356, "learning_rate": 0.00029996320851962945, "loss": 4.0574, "step": 5370 }, { "epoch": 0.011208333333333334, "grad_norm": 0.9974673986434937, "learning_rate": 0.00029996298985760053, "loss": 4.2132, "step": 5380 }, { "epoch": 0.011229166666666667, "grad_norm": 0.9261285662651062, "learning_rate": 0.00029996277054779096, "loss": 4.0746, "step": 5390 }, { "epoch": 0.01125, "grad_norm": 0.997142493724823, "learning_rate": 0.0002999625505902015, "loss": 3.9265, "step": 5400 }, { "epoch": 0.011270833333333334, "grad_norm": 1.008379340171814, "learning_rate": 0.0002999623299848332, "loss": 4.0246, "step": 5410 }, { "epoch": 0.011291666666666667, "grad_norm": 0.948972761631012, "learning_rate": 0.00029996210873168704, "loss": 4.225, "step": 5420 }, { "epoch": 0.0113125, "grad_norm": 0.9582616686820984, "learning_rate": 0.0002999618868307639, "loss": 4.1497, "step": 5430 }, { "epoch": 0.011333333333333334, "grad_norm": 1.0417988300323486, "learning_rate": 0.00029996166428206475, "loss": 4.2742, "step": 5440 }, { "epoch": 0.011354166666666667, "grad_norm": 1.0113927125930786, "learning_rate": 0.0002999614410855906, "loss": 3.9904, "step": 5450 }, { "epoch": 0.011375, "grad_norm": 1.043034315109253, "learning_rate": 0.0002999612172413423, "loss": 4.188, "step": 5460 }, { "epoch": 0.011395833333333332, "grad_norm": 1.0352418422698975, "learning_rate": 0.000299960992749321, "loss": 4.1515, "step": 5470 }, { "epoch": 0.011416666666666667, "grad_norm": 0.8755269646644592, "learning_rate": 0.00029996076760952753, "loss": 3.9161, "step": 5480 }, { "epoch": 0.0114375, "grad_norm": 0.9631335139274597, "learning_rate": 0.0002999605418219629, "loss": 4.1547, "step": 5490 }, { "epoch": 0.011458333333333333, "grad_norm": 1.0319585800170898, "learning_rate": 0.00029996031538662805, "loss": 4.1003, "step": 5500 }, { "epoch": 0.011479166666666667, "grad_norm": 0.9601361155509949, "learning_rate": 0.00029996008830352405, "loss": 4.2062, "step": 5510 }, { "epoch": 0.0115, "grad_norm": 0.9250887632369995, "learning_rate": 0.00029995986057265186, "loss": 3.9637, "step": 5520 }, { "epoch": 0.011520833333333333, "grad_norm": 1.027815818786621, "learning_rate": 0.00029995963219401234, "loss": 4.0546, "step": 5530 }, { "epoch": 0.011541666666666667, "grad_norm": 1.0670416355133057, "learning_rate": 0.0002999594031676066, "loss": 4.1225, "step": 5540 }, { "epoch": 0.0115625, "grad_norm": 0.8062381744384766, "learning_rate": 0.00029995917349343563, "loss": 4.1337, "step": 5550 }, { "epoch": 0.011583333333333333, "grad_norm": 0.9995294213294983, "learning_rate": 0.0002999589431715004, "loss": 4.0815, "step": 5560 }, { "epoch": 0.011604166666666667, "grad_norm": 1.3284013271331787, "learning_rate": 0.00029995871220180184, "loss": 4.202, "step": 5570 }, { "epoch": 0.011625, "grad_norm": 1.006390929222107, "learning_rate": 0.000299958480584341, "loss": 4.1928, "step": 5580 }, { "epoch": 0.011645833333333333, "grad_norm": 0.9090350270271301, "learning_rate": 0.0002999582483191189, "loss": 4.024, "step": 5590 }, { "epoch": 0.011666666666666667, "grad_norm": 0.8780757188796997, "learning_rate": 0.0002999580154061365, "loss": 4.1662, "step": 5600 }, { "epoch": 0.0116875, "grad_norm": 0.9481406807899475, "learning_rate": 0.0002999577818453949, "loss": 4.0606, "step": 5610 }, { "epoch": 0.011708333333333333, "grad_norm": 1.0547072887420654, "learning_rate": 0.000299957547636895, "loss": 3.9856, "step": 5620 }, { "epoch": 0.011729166666666667, "grad_norm": 1.0377051830291748, "learning_rate": 0.00029995731278063787, "loss": 4.1613, "step": 5630 }, { "epoch": 0.01175, "grad_norm": 0.9384186267852783, "learning_rate": 0.00029995707727662445, "loss": 3.8926, "step": 5640 }, { "epoch": 0.011770833333333333, "grad_norm": 1.188773512840271, "learning_rate": 0.00029995684112485584, "loss": 4.1437, "step": 5650 }, { "epoch": 0.011791666666666667, "grad_norm": 1.2075719833374023, "learning_rate": 0.00029995660432533303, "loss": 4.1929, "step": 5660 }, { "epoch": 0.0118125, "grad_norm": 0.872288703918457, "learning_rate": 0.0002999563668780571, "loss": 4.0513, "step": 5670 }, { "epoch": 0.011833333333333333, "grad_norm": 0.922525942325592, "learning_rate": 0.000299956128783029, "loss": 4.2275, "step": 5680 }, { "epoch": 0.011854166666666667, "grad_norm": 0.9171212315559387, "learning_rate": 0.0002999558900402497, "loss": 4.0624, "step": 5690 }, { "epoch": 0.011875, "grad_norm": 1.0454503297805786, "learning_rate": 0.00029995565064972043, "loss": 3.8801, "step": 5700 }, { "epoch": 0.011895833333333333, "grad_norm": 0.8571341037750244, "learning_rate": 0.000299955410611442, "loss": 4.1946, "step": 5710 }, { "epoch": 0.011916666666666667, "grad_norm": 0.8365829586982727, "learning_rate": 0.0002999551699254156, "loss": 3.9604, "step": 5720 }, { "epoch": 0.0119375, "grad_norm": 0.9211521148681641, "learning_rate": 0.00029995492859164223, "loss": 4.2924, "step": 5730 }, { "epoch": 0.011958333333333333, "grad_norm": 0.8443504571914673, "learning_rate": 0.000299954686610123, "loss": 4.2304, "step": 5740 }, { "epoch": 0.011979166666666667, "grad_norm": 0.860998809337616, "learning_rate": 0.00029995444398085876, "loss": 4.0858, "step": 5750 }, { "epoch": 0.012, "grad_norm": 0.8654314875602722, "learning_rate": 0.0002999542007038507, "loss": 4.1007, "step": 5760 }, { "epoch": 0.012020833333333333, "grad_norm": 0.9083671569824219, "learning_rate": 0.0002999539567790999, "loss": 3.9845, "step": 5770 }, { "epoch": 0.012041666666666668, "grad_norm": 0.9409719705581665, "learning_rate": 0.00029995371220660727, "loss": 4.1631, "step": 5780 }, { "epoch": 0.0120625, "grad_norm": 0.9629682898521423, "learning_rate": 0.00029995346698637404, "loss": 4.1025, "step": 5790 }, { "epoch": 0.012083333333333333, "grad_norm": 0.9104552268981934, "learning_rate": 0.0002999532211184012, "loss": 4.1618, "step": 5800 }, { "epoch": 0.012104166666666666, "grad_norm": 0.9406991600990295, "learning_rate": 0.00029995297460268976, "loss": 4.2904, "step": 5810 }, { "epoch": 0.012125, "grad_norm": 0.970385730266571, "learning_rate": 0.0002999527274392408, "loss": 4.0907, "step": 5820 }, { "epoch": 0.012145833333333333, "grad_norm": 1.0111403465270996, "learning_rate": 0.00029995247962805546, "loss": 4.2463, "step": 5830 }, { "epoch": 0.012166666666666666, "grad_norm": 1.0769060850143433, "learning_rate": 0.0002999522311691347, "loss": 4.1208, "step": 5840 }, { "epoch": 0.0121875, "grad_norm": 0.9502212405204773, "learning_rate": 0.00029995198206247975, "loss": 3.9436, "step": 5850 }, { "epoch": 0.012208333333333333, "grad_norm": 0.9658715128898621, "learning_rate": 0.00029995173230809157, "loss": 3.9633, "step": 5860 }, { "epoch": 0.012229166666666666, "grad_norm": 1.1009750366210938, "learning_rate": 0.0002999514819059712, "loss": 4.1194, "step": 5870 }, { "epoch": 0.01225, "grad_norm": 1.1324915885925293, "learning_rate": 0.0002999512308561198, "loss": 3.992, "step": 5880 }, { "epoch": 0.012270833333333333, "grad_norm": 1.1784034967422485, "learning_rate": 0.0002999509791585385, "loss": 3.9714, "step": 5890 }, { "epoch": 0.012291666666666666, "grad_norm": 1.0563786029815674, "learning_rate": 0.00029995072681322825, "loss": 4.1235, "step": 5900 }, { "epoch": 0.0123125, "grad_norm": 0.8993197679519653, "learning_rate": 0.0002999504738201903, "loss": 3.98, "step": 5910 }, { "epoch": 0.012333333333333333, "grad_norm": 1.2406171560287476, "learning_rate": 0.0002999502201794256, "loss": 4.2188, "step": 5920 }, { "epoch": 0.012354166666666666, "grad_norm": 1.0735266208648682, "learning_rate": 0.00029994996589093525, "loss": 4.0805, "step": 5930 }, { "epoch": 0.012375, "grad_norm": 0.9529826641082764, "learning_rate": 0.0002999497109547205, "loss": 4.0163, "step": 5940 }, { "epoch": 0.012395833333333333, "grad_norm": 1.1779168844223022, "learning_rate": 0.0002999494553707823, "loss": 4.1448, "step": 5950 }, { "epoch": 0.012416666666666666, "grad_norm": 1.0238772630691528, "learning_rate": 0.00029994919913912184, "loss": 4.3096, "step": 5960 }, { "epoch": 0.0124375, "grad_norm": 0.8970621824264526, "learning_rate": 0.00029994894225974014, "loss": 3.9828, "step": 5970 }, { "epoch": 0.012458333333333333, "grad_norm": 1.086896538734436, "learning_rate": 0.0002999486847326384, "loss": 4.1389, "step": 5980 }, { "epoch": 0.012479166666666666, "grad_norm": 1.0852673053741455, "learning_rate": 0.0002999484265578177, "loss": 4.3322, "step": 5990 }, { "epoch": 0.0125, "grad_norm": 1.1359448432922363, "learning_rate": 0.00029994816773527914, "loss": 4.0537, "step": 6000 }, { "epoch": 0.0125, "eval_loss": 4.364706993103027, "eval_runtime": 8.6358, "eval_samples_per_second": 1.158, "eval_steps_per_second": 0.347, "step": 6000 }, { "epoch": 0.012520833333333333, "grad_norm": 1.1655429601669312, "learning_rate": 0.0002999479082650239, "loss": 4.0653, "step": 6010 }, { "epoch": 0.012541666666666666, "grad_norm": 0.957078754901886, "learning_rate": 0.00029994764814705296, "loss": 4.2411, "step": 6020 }, { "epoch": 0.0125625, "grad_norm": 1.0028799772262573, "learning_rate": 0.0002999473873813676, "loss": 4.1531, "step": 6030 }, { "epoch": 0.012583333333333334, "grad_norm": 0.8951534032821655, "learning_rate": 0.00029994712596796886, "loss": 3.9969, "step": 6040 }, { "epoch": 0.012604166666666666, "grad_norm": 0.8129245042800903, "learning_rate": 0.0002999468639068579, "loss": 4.1812, "step": 6050 }, { "epoch": 0.012625, "grad_norm": 0.8950570225715637, "learning_rate": 0.0002999466011980358, "loss": 4.0424, "step": 6060 }, { "epoch": 0.012645833333333334, "grad_norm": 0.8109812140464783, "learning_rate": 0.00029994633784150373, "loss": 4.1283, "step": 6070 }, { "epoch": 0.012666666666666666, "grad_norm": 1.0479668378829956, "learning_rate": 0.0002999460738372629, "loss": 3.9377, "step": 6080 }, { "epoch": 0.0126875, "grad_norm": 0.9200255870819092, "learning_rate": 0.0002999458091853143, "loss": 3.9175, "step": 6090 }, { "epoch": 0.012708333333333334, "grad_norm": 0.923332691192627, "learning_rate": 0.00029994554388565925, "loss": 4.1298, "step": 6100 }, { "epoch": 0.012729166666666666, "grad_norm": 0.9668201804161072, "learning_rate": 0.00029994527793829876, "loss": 4.1153, "step": 6110 }, { "epoch": 0.01275, "grad_norm": 0.8372182846069336, "learning_rate": 0.00029994501134323405, "loss": 4.0196, "step": 6120 }, { "epoch": 0.012770833333333334, "grad_norm": 0.9949009418487549, "learning_rate": 0.0002999447441004662, "loss": 3.9416, "step": 6130 }, { "epoch": 0.012791666666666666, "grad_norm": 0.9004925489425659, "learning_rate": 0.0002999444762099964, "loss": 4.0651, "step": 6140 }, { "epoch": 0.0128125, "grad_norm": 0.9128996729850769, "learning_rate": 0.0002999442076718258, "loss": 4.2135, "step": 6150 }, { "epoch": 0.012833333333333334, "grad_norm": 0.9584335088729858, "learning_rate": 0.00029994393848595567, "loss": 4.1165, "step": 6160 }, { "epoch": 0.012854166666666667, "grad_norm": 0.9648441672325134, "learning_rate": 0.000299943668652387, "loss": 3.9458, "step": 6170 }, { "epoch": 0.012875, "grad_norm": 0.8765039443969727, "learning_rate": 0.00029994339817112107, "loss": 4.1653, "step": 6180 }, { "epoch": 0.012895833333333334, "grad_norm": 0.9018328785896301, "learning_rate": 0.000299943127042159, "loss": 4.1809, "step": 6190 }, { "epoch": 0.012916666666666667, "grad_norm": 0.8819262981414795, "learning_rate": 0.00029994285526550196, "loss": 4.1164, "step": 6200 }, { "epoch": 0.0129375, "grad_norm": 1.068333625793457, "learning_rate": 0.00029994258284115114, "loss": 3.9838, "step": 6210 }, { "epoch": 0.012958333333333334, "grad_norm": 0.9078938961029053, "learning_rate": 0.0002999423097691077, "loss": 3.9797, "step": 6220 }, { "epoch": 0.012979166666666667, "grad_norm": 0.9527643918991089, "learning_rate": 0.0002999420360493729, "loss": 4.0528, "step": 6230 }, { "epoch": 0.013, "grad_norm": 0.9671280384063721, "learning_rate": 0.0002999417616819478, "loss": 3.9915, "step": 6240 }, { "epoch": 0.013020833333333334, "grad_norm": 1.0323084592819214, "learning_rate": 0.00029994148666683364, "loss": 4.2473, "step": 6250 }, { "epoch": 0.013041666666666667, "grad_norm": 1.008888840675354, "learning_rate": 0.00029994121100403154, "loss": 4.0077, "step": 6260 }, { "epoch": 0.0130625, "grad_norm": 0.8360439538955688, "learning_rate": 0.0002999409346935429, "loss": 4.0394, "step": 6270 }, { "epoch": 0.013083333333333334, "grad_norm": 1.0562629699707031, "learning_rate": 0.00029994065773536867, "loss": 4.1728, "step": 6280 }, { "epoch": 0.013104166666666667, "grad_norm": 0.8998481631278992, "learning_rate": 0.00029994038012951023, "loss": 4.0647, "step": 6290 }, { "epoch": 0.013125, "grad_norm": 0.9556834101676941, "learning_rate": 0.00029994010187596866, "loss": 4.1575, "step": 6300 }, { "epoch": 0.013145833333333334, "grad_norm": 0.9387531280517578, "learning_rate": 0.0002999398229747452, "loss": 4.2053, "step": 6310 }, { "epoch": 0.013166666666666667, "grad_norm": 1.059512734413147, "learning_rate": 0.00029993954342584105, "loss": 4.1122, "step": 6320 }, { "epoch": 0.0131875, "grad_norm": 0.8863552212715149, "learning_rate": 0.0002999392632292574, "loss": 4.0638, "step": 6330 }, { "epoch": 0.013208333333333334, "grad_norm": 0.96615070104599, "learning_rate": 0.00029993898238499554, "loss": 4.069, "step": 6340 }, { "epoch": 0.013229166666666667, "grad_norm": 0.9637752175331116, "learning_rate": 0.00029993870089305657, "loss": 4.059, "step": 6350 }, { "epoch": 0.01325, "grad_norm": 0.9568811655044556, "learning_rate": 0.0002999384187534418, "loss": 4.0715, "step": 6360 }, { "epoch": 0.013270833333333334, "grad_norm": 0.9379424452781677, "learning_rate": 0.00029993813596615237, "loss": 4.0718, "step": 6370 }, { "epoch": 0.013291666666666667, "grad_norm": 1.0933842658996582, "learning_rate": 0.00029993785253118954, "loss": 4.0454, "step": 6380 }, { "epoch": 0.0133125, "grad_norm": 0.9435713887214661, "learning_rate": 0.00029993756844855457, "loss": 4.0584, "step": 6390 }, { "epoch": 0.013333333333333334, "grad_norm": 0.8405054211616516, "learning_rate": 0.00029993728371824867, "loss": 3.871, "step": 6400 }, { "epoch": 0.013354166666666667, "grad_norm": 0.933931291103363, "learning_rate": 0.000299936998340273, "loss": 4.1761, "step": 6410 }, { "epoch": 0.013375, "grad_norm": 0.8940505981445312, "learning_rate": 0.0002999367123146289, "loss": 4.0246, "step": 6420 }, { "epoch": 0.013395833333333333, "grad_norm": 0.9127814173698425, "learning_rate": 0.00029993642564131754, "loss": 4.0734, "step": 6430 }, { "epoch": 0.013416666666666667, "grad_norm": 0.9094292521476746, "learning_rate": 0.00029993613832034015, "loss": 3.946, "step": 6440 }, { "epoch": 0.0134375, "grad_norm": 1.2239240407943726, "learning_rate": 0.000299935850351698, "loss": 3.9459, "step": 6450 }, { "epoch": 0.013458333333333333, "grad_norm": 0.8955016732215881, "learning_rate": 0.00029993556173539234, "loss": 3.8617, "step": 6460 }, { "epoch": 0.013479166666666667, "grad_norm": 0.8669296503067017, "learning_rate": 0.00029993527247142436, "loss": 4.0158, "step": 6470 }, { "epoch": 0.0135, "grad_norm": 0.8309480547904968, "learning_rate": 0.0002999349825597954, "loss": 4.0057, "step": 6480 }, { "epoch": 0.013520833333333333, "grad_norm": 0.8429121971130371, "learning_rate": 0.0002999346920005066, "loss": 4.0032, "step": 6490 }, { "epoch": 0.013541666666666667, "grad_norm": 0.897562563419342, "learning_rate": 0.00029993440079355933, "loss": 4.052, "step": 6500 }, { "epoch": 0.0135625, "grad_norm": 0.8948218822479248, "learning_rate": 0.00029993410893895477, "loss": 4.0736, "step": 6510 }, { "epoch": 0.013583333333333333, "grad_norm": 0.9286693930625916, "learning_rate": 0.00029993381643669424, "loss": 4.1823, "step": 6520 }, { "epoch": 0.013604166666666667, "grad_norm": 0.8896878361701965, "learning_rate": 0.000299933523286779, "loss": 4.1354, "step": 6530 }, { "epoch": 0.013625, "grad_norm": 0.9024227261543274, "learning_rate": 0.00029993322948921024, "loss": 4.1706, "step": 6540 }, { "epoch": 0.013645833333333333, "grad_norm": 0.9716841578483582, "learning_rate": 0.00029993293504398927, "loss": 4.0001, "step": 6550 }, { "epoch": 0.013666666666666667, "grad_norm": 0.8848289251327515, "learning_rate": 0.00029993263995111737, "loss": 4.1008, "step": 6560 }, { "epoch": 0.0136875, "grad_norm": 0.9355757832527161, "learning_rate": 0.00029993234421059583, "loss": 4.0402, "step": 6570 }, { "epoch": 0.013708333333333333, "grad_norm": 0.9168696403503418, "learning_rate": 0.00029993204782242586, "loss": 4.0907, "step": 6580 }, { "epoch": 0.013729166666666667, "grad_norm": 1.1814876794815063, "learning_rate": 0.00029993175078660885, "loss": 4.1214, "step": 6590 }, { "epoch": 0.01375, "grad_norm": 1.0008504390716553, "learning_rate": 0.000299931453103146, "loss": 4.0659, "step": 6600 }, { "epoch": 0.013770833333333333, "grad_norm": 1.0081291198730469, "learning_rate": 0.00029993115477203864, "loss": 3.9152, "step": 6610 }, { "epoch": 0.013791666666666667, "grad_norm": 1.0494648218154907, "learning_rate": 0.000299930855793288, "loss": 4.0762, "step": 6620 }, { "epoch": 0.0138125, "grad_norm": 1.0659271478652954, "learning_rate": 0.0002999305561668955, "loss": 4.0953, "step": 6630 }, { "epoch": 0.013833333333333333, "grad_norm": 0.9607105851173401, "learning_rate": 0.00029993025589286225, "loss": 3.9694, "step": 6640 }, { "epoch": 0.013854166666666667, "grad_norm": 1.063226342201233, "learning_rate": 0.0002999299549711897, "loss": 4.0232, "step": 6650 }, { "epoch": 0.013875, "grad_norm": 0.8980494737625122, "learning_rate": 0.00029992965340187904, "loss": 4.0558, "step": 6660 }, { "epoch": 0.013895833333333333, "grad_norm": 0.8890358805656433, "learning_rate": 0.00029992935118493166, "loss": 4.0773, "step": 6670 }, { "epoch": 0.013916666666666667, "grad_norm": 1.0375691652297974, "learning_rate": 0.00029992904832034875, "loss": 4.2058, "step": 6680 }, { "epoch": 0.0139375, "grad_norm": 0.9427799582481384, "learning_rate": 0.0002999287448081318, "loss": 4.1623, "step": 6690 }, { "epoch": 0.013958333333333333, "grad_norm": 0.9718566536903381, "learning_rate": 0.00029992844064828195, "loss": 4.1282, "step": 6700 }, { "epoch": 0.013979166666666668, "grad_norm": 0.9963191747665405, "learning_rate": 0.00029992813584080066, "loss": 4.1961, "step": 6710 }, { "epoch": 0.014, "grad_norm": 0.887082576751709, "learning_rate": 0.0002999278303856891, "loss": 3.9252, "step": 6720 }, { "epoch": 0.014020833333333333, "grad_norm": 0.8736108541488647, "learning_rate": 0.00029992752428294867, "loss": 3.9604, "step": 6730 }, { "epoch": 0.014041666666666666, "grad_norm": 0.9039258360862732, "learning_rate": 0.0002999272175325807, "loss": 4.2475, "step": 6740 }, { "epoch": 0.0140625, "grad_norm": 0.9288772940635681, "learning_rate": 0.00029992691013458646, "loss": 3.9646, "step": 6750 }, { "epoch": 0.014083333333333333, "grad_norm": 0.9164652824401855, "learning_rate": 0.0002999266020889674, "loss": 4.0333, "step": 6760 }, { "epoch": 0.014104166666666666, "grad_norm": 0.8952393531799316, "learning_rate": 0.00029992629339572465, "loss": 4.0806, "step": 6770 }, { "epoch": 0.014125, "grad_norm": 0.8376536965370178, "learning_rate": 0.0002999259840548597, "loss": 3.9286, "step": 6780 }, { "epoch": 0.014145833333333333, "grad_norm": 0.9379526972770691, "learning_rate": 0.0002999256740663739, "loss": 4.1664, "step": 6790 }, { "epoch": 0.014166666666666666, "grad_norm": 0.977990448474884, "learning_rate": 0.00029992536343026845, "loss": 3.9658, "step": 6800 }, { "epoch": 0.0141875, "grad_norm": 0.8667201399803162, "learning_rate": 0.00029992505214654477, "loss": 3.9671, "step": 6810 }, { "epoch": 0.014208333333333333, "grad_norm": 0.9429517388343811, "learning_rate": 0.00029992474021520426, "loss": 3.98, "step": 6820 }, { "epoch": 0.014229166666666666, "grad_norm": 0.8257001042366028, "learning_rate": 0.0002999244276362482, "loss": 3.9335, "step": 6830 }, { "epoch": 0.01425, "grad_norm": 0.9612383842468262, "learning_rate": 0.000299924114409678, "loss": 4.0503, "step": 6840 }, { "epoch": 0.014270833333333333, "grad_norm": 0.7644697427749634, "learning_rate": 0.0002999238005354949, "loss": 4.2029, "step": 6850 }, { "epoch": 0.014291666666666666, "grad_norm": 0.8802212476730347, "learning_rate": 0.0002999234860137004, "loss": 4.0442, "step": 6860 }, { "epoch": 0.0143125, "grad_norm": 1.0356061458587646, "learning_rate": 0.0002999231708442957, "loss": 3.8788, "step": 6870 }, { "epoch": 0.014333333333333333, "grad_norm": 0.8861193656921387, "learning_rate": 0.0002999228550272823, "loss": 4.1211, "step": 6880 }, { "epoch": 0.014354166666666666, "grad_norm": 0.8845570683479309, "learning_rate": 0.0002999225385626615, "loss": 4.1261, "step": 6890 }, { "epoch": 0.014375, "grad_norm": 0.9453163743019104, "learning_rate": 0.0002999222214504347, "loss": 4.0783, "step": 6900 }, { "epoch": 0.014395833333333333, "grad_norm": 1.037510633468628, "learning_rate": 0.00029992190369060323, "loss": 4.0957, "step": 6910 }, { "epoch": 0.014416666666666666, "grad_norm": 0.9237430691719055, "learning_rate": 0.0002999215852831685, "loss": 4.0247, "step": 6920 }, { "epoch": 0.0144375, "grad_norm": 0.8403300642967224, "learning_rate": 0.0002999212662281318, "loss": 3.8862, "step": 6930 }, { "epoch": 0.014458333333333333, "grad_norm": 0.9654322862625122, "learning_rate": 0.00029992094652549455, "loss": 3.989, "step": 6940 }, { "epoch": 0.014479166666666666, "grad_norm": 0.9429084062576294, "learning_rate": 0.00029992062617525825, "loss": 4.1007, "step": 6950 }, { "epoch": 0.0145, "grad_norm": 0.9030852913856506, "learning_rate": 0.00029992030517742415, "loss": 3.996, "step": 6960 }, { "epoch": 0.014520833333333334, "grad_norm": 0.9190139770507812, "learning_rate": 0.00029991998353199364, "loss": 4.0217, "step": 6970 }, { "epoch": 0.014541666666666666, "grad_norm": 1.0145999193191528, "learning_rate": 0.0002999196612389682, "loss": 3.925, "step": 6980 }, { "epoch": 0.0145625, "grad_norm": 0.9598746299743652, "learning_rate": 0.00029991933829834913, "loss": 4.0229, "step": 6990 }, { "epoch": 0.014583333333333334, "grad_norm": 0.8927167654037476, "learning_rate": 0.0002999190147101379, "loss": 4.0605, "step": 7000 }, { "epoch": 0.014583333333333334, "eval_loss": 4.340586185455322, "eval_runtime": 11.0302, "eval_samples_per_second": 0.907, "eval_steps_per_second": 0.272, "step": 7000 }, { "epoch": 0.014604166666666666, "grad_norm": 1.0125157833099365, "learning_rate": 0.0002999186904743358, "loss": 3.9642, "step": 7010 }, { "epoch": 0.014625, "grad_norm": 0.9457781910896301, "learning_rate": 0.00029991836559094433, "loss": 4.0079, "step": 7020 }, { "epoch": 0.014645833333333334, "grad_norm": 0.9316348433494568, "learning_rate": 0.00029991804005996493, "loss": 4.0168, "step": 7030 }, { "epoch": 0.014666666666666666, "grad_norm": 0.9104083180427551, "learning_rate": 0.00029991771388139884, "loss": 4.0599, "step": 7040 }, { "epoch": 0.0146875, "grad_norm": 0.9380168914794922, "learning_rate": 0.00029991738705524763, "loss": 3.9804, "step": 7050 }, { "epoch": 0.014708333333333334, "grad_norm": 0.8020222187042236, "learning_rate": 0.0002999170595815126, "loss": 4.0416, "step": 7060 }, { "epoch": 0.014729166666666666, "grad_norm": 0.895160973072052, "learning_rate": 0.00029991673146019526, "loss": 4.0953, "step": 7070 }, { "epoch": 0.01475, "grad_norm": 0.9720396399497986, "learning_rate": 0.000299916402691297, "loss": 4.1505, "step": 7080 }, { "epoch": 0.014770833333333334, "grad_norm": 0.9162779450416565, "learning_rate": 0.00029991607327481916, "loss": 3.9746, "step": 7090 }, { "epoch": 0.014791666666666667, "grad_norm": 0.9347497224807739, "learning_rate": 0.00029991574321076327, "loss": 3.8849, "step": 7100 }, { "epoch": 0.0148125, "grad_norm": 1.1414587497711182, "learning_rate": 0.00029991541249913066, "loss": 4.1746, "step": 7110 }, { "epoch": 0.014833333333333334, "grad_norm": 0.8596989512443542, "learning_rate": 0.00029991508113992284, "loss": 4.0042, "step": 7120 }, { "epoch": 0.014854166666666667, "grad_norm": 1.5247185230255127, "learning_rate": 0.00029991474913314124, "loss": 4.0133, "step": 7130 }, { "epoch": 0.014875, "grad_norm": 1.1025023460388184, "learning_rate": 0.0002999144164787872, "loss": 4.0831, "step": 7140 }, { "epoch": 0.014895833333333334, "grad_norm": 0.8815367221832275, "learning_rate": 0.0002999140831768623, "loss": 4.1567, "step": 7150 }, { "epoch": 0.014916666666666667, "grad_norm": 0.8190339207649231, "learning_rate": 0.0002999137492273678, "loss": 4.0352, "step": 7160 }, { "epoch": 0.0149375, "grad_norm": 0.9389554858207703, "learning_rate": 0.0002999134146303053, "loss": 4.0819, "step": 7170 }, { "epoch": 0.014958333333333334, "grad_norm": 0.844062864780426, "learning_rate": 0.0002999130793856762, "loss": 4.1883, "step": 7180 }, { "epoch": 0.014979166666666667, "grad_norm": 0.9921501874923706, "learning_rate": 0.0002999127434934819, "loss": 4.0527, "step": 7190 }, { "epoch": 0.015, "grad_norm": 0.8162594437599182, "learning_rate": 0.00029991240695372397, "loss": 4.1004, "step": 7200 }, { "epoch": 0.015020833333333334, "grad_norm": 0.9247971177101135, "learning_rate": 0.0002999120697664037, "loss": 4.0457, "step": 7210 }, { "epoch": 0.015041666666666667, "grad_norm": 0.8534733057022095, "learning_rate": 0.00029991173193152264, "loss": 4.056, "step": 7220 }, { "epoch": 0.0150625, "grad_norm": 0.9703700542449951, "learning_rate": 0.0002999113934490822, "loss": 3.9965, "step": 7230 }, { "epoch": 0.015083333333333334, "grad_norm": 0.9544861912727356, "learning_rate": 0.000299911054319084, "loss": 4.1055, "step": 7240 }, { "epoch": 0.015104166666666667, "grad_norm": 0.9065807461738586, "learning_rate": 0.0002999107145415293, "loss": 4.0456, "step": 7250 }, { "epoch": 0.015125, "grad_norm": 0.9795711636543274, "learning_rate": 0.00029991037411641967, "loss": 3.8591, "step": 7260 }, { "epoch": 0.015145833333333334, "grad_norm": 0.9871900081634521, "learning_rate": 0.00029991003304375655, "loss": 4.0524, "step": 7270 }, { "epoch": 0.015166666666666667, "grad_norm": 0.8816227316856384, "learning_rate": 0.00029990969132354144, "loss": 4.2103, "step": 7280 }, { "epoch": 0.0151875, "grad_norm": 0.9611108899116516, "learning_rate": 0.0002999093489557758, "loss": 4.1064, "step": 7290 }, { "epoch": 0.015208333333333334, "grad_norm": 0.9315329194068909, "learning_rate": 0.0002999090059404611, "loss": 3.9858, "step": 7300 }, { "epoch": 0.015229166666666667, "grad_norm": 0.8917229771614075, "learning_rate": 0.0002999086622775988, "loss": 4.1627, "step": 7310 }, { "epoch": 0.01525, "grad_norm": 1.0180741548538208, "learning_rate": 0.0002999083179671905, "loss": 4.0763, "step": 7320 }, { "epoch": 0.015270833333333334, "grad_norm": 0.9636371731758118, "learning_rate": 0.00029990797300923755, "loss": 3.9742, "step": 7330 }, { "epoch": 0.015291666666666667, "grad_norm": 1.1485958099365234, "learning_rate": 0.00029990762740374145, "loss": 3.9178, "step": 7340 }, { "epoch": 0.0153125, "grad_norm": 0.900506317615509, "learning_rate": 0.0002999072811507038, "loss": 4.1424, "step": 7350 }, { "epoch": 0.015333333333333332, "grad_norm": 0.9068747162818909, "learning_rate": 0.000299906934250126, "loss": 4.0313, "step": 7360 }, { "epoch": 0.015354166666666667, "grad_norm": 1.0739527940750122, "learning_rate": 0.0002999065867020097, "loss": 4.0776, "step": 7370 }, { "epoch": 0.015375, "grad_norm": 0.8621461987495422, "learning_rate": 0.0002999062385063561, "loss": 4.1099, "step": 7380 }, { "epoch": 0.015395833333333333, "grad_norm": 0.925075113773346, "learning_rate": 0.000299905889663167, "loss": 3.9909, "step": 7390 }, { "epoch": 0.015416666666666667, "grad_norm": 1.0692356824874878, "learning_rate": 0.00029990554017244377, "loss": 4.2384, "step": 7400 }, { "epoch": 0.0154375, "grad_norm": 0.8479160666465759, "learning_rate": 0.0002999051900341879, "loss": 3.983, "step": 7410 }, { "epoch": 0.015458333333333333, "grad_norm": 0.9838065505027771, "learning_rate": 0.000299904839248401, "loss": 3.9416, "step": 7420 }, { "epoch": 0.015479166666666667, "grad_norm": 0.8836420178413391, "learning_rate": 0.00029990448781508453, "loss": 4.1588, "step": 7430 }, { "epoch": 0.0155, "grad_norm": 0.8008750677108765, "learning_rate": 0.00029990413573424, "loss": 4.3644, "step": 7440 }, { "epoch": 0.015520833333333333, "grad_norm": 0.8938660621643066, "learning_rate": 0.00029990378300586893, "loss": 4.077, "step": 7450 }, { "epoch": 0.015541666666666667, "grad_norm": 0.9481860995292664, "learning_rate": 0.0002999034296299729, "loss": 4.0922, "step": 7460 }, { "epoch": 0.0155625, "grad_norm": 0.8930200934410095, "learning_rate": 0.00029990307560655326, "loss": 3.995, "step": 7470 }, { "epoch": 0.015583333333333333, "grad_norm": 1.2217803001403809, "learning_rate": 0.00029990272093561183, "loss": 3.9935, "step": 7480 }, { "epoch": 0.015604166666666667, "grad_norm": 1.000601887702942, "learning_rate": 0.0002999023656171499, "loss": 4.0182, "step": 7490 }, { "epoch": 0.015625, "grad_norm": 0.8854073882102966, "learning_rate": 0.0002999020096511691, "loss": 3.9662, "step": 7500 }, { "epoch": 0.015645833333333335, "grad_norm": 1.2044990062713623, "learning_rate": 0.0002999016530376709, "loss": 3.9801, "step": 7510 }, { "epoch": 0.015666666666666666, "grad_norm": 0.9241108298301697, "learning_rate": 0.00029990129577665695, "loss": 4.0193, "step": 7520 }, { "epoch": 0.0156875, "grad_norm": 0.7738756537437439, "learning_rate": 0.0002999009378681287, "loss": 3.9725, "step": 7530 }, { "epoch": 0.015708333333333335, "grad_norm": 0.9775682687759399, "learning_rate": 0.0002999005793120878, "loss": 4.1193, "step": 7540 }, { "epoch": 0.015729166666666666, "grad_norm": 0.9840127825737, "learning_rate": 0.0002999002201085357, "loss": 4.0843, "step": 7550 }, { "epoch": 0.01575, "grad_norm": 0.900884747505188, "learning_rate": 0.000299899860257474, "loss": 4.009, "step": 7560 }, { "epoch": 0.015770833333333335, "grad_norm": 0.8358213901519775, "learning_rate": 0.0002998994997589042, "loss": 4.149, "step": 7570 }, { "epoch": 0.015791666666666666, "grad_norm": 0.8391352891921997, "learning_rate": 0.00029989913861282793, "loss": 3.9244, "step": 7580 }, { "epoch": 0.0158125, "grad_norm": 0.9761918783187866, "learning_rate": 0.0002998987768192467, "loss": 4.0347, "step": 7590 }, { "epoch": 0.015833333333333335, "grad_norm": 1.1620367765426636, "learning_rate": 0.0002998984143781621, "loss": 3.9484, "step": 7600 }, { "epoch": 0.015854166666666666, "grad_norm": 0.9000586271286011, "learning_rate": 0.0002998980512895756, "loss": 4.0313, "step": 7610 }, { "epoch": 0.015875, "grad_norm": 0.9657297134399414, "learning_rate": 0.00029989768755348895, "loss": 4.0561, "step": 7620 }, { "epoch": 0.015895833333333335, "grad_norm": 1.0161843299865723, "learning_rate": 0.0002998973231699036, "loss": 4.1927, "step": 7630 }, { "epoch": 0.015916666666666666, "grad_norm": 0.9004241824150085, "learning_rate": 0.0002998969581388211, "loss": 4.1073, "step": 7640 }, { "epoch": 0.0159375, "grad_norm": 0.9844752550125122, "learning_rate": 0.00029989659246024315, "loss": 4.1457, "step": 7650 }, { "epoch": 0.015958333333333335, "grad_norm": 0.9914301633834839, "learning_rate": 0.0002998962261341712, "loss": 4.1176, "step": 7660 }, { "epoch": 0.015979166666666666, "grad_norm": 0.9517707228660583, "learning_rate": 0.0002998958591606069, "loss": 4.0301, "step": 7670 }, { "epoch": 0.016, "grad_norm": 0.9848448634147644, "learning_rate": 0.0002998954915395519, "loss": 3.9633, "step": 7680 }, { "epoch": 0.016020833333333335, "grad_norm": 0.9697771668434143, "learning_rate": 0.0002998951232710076, "loss": 4.0888, "step": 7690 }, { "epoch": 0.016041666666666666, "grad_norm": 0.8675816655158997, "learning_rate": 0.0002998947543549757, "loss": 4.1535, "step": 7700 }, { "epoch": 0.0160625, "grad_norm": 0.888594925403595, "learning_rate": 0.00029989438479145785, "loss": 4.0266, "step": 7710 }, { "epoch": 0.016083333333333335, "grad_norm": 0.8527824878692627, "learning_rate": 0.0002998940145804556, "loss": 4.076, "step": 7720 }, { "epoch": 0.016104166666666666, "grad_norm": 0.8573829531669617, "learning_rate": 0.0002998936437219705, "loss": 4.1426, "step": 7730 }, { "epoch": 0.016125, "grad_norm": 0.8374878168106079, "learning_rate": 0.0002998932722160042, "loss": 4.2586, "step": 7740 }, { "epoch": 0.016145833333333335, "grad_norm": 0.9867334365844727, "learning_rate": 0.0002998929000625583, "loss": 3.9878, "step": 7750 }, { "epoch": 0.016166666666666666, "grad_norm": 1.0349607467651367, "learning_rate": 0.0002998925272616344, "loss": 3.9155, "step": 7760 }, { "epoch": 0.0161875, "grad_norm": 0.9910019040107727, "learning_rate": 0.00029989215381323413, "loss": 4.1652, "step": 7770 }, { "epoch": 0.016208333333333335, "grad_norm": 1.1321102380752563, "learning_rate": 0.0002998917797173591, "loss": 3.9685, "step": 7780 }, { "epoch": 0.016229166666666666, "grad_norm": 0.8418395519256592, "learning_rate": 0.00029989140497401086, "loss": 4.1075, "step": 7790 }, { "epoch": 0.01625, "grad_norm": 0.8726577758789062, "learning_rate": 0.0002998910295831911, "loss": 4.1443, "step": 7800 }, { "epoch": 0.016270833333333335, "grad_norm": 0.9628142714500427, "learning_rate": 0.00029989065354490144, "loss": 3.9348, "step": 7810 }, { "epoch": 0.016291666666666666, "grad_norm": 0.875770092010498, "learning_rate": 0.00029989027685914344, "loss": 4.152, "step": 7820 }, { "epoch": 0.0163125, "grad_norm": 0.890224039554596, "learning_rate": 0.0002998898995259188, "loss": 4.1304, "step": 7830 }, { "epoch": 0.01633333333333333, "grad_norm": 0.9940407276153564, "learning_rate": 0.00029988952154522917, "loss": 4.1147, "step": 7840 }, { "epoch": 0.016354166666666666, "grad_norm": 1.057767629623413, "learning_rate": 0.0002998891429170761, "loss": 4.0949, "step": 7850 }, { "epoch": 0.016375, "grad_norm": 0.8641510009765625, "learning_rate": 0.00029988876364146126, "loss": 4.0559, "step": 7860 }, { "epoch": 0.01639583333333333, "grad_norm": 1.054960012435913, "learning_rate": 0.00029988838371838633, "loss": 3.9667, "step": 7870 }, { "epoch": 0.016416666666666666, "grad_norm": 0.887367308139801, "learning_rate": 0.0002998880031478528, "loss": 4.2097, "step": 7880 }, { "epoch": 0.0164375, "grad_norm": 1.0446540117263794, "learning_rate": 0.0002998876219298625, "loss": 3.9531, "step": 7890 }, { "epoch": 0.016458333333333332, "grad_norm": 0.8754667043685913, "learning_rate": 0.00029988724006441706, "loss": 4.1747, "step": 7900 }, { "epoch": 0.016479166666666666, "grad_norm": 0.867599606513977, "learning_rate": 0.00029988685755151805, "loss": 4.2133, "step": 7910 }, { "epoch": 0.0165, "grad_norm": 0.8551528453826904, "learning_rate": 0.00029988647439116705, "loss": 4.0214, "step": 7920 }, { "epoch": 0.016520833333333332, "grad_norm": 0.9514595866203308, "learning_rate": 0.0002998860905833659, "loss": 4.0321, "step": 7930 }, { "epoch": 0.016541666666666666, "grad_norm": 0.9246469140052795, "learning_rate": 0.0002998857061281161, "loss": 4.0849, "step": 7940 }, { "epoch": 0.0165625, "grad_norm": 0.8294110298156738, "learning_rate": 0.00029988532102541947, "loss": 3.8799, "step": 7950 }, { "epoch": 0.016583333333333332, "grad_norm": 0.9265419840812683, "learning_rate": 0.0002998849352752775, "loss": 4.2849, "step": 7960 }, { "epoch": 0.016604166666666666, "grad_norm": 0.9284372329711914, "learning_rate": 0.000299884548877692, "loss": 3.9457, "step": 7970 }, { "epoch": 0.016625, "grad_norm": 0.8611606955528259, "learning_rate": 0.00029988416183266456, "loss": 3.8719, "step": 7980 }, { "epoch": 0.016645833333333332, "grad_norm": 0.975935161113739, "learning_rate": 0.00029988377414019685, "loss": 4.0905, "step": 7990 }, { "epoch": 0.016666666666666666, "grad_norm": 0.8938225507736206, "learning_rate": 0.00029988338580029056, "loss": 4.0504, "step": 8000 }, { "epoch": 0.016666666666666666, "eval_loss": 4.359135627746582, "eval_runtime": 9.6608, "eval_samples_per_second": 1.035, "eval_steps_per_second": 0.311, "step": 8000 }, { "epoch": 0.0166875, "grad_norm": 0.8844358325004578, "learning_rate": 0.0002998829968129474, "loss": 4.159, "step": 8010 }, { "epoch": 0.016708333333333332, "grad_norm": 0.945570170879364, "learning_rate": 0.00029988260717816903, "loss": 4.0678, "step": 8020 }, { "epoch": 0.016729166666666666, "grad_norm": 0.9997355341911316, "learning_rate": 0.00029988221689595705, "loss": 4.2037, "step": 8030 }, { "epoch": 0.01675, "grad_norm": 0.9758825898170471, "learning_rate": 0.00029988182596631325, "loss": 3.8107, "step": 8040 }, { "epoch": 0.016770833333333332, "grad_norm": 0.7964422702789307, "learning_rate": 0.00029988143438923937, "loss": 4.2898, "step": 8050 }, { "epoch": 0.016791666666666667, "grad_norm": 0.903896689414978, "learning_rate": 0.000299881042164737, "loss": 4.1031, "step": 8060 }, { "epoch": 0.0168125, "grad_norm": 0.9570715427398682, "learning_rate": 0.00029988064929280776, "loss": 3.9441, "step": 8070 }, { "epoch": 0.016833333333333332, "grad_norm": 1.100372076034546, "learning_rate": 0.00029988025577345345, "loss": 4.1331, "step": 8080 }, { "epoch": 0.016854166666666667, "grad_norm": 1.2692229747772217, "learning_rate": 0.00029987986160667584, "loss": 4.1688, "step": 8090 }, { "epoch": 0.016875, "grad_norm": 0.9311814904212952, "learning_rate": 0.00029987946679247655, "loss": 4.0383, "step": 8100 }, { "epoch": 0.016895833333333332, "grad_norm": 0.9424052834510803, "learning_rate": 0.00029987907133085726, "loss": 4.4557, "step": 8110 }, { "epoch": 0.016916666666666667, "grad_norm": 0.9361470341682434, "learning_rate": 0.0002998786752218197, "loss": 3.956, "step": 8120 }, { "epoch": 0.0169375, "grad_norm": 0.9429013133049011, "learning_rate": 0.0002998782784653656, "loss": 4.072, "step": 8130 }, { "epoch": 0.016958333333333332, "grad_norm": 0.9332160949707031, "learning_rate": 0.00029987788106149664, "loss": 4.1583, "step": 8140 }, { "epoch": 0.016979166666666667, "grad_norm": 0.8462079167366028, "learning_rate": 0.0002998774830102146, "loss": 4.1381, "step": 8150 }, { "epoch": 0.017, "grad_norm": 0.9293659925460815, "learning_rate": 0.00029987708431152113, "loss": 4.1782, "step": 8160 }, { "epoch": 0.017020833333333332, "grad_norm": 0.931438684463501, "learning_rate": 0.000299876684965418, "loss": 4.243, "step": 8170 }, { "epoch": 0.017041666666666667, "grad_norm": 0.8117160797119141, "learning_rate": 0.0002998762849719069, "loss": 4.0017, "step": 8180 }, { "epoch": 0.0170625, "grad_norm": 1.0574076175689697, "learning_rate": 0.0002998758843309896, "loss": 4.1704, "step": 8190 }, { "epoch": 0.017083333333333332, "grad_norm": 0.9583580493927002, "learning_rate": 0.0002998754830426678, "loss": 4.0298, "step": 8200 }, { "epoch": 0.017104166666666667, "grad_norm": 0.8882920145988464, "learning_rate": 0.00029987508110694317, "loss": 3.9623, "step": 8210 }, { "epoch": 0.017125, "grad_norm": 0.9885251522064209, "learning_rate": 0.00029987467852381764, "loss": 3.901, "step": 8220 }, { "epoch": 0.017145833333333332, "grad_norm": 1.0381290912628174, "learning_rate": 0.0002998742752932927, "loss": 4.1142, "step": 8230 }, { "epoch": 0.017166666666666667, "grad_norm": 1.0162827968597412, "learning_rate": 0.0002998738714153703, "loss": 3.8985, "step": 8240 }, { "epoch": 0.0171875, "grad_norm": 1.0146030187606812, "learning_rate": 0.00029987346689005204, "loss": 3.9436, "step": 8250 }, { "epoch": 0.017208333333333332, "grad_norm": 0.8633815050125122, "learning_rate": 0.00029987306171733977, "loss": 4.2695, "step": 8260 }, { "epoch": 0.017229166666666667, "grad_norm": 0.8891245722770691, "learning_rate": 0.0002998726558972352, "loss": 4.0899, "step": 8270 }, { "epoch": 0.01725, "grad_norm": 0.9359492063522339, "learning_rate": 0.00029987224942974006, "loss": 3.9815, "step": 8280 }, { "epoch": 0.017270833333333332, "grad_norm": 0.9664071798324585, "learning_rate": 0.0002998718423148561, "loss": 4.1807, "step": 8290 }, { "epoch": 0.017291666666666667, "grad_norm": 1.0486708879470825, "learning_rate": 0.00029987143455258516, "loss": 4.1797, "step": 8300 }, { "epoch": 0.0173125, "grad_norm": 0.9385436773300171, "learning_rate": 0.0002998710261429289, "loss": 4.0756, "step": 8310 }, { "epoch": 0.017333333333333333, "grad_norm": 0.9213384389877319, "learning_rate": 0.00029987061708588916, "loss": 4.0342, "step": 8320 }, { "epoch": 0.017354166666666667, "grad_norm": 0.948731541633606, "learning_rate": 0.00029987020738146767, "loss": 4.118, "step": 8330 }, { "epoch": 0.017375, "grad_norm": 0.9450809955596924, "learning_rate": 0.0002998697970296662, "loss": 4.1192, "step": 8340 }, { "epoch": 0.017395833333333333, "grad_norm": 0.8671319484710693, "learning_rate": 0.0002998693860304865, "loss": 4.0003, "step": 8350 }, { "epoch": 0.017416666666666667, "grad_norm": 0.9694793224334717, "learning_rate": 0.00029986897438393043, "loss": 3.8087, "step": 8360 }, { "epoch": 0.0174375, "grad_norm": 0.9735819101333618, "learning_rate": 0.0002998685620899997, "loss": 4.1153, "step": 8370 }, { "epoch": 0.017458333333333333, "grad_norm": 0.9942685961723328, "learning_rate": 0.0002998681491486961, "loss": 4.0003, "step": 8380 }, { "epoch": 0.017479166666666667, "grad_norm": 0.9571182727813721, "learning_rate": 0.0002998677355600214, "loss": 4.0935, "step": 8390 }, { "epoch": 0.0175, "grad_norm": 0.7830858826637268, "learning_rate": 0.0002998673213239774, "loss": 4.2864, "step": 8400 }, { "epoch": 0.017520833333333333, "grad_norm": 1.0673060417175293, "learning_rate": 0.0002998669064405659, "loss": 3.9124, "step": 8410 }, { "epoch": 0.017541666666666667, "grad_norm": 0.8895696997642517, "learning_rate": 0.0002998664909097887, "loss": 4.0705, "step": 8420 }, { "epoch": 0.0175625, "grad_norm": 1.176624059677124, "learning_rate": 0.0002998660747316476, "loss": 4.1571, "step": 8430 }, { "epoch": 0.017583333333333333, "grad_norm": 1.1625657081604004, "learning_rate": 0.00029986565790614435, "loss": 4.0164, "step": 8440 }, { "epoch": 0.017604166666666667, "grad_norm": 1.1032110452651978, "learning_rate": 0.0002998652404332808, "loss": 3.9599, "step": 8450 }, { "epoch": 0.017625, "grad_norm": 1.0995789766311646, "learning_rate": 0.0002998648223130587, "loss": 4.0638, "step": 8460 }, { "epoch": 0.017645833333333333, "grad_norm": 0.8630760312080383, "learning_rate": 0.0002998644035454799, "loss": 3.9497, "step": 8470 }, { "epoch": 0.017666666666666667, "grad_norm": 0.838282585144043, "learning_rate": 0.0002998639841305462, "loss": 4.0781, "step": 8480 }, { "epoch": 0.0176875, "grad_norm": 0.7680670022964478, "learning_rate": 0.0002998635640682594, "loss": 4.1953, "step": 8490 }, { "epoch": 0.017708333333333333, "grad_norm": 0.8610295653343201, "learning_rate": 0.00029986314335862135, "loss": 4.0202, "step": 8500 }, { "epoch": 0.017729166666666667, "grad_norm": 0.9679912328720093, "learning_rate": 0.0002998627220016338, "loss": 4.1376, "step": 8510 }, { "epoch": 0.01775, "grad_norm": 0.8499793410301208, "learning_rate": 0.0002998622999972987, "loss": 4.2573, "step": 8520 }, { "epoch": 0.017770833333333333, "grad_norm": 0.918820321559906, "learning_rate": 0.00029986187734561766, "loss": 4.1539, "step": 8530 }, { "epoch": 0.017791666666666667, "grad_norm": 1.0979641675949097, "learning_rate": 0.0002998614540465927, "loss": 4.0731, "step": 8540 }, { "epoch": 0.0178125, "grad_norm": 0.9051472544670105, "learning_rate": 0.0002998610301002256, "loss": 4.0903, "step": 8550 }, { "epoch": 0.017833333333333333, "grad_norm": 0.9612399935722351, "learning_rate": 0.0002998606055065181, "loss": 3.9094, "step": 8560 }, { "epoch": 0.017854166666666667, "grad_norm": 1.085081696510315, "learning_rate": 0.00029986018026547214, "loss": 4.0771, "step": 8570 }, { "epoch": 0.017875, "grad_norm": 0.9349003434181213, "learning_rate": 0.0002998597543770895, "loss": 4.1552, "step": 8580 }, { "epoch": 0.017895833333333333, "grad_norm": 0.8839707374572754, "learning_rate": 0.0002998593278413721, "loss": 4.0256, "step": 8590 }, { "epoch": 0.017916666666666668, "grad_norm": 0.958372950553894, "learning_rate": 0.00029985890065832165, "loss": 4.0301, "step": 8600 }, { "epoch": 0.0179375, "grad_norm": 1.2134268283843994, "learning_rate": 0.0002998584728279401, "loss": 4.1408, "step": 8610 }, { "epoch": 0.017958333333333333, "grad_norm": 0.9239814281463623, "learning_rate": 0.0002998580443502293, "loss": 4.0323, "step": 8620 }, { "epoch": 0.017979166666666668, "grad_norm": 0.843664824962616, "learning_rate": 0.00029985761522519094, "loss": 3.9146, "step": 8630 }, { "epoch": 0.018, "grad_norm": 1.2419476509094238, "learning_rate": 0.00029985718545282714, "loss": 4.1792, "step": 8640 }, { "epoch": 0.018020833333333333, "grad_norm": 1.329093098640442, "learning_rate": 0.00029985675503313956, "loss": 4.2059, "step": 8650 }, { "epoch": 0.018041666666666668, "grad_norm": 0.8298959136009216, "learning_rate": 0.0002998563239661301, "loss": 3.9852, "step": 8660 }, { "epoch": 0.0180625, "grad_norm": 0.7582468390464783, "learning_rate": 0.0002998558922518007, "loss": 4.084, "step": 8670 }, { "epoch": 0.018083333333333333, "grad_norm": 0.9785591959953308, "learning_rate": 0.0002998554598901531, "loss": 4.0348, "step": 8680 }, { "epoch": 0.018104166666666668, "grad_norm": 0.9617912769317627, "learning_rate": 0.00029985502688118925, "loss": 3.9361, "step": 8690 }, { "epoch": 0.018125, "grad_norm": 0.9017140865325928, "learning_rate": 0.000299854593224911, "loss": 4.1316, "step": 8700 }, { "epoch": 0.018145833333333333, "grad_norm": 0.8073142170906067, "learning_rate": 0.00029985415892132023, "loss": 3.9029, "step": 8710 }, { "epoch": 0.018166666666666668, "grad_norm": 1.0022088289260864, "learning_rate": 0.0002998537239704188, "loss": 4.1955, "step": 8720 }, { "epoch": 0.0181875, "grad_norm": 0.8683967590332031, "learning_rate": 0.0002998532883722086, "loss": 3.9902, "step": 8730 }, { "epoch": 0.018208333333333333, "grad_norm": 0.8850433230400085, "learning_rate": 0.0002998528521266915, "loss": 3.9935, "step": 8740 }, { "epoch": 0.018229166666666668, "grad_norm": 0.9850907921791077, "learning_rate": 0.0002998524152338694, "loss": 4.1306, "step": 8750 }, { "epoch": 0.01825, "grad_norm": 0.9019120335578918, "learning_rate": 0.00029985197769374423, "loss": 4.0238, "step": 8760 }, { "epoch": 0.018270833333333333, "grad_norm": 0.9077861309051514, "learning_rate": 0.0002998515395063177, "loss": 4.0197, "step": 8770 }, { "epoch": 0.018291666666666668, "grad_norm": 1.1095470190048218, "learning_rate": 0.000299851100671592, "loss": 3.9661, "step": 8780 }, { "epoch": 0.0183125, "grad_norm": 0.8263306617736816, "learning_rate": 0.0002998506611895688, "loss": 4.087, "step": 8790 }, { "epoch": 0.018333333333333333, "grad_norm": 1.001594066619873, "learning_rate": 0.00029985022106025, "loss": 4.042, "step": 8800 }, { "epoch": 0.018354166666666668, "grad_norm": 0.7825855016708374, "learning_rate": 0.0002998497802836376, "loss": 3.9146, "step": 8810 }, { "epoch": 0.018375, "grad_norm": 0.8702734708786011, "learning_rate": 0.00029984933885973355, "loss": 4.0408, "step": 8820 }, { "epoch": 0.018395833333333333, "grad_norm": 0.8864033222198486, "learning_rate": 0.00029984889678853955, "loss": 4.0739, "step": 8830 }, { "epoch": 0.018416666666666668, "grad_norm": 1.0076587200164795, "learning_rate": 0.00029984845407005767, "loss": 4.013, "step": 8840 }, { "epoch": 0.0184375, "grad_norm": 0.935309886932373, "learning_rate": 0.00029984801070428974, "loss": 4.1587, "step": 8850 }, { "epoch": 0.018458333333333334, "grad_norm": 0.8029825687408447, "learning_rate": 0.00029984756669123783, "loss": 4.055, "step": 8860 }, { "epoch": 0.018479166666666668, "grad_norm": 0.8799611926078796, "learning_rate": 0.00029984712203090367, "loss": 3.9093, "step": 8870 }, { "epoch": 0.0185, "grad_norm": 0.9531365633010864, "learning_rate": 0.0002998466767232892, "loss": 3.9717, "step": 8880 }, { "epoch": 0.018520833333333334, "grad_norm": 0.884185254573822, "learning_rate": 0.0002998462307683965, "loss": 3.9517, "step": 8890 }, { "epoch": 0.018541666666666668, "grad_norm": 0.9882393479347229, "learning_rate": 0.00029984578416622737, "loss": 4.0974, "step": 8900 }, { "epoch": 0.0185625, "grad_norm": 0.8401179313659668, "learning_rate": 0.0002998453369167838, "loss": 4.1953, "step": 8910 }, { "epoch": 0.018583333333333334, "grad_norm": 0.9629188179969788, "learning_rate": 0.0002998448890200676, "loss": 4.0424, "step": 8920 }, { "epoch": 0.018604166666666668, "grad_norm": 1.0426764488220215, "learning_rate": 0.0002998444404760808, "loss": 4.0312, "step": 8930 }, { "epoch": 0.018625, "grad_norm": 0.9690893292427063, "learning_rate": 0.0002998439912848254, "loss": 3.9159, "step": 8940 }, { "epoch": 0.018645833333333334, "grad_norm": 0.8988893032073975, "learning_rate": 0.0002998435414463032, "loss": 4.1215, "step": 8950 }, { "epoch": 0.018666666666666668, "grad_norm": 1.0951426029205322, "learning_rate": 0.00029984309096051624, "loss": 3.9974, "step": 8960 }, { "epoch": 0.0186875, "grad_norm": 0.858089029788971, "learning_rate": 0.0002998426398274665, "loss": 3.8983, "step": 8970 }, { "epoch": 0.018708333333333334, "grad_norm": 0.9532752633094788, "learning_rate": 0.0002998421880471558, "loss": 4.1317, "step": 8980 }, { "epoch": 0.01872916666666667, "grad_norm": 1.2736117839813232, "learning_rate": 0.00029984173561958615, "loss": 4.2258, "step": 8990 }, { "epoch": 0.01875, "grad_norm": 1.0548949241638184, "learning_rate": 0.0002998412825447595, "loss": 4.1096, "step": 9000 }, { "epoch": 0.01875, "eval_loss": 4.345475673675537, "eval_runtime": 10.5435, "eval_samples_per_second": 0.948, "eval_steps_per_second": 0.285, "step": 9000 }, { "epoch": 0.018770833333333334, "grad_norm": 0.9277525544166565, "learning_rate": 0.00029984082882267786, "loss": 4.2696, "step": 9010 }, { "epoch": 0.01879166666666667, "grad_norm": 1.0537359714508057, "learning_rate": 0.00029984037445334317, "loss": 4.113, "step": 9020 }, { "epoch": 0.0188125, "grad_norm": 0.8888839483261108, "learning_rate": 0.0002998399194367574, "loss": 4.0897, "step": 9030 }, { "epoch": 0.018833333333333334, "grad_norm": 0.9012905955314636, "learning_rate": 0.0002998394637729224, "loss": 4.0483, "step": 9040 }, { "epoch": 0.01885416666666667, "grad_norm": 0.966414749622345, "learning_rate": 0.00029983900746184027, "loss": 4.183, "step": 9050 }, { "epoch": 0.018875, "grad_norm": 0.8427063822746277, "learning_rate": 0.00029983855050351297, "loss": 3.8561, "step": 9060 }, { "epoch": 0.018895833333333334, "grad_norm": 0.823745608329773, "learning_rate": 0.0002998380928979424, "loss": 4.0483, "step": 9070 }, { "epoch": 0.018916666666666665, "grad_norm": 0.9898422360420227, "learning_rate": 0.00029983763464513057, "loss": 3.9237, "step": 9080 }, { "epoch": 0.0189375, "grad_norm": 0.8690701723098755, "learning_rate": 0.00029983717574507947, "loss": 4.0887, "step": 9090 }, { "epoch": 0.018958333333333334, "grad_norm": 1.0593056678771973, "learning_rate": 0.0002998367161977911, "loss": 4.2075, "step": 9100 }, { "epoch": 0.018979166666666665, "grad_norm": 1.0398879051208496, "learning_rate": 0.0002998362560032674, "loss": 4.1353, "step": 9110 }, { "epoch": 0.019, "grad_norm": 0.871092677116394, "learning_rate": 0.00029983579516151045, "loss": 4.1322, "step": 9120 }, { "epoch": 0.019020833333333334, "grad_norm": 0.8651396036148071, "learning_rate": 0.0002998353336725221, "loss": 3.9945, "step": 9130 }, { "epoch": 0.019041666666666665, "grad_norm": 0.8620742559432983, "learning_rate": 0.00029983487153630446, "loss": 4.0121, "step": 9140 }, { "epoch": 0.0190625, "grad_norm": 0.9897534847259521, "learning_rate": 0.00029983440875285943, "loss": 3.8512, "step": 9150 }, { "epoch": 0.019083333333333334, "grad_norm": 0.912268340587616, "learning_rate": 0.0002998339453221891, "loss": 4.0959, "step": 9160 }, { "epoch": 0.019104166666666665, "grad_norm": 0.9242444634437561, "learning_rate": 0.0002998334812442955, "loss": 3.9677, "step": 9170 }, { "epoch": 0.019125, "grad_norm": 0.9498921036720276, "learning_rate": 0.00029983301651918045, "loss": 3.9376, "step": 9180 }, { "epoch": 0.019145833333333334, "grad_norm": 0.9305335879325867, "learning_rate": 0.0002998325511468462, "loss": 4.0968, "step": 9190 }, { "epoch": 0.019166666666666665, "grad_norm": 0.8681609034538269, "learning_rate": 0.0002998320851272945, "loss": 3.9807, "step": 9200 }, { "epoch": 0.0191875, "grad_norm": 0.8862873911857605, "learning_rate": 0.0002998316184605276, "loss": 3.9169, "step": 9210 }, { "epoch": 0.019208333333333334, "grad_norm": 1.2506145238876343, "learning_rate": 0.0002998311511465474, "loss": 4.0204, "step": 9220 }, { "epoch": 0.019229166666666665, "grad_norm": 0.8647387027740479, "learning_rate": 0.0002998306831853559, "loss": 4.1874, "step": 9230 }, { "epoch": 0.01925, "grad_norm": 0.8172548413276672, "learning_rate": 0.00029983021457695517, "loss": 4.0949, "step": 9240 }, { "epoch": 0.019270833333333334, "grad_norm": 0.9220440983772278, "learning_rate": 0.0002998297453213472, "loss": 4.0685, "step": 9250 }, { "epoch": 0.019291666666666665, "grad_norm": 0.843744695186615, "learning_rate": 0.0002998292754185341, "loss": 4.0763, "step": 9260 }, { "epoch": 0.0193125, "grad_norm": 0.8689762949943542, "learning_rate": 0.0002998288048685178, "loss": 4.0799, "step": 9270 }, { "epoch": 0.019333333333333334, "grad_norm": 0.9222022294998169, "learning_rate": 0.00029982833367130036, "loss": 4.103, "step": 9280 }, { "epoch": 0.019354166666666665, "grad_norm": 0.8696931004524231, "learning_rate": 0.00029982786182688385, "loss": 4.0024, "step": 9290 }, { "epoch": 0.019375, "grad_norm": 0.9493642449378967, "learning_rate": 0.00029982738933527026, "loss": 3.9488, "step": 9300 }, { "epoch": 0.019395833333333334, "grad_norm": 0.8894075751304626, "learning_rate": 0.0002998269161964617, "loss": 3.9632, "step": 9310 }, { "epoch": 0.019416666666666665, "grad_norm": 0.9133402109146118, "learning_rate": 0.00029982644241046004, "loss": 4.0253, "step": 9320 }, { "epoch": 0.0194375, "grad_norm": 0.9435531497001648, "learning_rate": 0.00029982596797726755, "loss": 4.0884, "step": 9330 }, { "epoch": 0.019458333333333334, "grad_norm": 0.8678200840950012, "learning_rate": 0.0002998254928968862, "loss": 4.1925, "step": 9340 }, { "epoch": 0.019479166666666665, "grad_norm": 0.8157002925872803, "learning_rate": 0.000299825017169318, "loss": 4.1566, "step": 9350 }, { "epoch": 0.0195, "grad_norm": 0.8052384853363037, "learning_rate": 0.000299824540794565, "loss": 4.3168, "step": 9360 }, { "epoch": 0.019520833333333334, "grad_norm": 0.8435333967208862, "learning_rate": 0.00029982406377262934, "loss": 3.9149, "step": 9370 }, { "epoch": 0.019541666666666666, "grad_norm": 0.7847732305526733, "learning_rate": 0.000299823586103513, "loss": 4.0877, "step": 9380 }, { "epoch": 0.0195625, "grad_norm": 0.94866544008255, "learning_rate": 0.0002998231077872181, "loss": 4.0232, "step": 9390 }, { "epoch": 0.019583333333333335, "grad_norm": 0.8169416785240173, "learning_rate": 0.00029982262882374664, "loss": 3.9902, "step": 9400 }, { "epoch": 0.019604166666666666, "grad_norm": 0.9127697944641113, "learning_rate": 0.00029982214921310074, "loss": 3.9247, "step": 9410 }, { "epoch": 0.019625, "grad_norm": 0.9711620807647705, "learning_rate": 0.0002998216689552825, "loss": 4.1867, "step": 9420 }, { "epoch": 0.019645833333333335, "grad_norm": 0.9964255094528198, "learning_rate": 0.0002998211880502939, "loss": 4.0062, "step": 9430 }, { "epoch": 0.019666666666666666, "grad_norm": 1.0919461250305176, "learning_rate": 0.00029982070649813713, "loss": 4.0073, "step": 9440 }, { "epoch": 0.0196875, "grad_norm": 0.8851948380470276, "learning_rate": 0.0002998202242988141, "loss": 3.8325, "step": 9450 }, { "epoch": 0.019708333333333335, "grad_norm": 1.0363069772720337, "learning_rate": 0.0002998197414523271, "loss": 4.0856, "step": 9460 }, { "epoch": 0.019729166666666666, "grad_norm": 0.8468578457832336, "learning_rate": 0.0002998192579586781, "loss": 4.161, "step": 9470 }, { "epoch": 0.01975, "grad_norm": 1.2036677598953247, "learning_rate": 0.00029981877381786925, "loss": 4.2491, "step": 9480 }, { "epoch": 0.019770833333333335, "grad_norm": 0.9143335819244385, "learning_rate": 0.00029981828902990253, "loss": 3.9455, "step": 9490 }, { "epoch": 0.019791666666666666, "grad_norm": 0.8497856259346008, "learning_rate": 0.0002998178035947801, "loss": 3.9328, "step": 9500 }, { "epoch": 0.0198125, "grad_norm": 0.9727890491485596, "learning_rate": 0.0002998173175125041, "loss": 4.0492, "step": 9510 }, { "epoch": 0.019833333333333335, "grad_norm": 0.8242268562316895, "learning_rate": 0.00029981683078307656, "loss": 4.1791, "step": 9520 }, { "epoch": 0.019854166666666666, "grad_norm": 0.8298456072807312, "learning_rate": 0.00029981634340649964, "loss": 3.8701, "step": 9530 }, { "epoch": 0.019875, "grad_norm": 1.0017644166946411, "learning_rate": 0.0002998158553827754, "loss": 3.8854, "step": 9540 }, { "epoch": 0.019895833333333335, "grad_norm": 0.7783777713775635, "learning_rate": 0.000299815366711906, "loss": 4.1866, "step": 9550 }, { "epoch": 0.019916666666666666, "grad_norm": 0.8830393552780151, "learning_rate": 0.0002998148773938935, "loss": 4.0029, "step": 9560 }, { "epoch": 0.0199375, "grad_norm": 0.9470157623291016, "learning_rate": 0.00029981438742874, "loss": 4.0531, "step": 9570 }, { "epoch": 0.019958333333333335, "grad_norm": 0.9863994717597961, "learning_rate": 0.00029981389681644767, "loss": 4.1668, "step": 9580 }, { "epoch": 0.019979166666666666, "grad_norm": 0.8077663779258728, "learning_rate": 0.0002998134055570186, "loss": 3.9715, "step": 9590 }, { "epoch": 0.02, "grad_norm": 0.8208444714546204, "learning_rate": 0.0002998129136504549, "loss": 4.0146, "step": 9600 }, { "epoch": 0.020020833333333335, "grad_norm": 0.8585996627807617, "learning_rate": 0.00029981242109675875, "loss": 4.0237, "step": 9610 }, { "epoch": 0.020041666666666666, "grad_norm": 0.9613497853279114, "learning_rate": 0.0002998119278959322, "loss": 4.0188, "step": 9620 }, { "epoch": 0.0200625, "grad_norm": 0.8470491170883179, "learning_rate": 0.0002998114340479775, "loss": 4.0296, "step": 9630 }, { "epoch": 0.020083333333333335, "grad_norm": 0.8715327978134155, "learning_rate": 0.0002998109395528966, "loss": 4.19, "step": 9640 }, { "epoch": 0.020104166666666666, "grad_norm": 1.0012080669403076, "learning_rate": 0.00029981044441069186, "loss": 4.0675, "step": 9650 }, { "epoch": 0.020125, "grad_norm": 0.8255970478057861, "learning_rate": 0.00029980994862136516, "loss": 4.0845, "step": 9660 }, { "epoch": 0.020145833333333335, "grad_norm": 0.908376157283783, "learning_rate": 0.0002998094521849189, "loss": 3.9606, "step": 9670 }, { "epoch": 0.020166666666666666, "grad_norm": 0.8726487755775452, "learning_rate": 0.00029980895510135503, "loss": 4.0282, "step": 9680 }, { "epoch": 0.0201875, "grad_norm": 0.8931153416633606, "learning_rate": 0.0002998084573706758, "loss": 4.0197, "step": 9690 }, { "epoch": 0.02020833333333333, "grad_norm": 0.7906998991966248, "learning_rate": 0.00029980795899288334, "loss": 3.8319, "step": 9700 }, { "epoch": 0.020229166666666666, "grad_norm": 0.8168278932571411, "learning_rate": 0.0002998074599679798, "loss": 3.7907, "step": 9710 }, { "epoch": 0.02025, "grad_norm": 0.8812684416770935, "learning_rate": 0.0002998069602959673, "loss": 4.0428, "step": 9720 }, { "epoch": 0.02027083333333333, "grad_norm": 0.9491397142410278, "learning_rate": 0.00029980645997684807, "loss": 3.9361, "step": 9730 }, { "epoch": 0.020291666666666666, "grad_norm": 0.995573878288269, "learning_rate": 0.0002998059590106242, "loss": 4.0512, "step": 9740 }, { "epoch": 0.0203125, "grad_norm": 0.9225786924362183, "learning_rate": 0.0002998054573972979, "loss": 4.0591, "step": 9750 }, { "epoch": 0.02033333333333333, "grad_norm": 0.8943817615509033, "learning_rate": 0.00029980495513687126, "loss": 3.8922, "step": 9760 }, { "epoch": 0.020354166666666666, "grad_norm": 1.1089351177215576, "learning_rate": 0.0002998044522293466, "loss": 4.0297, "step": 9770 }, { "epoch": 0.020375, "grad_norm": 0.7932626008987427, "learning_rate": 0.000299803948674726, "loss": 3.9693, "step": 9780 }, { "epoch": 0.020395833333333332, "grad_norm": 0.9082998633384705, "learning_rate": 0.0002998034444730116, "loss": 4.2084, "step": 9790 }, { "epoch": 0.020416666666666666, "grad_norm": 0.7732157707214355, "learning_rate": 0.0002998029396242056, "loss": 4.2553, "step": 9800 }, { "epoch": 0.0204375, "grad_norm": 0.9002898931503296, "learning_rate": 0.00029980243412831023, "loss": 4.104, "step": 9810 }, { "epoch": 0.020458333333333332, "grad_norm": 0.815901517868042, "learning_rate": 0.0002998019279853276, "loss": 4.0168, "step": 9820 }, { "epoch": 0.020479166666666666, "grad_norm": 0.8804150223731995, "learning_rate": 0.00029980142119526, "loss": 4.0835, "step": 9830 }, { "epoch": 0.0205, "grad_norm": 1.1327600479125977, "learning_rate": 0.0002998009137581095, "loss": 4.0576, "step": 9840 }, { "epoch": 0.020520833333333332, "grad_norm": 0.807758629322052, "learning_rate": 0.0002998004056738784, "loss": 4.0875, "step": 9850 }, { "epoch": 0.020541666666666666, "grad_norm": 0.8243554830551147, "learning_rate": 0.0002997998969425688, "loss": 4.1321, "step": 9860 }, { "epoch": 0.0205625, "grad_norm": 0.8303701877593994, "learning_rate": 0.00029979938756418296, "loss": 4.0612, "step": 9870 }, { "epoch": 0.020583333333333332, "grad_norm": 0.8470600843429565, "learning_rate": 0.00029979887753872305, "loss": 3.9121, "step": 9880 }, { "epoch": 0.020604166666666666, "grad_norm": 0.8359178304672241, "learning_rate": 0.0002997983668661913, "loss": 3.9522, "step": 9890 }, { "epoch": 0.020625, "grad_norm": 0.9217105507850647, "learning_rate": 0.0002997978555465899, "loss": 4.0739, "step": 9900 }, { "epoch": 0.020645833333333332, "grad_norm": 0.9166182279586792, "learning_rate": 0.000299797343579921, "loss": 4.0379, "step": 9910 }, { "epoch": 0.020666666666666667, "grad_norm": 0.9592489004135132, "learning_rate": 0.0002997968309661869, "loss": 4.0243, "step": 9920 }, { "epoch": 0.0206875, "grad_norm": 0.9903649091720581, "learning_rate": 0.00029979631770538984, "loss": 4.0429, "step": 9930 }, { "epoch": 0.020708333333333332, "grad_norm": 0.8367807269096375, "learning_rate": 0.0002997958037975319, "loss": 4.2466, "step": 9940 }, { "epoch": 0.020729166666666667, "grad_norm": 0.9227380752563477, "learning_rate": 0.0002997952892426154, "loss": 4.0022, "step": 9950 }, { "epoch": 0.02075, "grad_norm": 0.8208871483802795, "learning_rate": 0.0002997947740406426, "loss": 4.0196, "step": 9960 }, { "epoch": 0.020770833333333332, "grad_norm": 0.8958483934402466, "learning_rate": 0.00029979425819161564, "loss": 4.147, "step": 9970 }, { "epoch": 0.020791666666666667, "grad_norm": 0.8915866613388062, "learning_rate": 0.00029979374169553677, "loss": 4.0215, "step": 9980 }, { "epoch": 0.0208125, "grad_norm": 1.0059232711791992, "learning_rate": 0.0002997932245524082, "loss": 4.0795, "step": 9990 }, { "epoch": 0.020833333333333332, "grad_norm": 0.8215759992599487, "learning_rate": 0.00029979270676223224, "loss": 3.9671, "step": 10000 }, { "epoch": 0.020833333333333332, "eval_loss": 4.33560848236084, "eval_runtime": 9.8481, "eval_samples_per_second": 1.015, "eval_steps_per_second": 0.305, "step": 10000 }, { "epoch": 0.020854166666666667, "grad_norm": 0.9175835847854614, "learning_rate": 0.0002997921883250111, "loss": 3.9231, "step": 10010 }, { "epoch": 0.020875, "grad_norm": 0.8828879594802856, "learning_rate": 0.0002997916692407469, "loss": 4.173, "step": 10020 }, { "epoch": 0.020895833333333332, "grad_norm": 0.7833811044692993, "learning_rate": 0.0002997911495094421, "loss": 4.1142, "step": 10030 }, { "epoch": 0.020916666666666667, "grad_norm": 0.8361049294471741, "learning_rate": 0.0002997906291310987, "loss": 4.0808, "step": 10040 }, { "epoch": 0.0209375, "grad_norm": 0.9083168506622314, "learning_rate": 0.0002997901081057192, "loss": 4.0225, "step": 10050 }, { "epoch": 0.020958333333333332, "grad_norm": 0.9234095215797424, "learning_rate": 0.00029978958643330563, "loss": 3.9358, "step": 10060 }, { "epoch": 0.020979166666666667, "grad_norm": 0.9170847535133362, "learning_rate": 0.00029978906411386034, "loss": 3.9666, "step": 10070 }, { "epoch": 0.021, "grad_norm": 0.9088347554206848, "learning_rate": 0.00029978854114738563, "loss": 3.8923, "step": 10080 }, { "epoch": 0.021020833333333332, "grad_norm": 0.8774302005767822, "learning_rate": 0.0002997880175338837, "loss": 4.0738, "step": 10090 }, { "epoch": 0.021041666666666667, "grad_norm": 0.8774318695068359, "learning_rate": 0.0002997874932733568, "loss": 3.9997, "step": 10100 }, { "epoch": 0.0210625, "grad_norm": 0.9026405215263367, "learning_rate": 0.00029978696836580727, "loss": 4.0601, "step": 10110 }, { "epoch": 0.021083333333333332, "grad_norm": 0.8695791363716125, "learning_rate": 0.0002997864428112373, "loss": 4.0592, "step": 10120 }, { "epoch": 0.021104166666666667, "grad_norm": 0.8792867064476013, "learning_rate": 0.00029978591660964913, "loss": 4.082, "step": 10130 }, { "epoch": 0.021125, "grad_norm": 0.8485450744628906, "learning_rate": 0.00029978538976104517, "loss": 3.9627, "step": 10140 }, { "epoch": 0.021145833333333332, "grad_norm": 0.9313712120056152, "learning_rate": 0.00029978486226542756, "loss": 3.974, "step": 10150 }, { "epoch": 0.021166666666666667, "grad_norm": 0.8878106474876404, "learning_rate": 0.0002997843341227987, "loss": 4.0948, "step": 10160 }, { "epoch": 0.0211875, "grad_norm": 0.7925577759742737, "learning_rate": 0.00029978380533316075, "loss": 4.0406, "step": 10170 }, { "epoch": 0.021208333333333333, "grad_norm": 1.175937533378601, "learning_rate": 0.00029978327589651605, "loss": 4.038, "step": 10180 }, { "epoch": 0.021229166666666667, "grad_norm": 0.8927673697471619, "learning_rate": 0.00029978274581286693, "loss": 3.995, "step": 10190 }, { "epoch": 0.02125, "grad_norm": 0.9335274696350098, "learning_rate": 0.00029978221508221556, "loss": 4.0519, "step": 10200 }, { "epoch": 0.021270833333333333, "grad_norm": 0.9304651021957397, "learning_rate": 0.00029978168370456437, "loss": 3.9445, "step": 10210 }, { "epoch": 0.021291666666666667, "grad_norm": 0.9953484535217285, "learning_rate": 0.0002997811516799156, "loss": 3.8738, "step": 10220 }, { "epoch": 0.0213125, "grad_norm": 0.8957852721214294, "learning_rate": 0.0002997806190082715, "loss": 4.1393, "step": 10230 }, { "epoch": 0.021333333333333333, "grad_norm": 1.2486326694488525, "learning_rate": 0.00029978008568963446, "loss": 3.9038, "step": 10240 }, { "epoch": 0.021354166666666667, "grad_norm": 0.9966117143630981, "learning_rate": 0.0002997795517240067, "loss": 3.9363, "step": 10250 }, { "epoch": 0.021375, "grad_norm": 0.9372152090072632, "learning_rate": 0.0002997790171113906, "loss": 4.0399, "step": 10260 }, { "epoch": 0.021395833333333333, "grad_norm": 0.8523468375205994, "learning_rate": 0.0002997784818517884, "loss": 4.0605, "step": 10270 }, { "epoch": 0.021416666666666667, "grad_norm": 0.7862476706504822, "learning_rate": 0.00029977794594520247, "loss": 4.004, "step": 10280 }, { "epoch": 0.0214375, "grad_norm": 0.8762577176094055, "learning_rate": 0.00029977740939163505, "loss": 4.148, "step": 10290 }, { "epoch": 0.021458333333333333, "grad_norm": 0.9351198673248291, "learning_rate": 0.0002997768721910886, "loss": 4.0516, "step": 10300 }, { "epoch": 0.021479166666666667, "grad_norm": 0.8949923515319824, "learning_rate": 0.0002997763343435653, "loss": 4.0902, "step": 10310 }, { "epoch": 0.0215, "grad_norm": 0.9014841318130493, "learning_rate": 0.0002997757958490675, "loss": 3.921, "step": 10320 }, { "epoch": 0.021520833333333333, "grad_norm": 0.9985924363136292, "learning_rate": 0.0002997752567075975, "loss": 3.9606, "step": 10330 }, { "epoch": 0.021541666666666667, "grad_norm": 0.8761548399925232, "learning_rate": 0.0002997747169191577, "loss": 3.9699, "step": 10340 }, { "epoch": 0.0215625, "grad_norm": 0.9579183459281921, "learning_rate": 0.0002997741764837505, "loss": 4.066, "step": 10350 }, { "epoch": 0.021583333333333333, "grad_norm": 0.9612360000610352, "learning_rate": 0.0002997736354013781, "loss": 4.1511, "step": 10360 }, { "epoch": 0.021604166666666667, "grad_norm": 0.9254598617553711, "learning_rate": 0.00029977309367204286, "loss": 3.999, "step": 10370 }, { "epoch": 0.021625, "grad_norm": 0.8962486386299133, "learning_rate": 0.00029977255129574713, "loss": 3.983, "step": 10380 }, { "epoch": 0.021645833333333333, "grad_norm": 0.9430379867553711, "learning_rate": 0.0002997720082724933, "loss": 4.0404, "step": 10390 }, { "epoch": 0.021666666666666667, "grad_norm": 0.7899466753005981, "learning_rate": 0.0002997714646022836, "loss": 3.9925, "step": 10400 }, { "epoch": 0.0216875, "grad_norm": 0.8284606337547302, "learning_rate": 0.00029977092028512055, "loss": 4.0593, "step": 10410 }, { "epoch": 0.021708333333333333, "grad_norm": 1.0812290906906128, "learning_rate": 0.00029977037532100635, "loss": 3.9444, "step": 10420 }, { "epoch": 0.021729166666666667, "grad_norm": 0.9192953705787659, "learning_rate": 0.0002997698297099434, "loss": 3.9267, "step": 10430 }, { "epoch": 0.02175, "grad_norm": 0.9366044402122498, "learning_rate": 0.0002997692834519341, "loss": 4.0496, "step": 10440 }, { "epoch": 0.021770833333333333, "grad_norm": 0.8483167886734009, "learning_rate": 0.0002997687365469808, "loss": 3.9238, "step": 10450 }, { "epoch": 0.021791666666666668, "grad_norm": 0.8915597200393677, "learning_rate": 0.0002997681889950858, "loss": 4.2339, "step": 10460 }, { "epoch": 0.0218125, "grad_norm": 0.8934999108314514, "learning_rate": 0.00029976764079625156, "loss": 4.131, "step": 10470 }, { "epoch": 0.021833333333333333, "grad_norm": 0.8878239989280701, "learning_rate": 0.0002997670919504803, "loss": 3.9485, "step": 10480 }, { "epoch": 0.021854166666666668, "grad_norm": 0.8602654933929443, "learning_rate": 0.0002997665424577746, "loss": 3.9105, "step": 10490 }, { "epoch": 0.021875, "grad_norm": 0.9528221487998962, "learning_rate": 0.00029976599231813664, "loss": 4.2378, "step": 10500 }, { "epoch": 0.021895833333333333, "grad_norm": 0.9370319247245789, "learning_rate": 0.0002997654415315689, "loss": 4.2288, "step": 10510 }, { "epoch": 0.021916666666666668, "grad_norm": 0.7875895500183105, "learning_rate": 0.00029976489009807375, "loss": 4.0764, "step": 10520 }, { "epoch": 0.0219375, "grad_norm": 0.9264360070228577, "learning_rate": 0.0002997643380176535, "loss": 4.0363, "step": 10530 }, { "epoch": 0.021958333333333333, "grad_norm": 0.8552992939949036, "learning_rate": 0.0002997637852903107, "loss": 3.9913, "step": 10540 }, { "epoch": 0.021979166666666668, "grad_norm": 1.1128019094467163, "learning_rate": 0.0002997632319160475, "loss": 3.8398, "step": 10550 }, { "epoch": 0.022, "grad_norm": 0.8485172390937805, "learning_rate": 0.00029976267789486646, "loss": 4.1162, "step": 10560 }, { "epoch": 0.022020833333333333, "grad_norm": 0.9465807676315308, "learning_rate": 0.00029976212322676995, "loss": 3.9185, "step": 10570 }, { "epoch": 0.022041666666666668, "grad_norm": 1.2987678050994873, "learning_rate": 0.0002997615679117604, "loss": 4.2336, "step": 10580 }, { "epoch": 0.0220625, "grad_norm": 0.8820592761039734, "learning_rate": 0.00029976101194984005, "loss": 4.0848, "step": 10590 }, { "epoch": 0.022083333333333333, "grad_norm": 0.8876746892929077, "learning_rate": 0.0002997604553410114, "loss": 4.1007, "step": 10600 }, { "epoch": 0.022104166666666668, "grad_norm": 0.9467823505401611, "learning_rate": 0.00029975989808527696, "loss": 4.2496, "step": 10610 }, { "epoch": 0.022125, "grad_norm": 0.9303798079490662, "learning_rate": 0.000299759340182639, "loss": 4.0466, "step": 10620 }, { "epoch": 0.022145833333333333, "grad_norm": 0.8960623741149902, "learning_rate": 0.00029975878163309995, "loss": 4.0465, "step": 10630 }, { "epoch": 0.022166666666666668, "grad_norm": 0.9176632761955261, "learning_rate": 0.00029975822243666225, "loss": 3.9194, "step": 10640 }, { "epoch": 0.0221875, "grad_norm": 0.8917275071144104, "learning_rate": 0.00029975766259332835, "loss": 4.1391, "step": 10650 }, { "epoch": 0.022208333333333333, "grad_norm": 0.8651731014251709, "learning_rate": 0.0002997571021031006, "loss": 4.1422, "step": 10660 }, { "epoch": 0.022229166666666668, "grad_norm": 0.8034875392913818, "learning_rate": 0.00029975654096598146, "loss": 4.0413, "step": 10670 }, { "epoch": 0.02225, "grad_norm": 1.0791233777999878, "learning_rate": 0.00029975597918197326, "loss": 4.0712, "step": 10680 }, { "epoch": 0.022270833333333333, "grad_norm": 0.9171955585479736, "learning_rate": 0.0002997554167510786, "loss": 4.1109, "step": 10690 }, { "epoch": 0.022291666666666668, "grad_norm": 0.9943594336509705, "learning_rate": 0.00029975485367329975, "loss": 4.0721, "step": 10700 }, { "epoch": 0.0223125, "grad_norm": 0.8181750178337097, "learning_rate": 0.00029975428994863927, "loss": 4.1605, "step": 10710 }, { "epoch": 0.022333333333333334, "grad_norm": 1.0147671699523926, "learning_rate": 0.0002997537255770995, "loss": 4.0986, "step": 10720 }, { "epoch": 0.022354166666666668, "grad_norm": 0.7744315266609192, "learning_rate": 0.00029975316055868293, "loss": 4.0211, "step": 10730 }, { "epoch": 0.022375, "grad_norm": 0.9602259397506714, "learning_rate": 0.00029975259489339195, "loss": 3.9665, "step": 10740 }, { "epoch": 0.022395833333333334, "grad_norm": 1.1291271448135376, "learning_rate": 0.00029975202858122904, "loss": 4.1789, "step": 10750 }, { "epoch": 0.022416666666666668, "grad_norm": 0.8661361336708069, "learning_rate": 0.0002997514616221967, "loss": 4.0007, "step": 10760 }, { "epoch": 0.0224375, "grad_norm": 1.1890524625778198, "learning_rate": 0.0002997508940162973, "loss": 3.9188, "step": 10770 }, { "epoch": 0.022458333333333334, "grad_norm": 0.9199486374855042, "learning_rate": 0.0002997503257635333, "loss": 4.0073, "step": 10780 }, { "epoch": 0.022479166666666668, "grad_norm": 0.8084762692451477, "learning_rate": 0.00029974975686390714, "loss": 4.1919, "step": 10790 }, { "epoch": 0.0225, "grad_norm": 0.8930673599243164, "learning_rate": 0.0002997491873174213, "loss": 4.1507, "step": 10800 }, { "epoch": 0.022520833333333334, "grad_norm": 0.9139108061790466, "learning_rate": 0.0002997486171240783, "loss": 4.0313, "step": 10810 }, { "epoch": 0.022541666666666668, "grad_norm": 0.8556119203567505, "learning_rate": 0.0002997480462838805, "loss": 4.0711, "step": 10820 }, { "epoch": 0.0225625, "grad_norm": 0.8903327584266663, "learning_rate": 0.0002997474747968305, "loss": 4.0011, "step": 10830 }, { "epoch": 0.022583333333333334, "grad_norm": 0.9576094150543213, "learning_rate": 0.00029974690266293055, "loss": 4.009, "step": 10840 }, { "epoch": 0.022604166666666668, "grad_norm": 1.0656836032867432, "learning_rate": 0.0002997463298821834, "loss": 3.931, "step": 10850 }, { "epoch": 0.022625, "grad_norm": 1.2704850435256958, "learning_rate": 0.00029974575645459127, "loss": 3.8534, "step": 10860 }, { "epoch": 0.022645833333333334, "grad_norm": 0.8838678598403931, "learning_rate": 0.0002997451823801568, "loss": 4.135, "step": 10870 }, { "epoch": 0.02266666666666667, "grad_norm": 0.9709188342094421, "learning_rate": 0.00029974460765888237, "loss": 3.9732, "step": 10880 }, { "epoch": 0.0226875, "grad_norm": 0.9118921160697937, "learning_rate": 0.00029974403229077054, "loss": 4.0216, "step": 10890 }, { "epoch": 0.022708333333333334, "grad_norm": 1.0146132707595825, "learning_rate": 0.00029974345627582376, "loss": 3.9529, "step": 10900 }, { "epoch": 0.02272916666666667, "grad_norm": 0.9561675786972046, "learning_rate": 0.0002997428796140445, "loss": 4.0696, "step": 10910 }, { "epoch": 0.02275, "grad_norm": 0.880499541759491, "learning_rate": 0.0002997423023054353, "loss": 4.1694, "step": 10920 }, { "epoch": 0.022770833333333334, "grad_norm": 0.9527094960212708, "learning_rate": 0.0002997417243499986, "loss": 4.3075, "step": 10930 }, { "epoch": 0.022791666666666665, "grad_norm": 0.8859124183654785, "learning_rate": 0.000299741145747737, "loss": 4.2147, "step": 10940 }, { "epoch": 0.0228125, "grad_norm": 0.8555907011032104, "learning_rate": 0.00029974056649865284, "loss": 3.8823, "step": 10950 }, { "epoch": 0.022833333333333334, "grad_norm": 0.7757290005683899, "learning_rate": 0.0002997399866027487, "loss": 3.9952, "step": 10960 }, { "epoch": 0.022854166666666665, "grad_norm": 0.8428161144256592, "learning_rate": 0.0002997394060600271, "loss": 3.9607, "step": 10970 }, { "epoch": 0.022875, "grad_norm": 0.9961905479431152, "learning_rate": 0.00029973882487049057, "loss": 4.1028, "step": 10980 }, { "epoch": 0.022895833333333334, "grad_norm": 1.4699156284332275, "learning_rate": 0.0002997382430341416, "loss": 4.1332, "step": 10990 }, { "epoch": 0.022916666666666665, "grad_norm": 1.0499873161315918, "learning_rate": 0.0002997376605509826, "loss": 3.9795, "step": 11000 }, { "epoch": 0.022916666666666665, "eval_loss": 4.343177318572998, "eval_runtime": 9.1751, "eval_samples_per_second": 1.09, "eval_steps_per_second": 0.327, "step": 11000 }, { "epoch": 0.0229375, "grad_norm": 0.9371368885040283, "learning_rate": 0.0002997370774210163, "loss": 4.0407, "step": 11010 }, { "epoch": 0.022958333333333334, "grad_norm": 0.9600356817245483, "learning_rate": 0.000299736493644245, "loss": 3.9043, "step": 11020 }, { "epoch": 0.022979166666666665, "grad_norm": 0.7833398580551147, "learning_rate": 0.00029973590922067133, "loss": 3.9522, "step": 11030 }, { "epoch": 0.023, "grad_norm": 0.8882167935371399, "learning_rate": 0.00029973532415029783, "loss": 3.9925, "step": 11040 }, { "epoch": 0.023020833333333334, "grad_norm": 0.7728996872901917, "learning_rate": 0.000299734738433127, "loss": 4.0763, "step": 11050 }, { "epoch": 0.023041666666666665, "grad_norm": 0.9067636728286743, "learning_rate": 0.00029973415206916137, "loss": 3.9489, "step": 11060 }, { "epoch": 0.0230625, "grad_norm": 1.0445528030395508, "learning_rate": 0.00029973356505840344, "loss": 4.143, "step": 11070 }, { "epoch": 0.023083333333333334, "grad_norm": 0.9083755016326904, "learning_rate": 0.0002997329774008558, "loss": 4.0993, "step": 11080 }, { "epoch": 0.023104166666666665, "grad_norm": 0.9739083051681519, "learning_rate": 0.000299732389096521, "loss": 4.0222, "step": 11090 }, { "epoch": 0.023125, "grad_norm": 0.8349357843399048, "learning_rate": 0.00029973180014540145, "loss": 3.9285, "step": 11100 }, { "epoch": 0.023145833333333334, "grad_norm": 0.8716956973075867, "learning_rate": 0.0002997312105474999, "loss": 3.9409, "step": 11110 }, { "epoch": 0.023166666666666665, "grad_norm": 0.8104733824729919, "learning_rate": 0.0002997306203028187, "loss": 3.9957, "step": 11120 }, { "epoch": 0.0231875, "grad_norm": 0.9289116859436035, "learning_rate": 0.00029973002941136056, "loss": 3.8664, "step": 11130 }, { "epoch": 0.023208333333333334, "grad_norm": 0.9071303606033325, "learning_rate": 0.00029972943787312794, "loss": 4.0065, "step": 11140 }, { "epoch": 0.023229166666666665, "grad_norm": 0.9404611587524414, "learning_rate": 0.0002997288456881234, "loss": 3.9897, "step": 11150 }, { "epoch": 0.02325, "grad_norm": 0.7688071131706238, "learning_rate": 0.0002997282528563495, "loss": 4.1101, "step": 11160 }, { "epoch": 0.023270833333333334, "grad_norm": 0.995836615562439, "learning_rate": 0.0002997276593778089, "loss": 3.9776, "step": 11170 }, { "epoch": 0.023291666666666665, "grad_norm": 0.8275904655456543, "learning_rate": 0.00029972706525250393, "loss": 3.8802, "step": 11180 }, { "epoch": 0.0233125, "grad_norm": 1.0180919170379639, "learning_rate": 0.00029972647048043743, "loss": 4.0066, "step": 11190 }, { "epoch": 0.023333333333333334, "grad_norm": 0.8439503312110901, "learning_rate": 0.0002997258750616118, "loss": 4.0384, "step": 11200 }, { "epoch": 0.023354166666666665, "grad_norm": 0.9801731109619141, "learning_rate": 0.00029972527899602966, "loss": 4.179, "step": 11210 }, { "epoch": 0.023375, "grad_norm": 0.8554068803787231, "learning_rate": 0.00029972468228369354, "loss": 4.1592, "step": 11220 }, { "epoch": 0.023395833333333334, "grad_norm": 0.8108168840408325, "learning_rate": 0.0002997240849246061, "loss": 4.0526, "step": 11230 }, { "epoch": 0.023416666666666665, "grad_norm": 1.0166338682174683, "learning_rate": 0.00029972348691876985, "loss": 4.0115, "step": 11240 }, { "epoch": 0.0234375, "grad_norm": 0.8622210621833801, "learning_rate": 0.0002997228882661874, "loss": 4.0564, "step": 11250 }, { "epoch": 0.023458333333333335, "grad_norm": 0.9354560375213623, "learning_rate": 0.0002997222889668614, "loss": 4.0369, "step": 11260 }, { "epoch": 0.023479166666666666, "grad_norm": 0.9387855529785156, "learning_rate": 0.00029972168902079433, "loss": 3.9696, "step": 11270 }, { "epoch": 0.0235, "grad_norm": 0.8381744623184204, "learning_rate": 0.0002997210884279888, "loss": 4.0454, "step": 11280 }, { "epoch": 0.023520833333333335, "grad_norm": 0.9276353120803833, "learning_rate": 0.00029972048718844747, "loss": 4.1896, "step": 11290 }, { "epoch": 0.023541666666666666, "grad_norm": 0.9661759734153748, "learning_rate": 0.00029971988530217293, "loss": 4.0251, "step": 11300 }, { "epoch": 0.0235625, "grad_norm": 0.9178288578987122, "learning_rate": 0.00029971928276916767, "loss": 3.9935, "step": 11310 }, { "epoch": 0.023583333333333335, "grad_norm": 0.9038762450218201, "learning_rate": 0.00029971867958943446, "loss": 4.1352, "step": 11320 }, { "epoch": 0.023604166666666666, "grad_norm": 1.0172170400619507, "learning_rate": 0.00029971807576297573, "loss": 4.2188, "step": 11330 }, { "epoch": 0.023625, "grad_norm": 0.8191777467727661, "learning_rate": 0.00029971747128979426, "loss": 4.0965, "step": 11340 }, { "epoch": 0.023645833333333335, "grad_norm": 0.8614866733551025, "learning_rate": 0.0002997168661698925, "loss": 4.0379, "step": 11350 }, { "epoch": 0.023666666666666666, "grad_norm": 0.8880031704902649, "learning_rate": 0.00029971626040327316, "loss": 4.165, "step": 11360 }, { "epoch": 0.0236875, "grad_norm": 1.225572109222412, "learning_rate": 0.00029971565398993885, "loss": 3.8343, "step": 11370 }, { "epoch": 0.023708333333333335, "grad_norm": 0.8210449814796448, "learning_rate": 0.0002997150469298922, "loss": 3.978, "step": 11380 }, { "epoch": 0.023729166666666666, "grad_norm": 0.9902667999267578, "learning_rate": 0.00029971443922313575, "loss": 3.9446, "step": 11390 }, { "epoch": 0.02375, "grad_norm": 0.7885863780975342, "learning_rate": 0.0002997138308696722, "loss": 4.1039, "step": 11400 }, { "epoch": 0.023770833333333335, "grad_norm": 0.8365364074707031, "learning_rate": 0.00029971322186950417, "loss": 4.0357, "step": 11410 }, { "epoch": 0.023791666666666666, "grad_norm": 0.9556369185447693, "learning_rate": 0.0002997126122226343, "loss": 3.9189, "step": 11420 }, { "epoch": 0.0238125, "grad_norm": 0.9085677862167358, "learning_rate": 0.0002997120019290652, "loss": 4.0772, "step": 11430 }, { "epoch": 0.023833333333333335, "grad_norm": 0.9845913648605347, "learning_rate": 0.00029971139098879953, "loss": 3.8277, "step": 11440 }, { "epoch": 0.023854166666666666, "grad_norm": 0.8270093202590942, "learning_rate": 0.00029971077940183985, "loss": 4.232, "step": 11450 }, { "epoch": 0.023875, "grad_norm": 0.9064054489135742, "learning_rate": 0.0002997101671681889, "loss": 3.9641, "step": 11460 }, { "epoch": 0.023895833333333335, "grad_norm": 0.7581167817115784, "learning_rate": 0.0002997095542878493, "loss": 4.0586, "step": 11470 }, { "epoch": 0.023916666666666666, "grad_norm": 0.9204100370407104, "learning_rate": 0.0002997089407608237, "loss": 4.1889, "step": 11480 }, { "epoch": 0.0239375, "grad_norm": 0.9697321653366089, "learning_rate": 0.0002997083265871147, "loss": 3.9386, "step": 11490 }, { "epoch": 0.023958333333333335, "grad_norm": 0.8670743703842163, "learning_rate": 0.00029970771176672495, "loss": 4.0658, "step": 11500 }, { "epoch": 0.023979166666666666, "grad_norm": 0.8086011409759521, "learning_rate": 0.00029970709629965724, "loss": 4.0686, "step": 11510 }, { "epoch": 0.024, "grad_norm": 0.9494633078575134, "learning_rate": 0.0002997064801859141, "loss": 4.204, "step": 11520 }, { "epoch": 0.024020833333333335, "grad_norm": 0.9828088879585266, "learning_rate": 0.00029970586342549814, "loss": 3.9099, "step": 11530 }, { "epoch": 0.024041666666666666, "grad_norm": 0.8706547617912292, "learning_rate": 0.00029970524601841223, "loss": 4.1493, "step": 11540 }, { "epoch": 0.0240625, "grad_norm": 0.99277663230896, "learning_rate": 0.0002997046279646588, "loss": 4.0736, "step": 11550 }, { "epoch": 0.024083333333333335, "grad_norm": 0.8699033260345459, "learning_rate": 0.0002997040092642407, "loss": 3.8887, "step": 11560 }, { "epoch": 0.024104166666666666, "grad_norm": 1.0016510486602783, "learning_rate": 0.00029970338991716053, "loss": 4.1261, "step": 11570 }, { "epoch": 0.024125, "grad_norm": 0.8793927431106567, "learning_rate": 0.00029970276992342097, "loss": 3.9855, "step": 11580 }, { "epoch": 0.02414583333333333, "grad_norm": 1.1882140636444092, "learning_rate": 0.0002997021492830247, "loss": 4.0677, "step": 11590 }, { "epoch": 0.024166666666666666, "grad_norm": 0.9322487711906433, "learning_rate": 0.0002997015279959744, "loss": 4.1846, "step": 11600 }, { "epoch": 0.0241875, "grad_norm": 1.0617856979370117, "learning_rate": 0.00029970090606227276, "loss": 3.9028, "step": 11610 }, { "epoch": 0.02420833333333333, "grad_norm": 0.8267401456832886, "learning_rate": 0.0002997002834819225, "loss": 4.1305, "step": 11620 }, { "epoch": 0.024229166666666666, "grad_norm": 0.8641538619995117, "learning_rate": 0.0002996996602549262, "loss": 4.1329, "step": 11630 }, { "epoch": 0.02425, "grad_norm": 0.9014443755149841, "learning_rate": 0.00029969903638128666, "loss": 4.0151, "step": 11640 }, { "epoch": 0.024270833333333332, "grad_norm": 0.9461457133293152, "learning_rate": 0.0002996984118610065, "loss": 4.0554, "step": 11650 }, { "epoch": 0.024291666666666666, "grad_norm": 1.0932786464691162, "learning_rate": 0.0002996977866940885, "loss": 4.0661, "step": 11660 }, { "epoch": 0.0243125, "grad_norm": 0.9318457245826721, "learning_rate": 0.00029969716088053527, "loss": 3.8919, "step": 11670 }, { "epoch": 0.024333333333333332, "grad_norm": 0.7869840860366821, "learning_rate": 0.0002996965344203496, "loss": 4.0947, "step": 11680 }, { "epoch": 0.024354166666666666, "grad_norm": 0.8918207287788391, "learning_rate": 0.00029969590731353414, "loss": 4.201, "step": 11690 }, { "epoch": 0.024375, "grad_norm": 0.9626954793930054, "learning_rate": 0.00029969527956009165, "loss": 3.8744, "step": 11700 }, { "epoch": 0.024395833333333332, "grad_norm": 0.8035925030708313, "learning_rate": 0.00029969465116002475, "loss": 4.0591, "step": 11710 }, { "epoch": 0.024416666666666666, "grad_norm": 0.8319073915481567, "learning_rate": 0.00029969402211333626, "loss": 4.0101, "step": 11720 }, { "epoch": 0.0244375, "grad_norm": 0.834764838218689, "learning_rate": 0.00029969339242002884, "loss": 3.9293, "step": 11730 }, { "epoch": 0.024458333333333332, "grad_norm": 0.9337142705917358, "learning_rate": 0.0002996927620801052, "loss": 3.9905, "step": 11740 }, { "epoch": 0.024479166666666666, "grad_norm": 0.8090513348579407, "learning_rate": 0.0002996921310935681, "loss": 4.1999, "step": 11750 }, { "epoch": 0.0245, "grad_norm": 0.8323469161987305, "learning_rate": 0.00029969149946042017, "loss": 4.0175, "step": 11760 }, { "epoch": 0.024520833333333332, "grad_norm": 0.9457613825798035, "learning_rate": 0.00029969086718066427, "loss": 4.0886, "step": 11770 }, { "epoch": 0.024541666666666666, "grad_norm": 0.9197525978088379, "learning_rate": 0.0002996902342543031, "loss": 3.9411, "step": 11780 }, { "epoch": 0.0245625, "grad_norm": 0.9073978066444397, "learning_rate": 0.0002996896006813393, "loss": 4.2741, "step": 11790 }, { "epoch": 0.024583333333333332, "grad_norm": 0.8798359632492065, "learning_rate": 0.00029968896646177573, "loss": 4.034, "step": 11800 }, { "epoch": 0.024604166666666667, "grad_norm": 0.9270487427711487, "learning_rate": 0.0002996883315956151, "loss": 3.9394, "step": 11810 }, { "epoch": 0.024625, "grad_norm": 0.8634020686149597, "learning_rate": 0.00029968769608286006, "loss": 4.1361, "step": 11820 }, { "epoch": 0.024645833333333332, "grad_norm": 0.782271683216095, "learning_rate": 0.00029968705992351345, "loss": 4.2818, "step": 11830 }, { "epoch": 0.024666666666666667, "grad_norm": 0.8318779468536377, "learning_rate": 0.00029968642311757805, "loss": 4.0002, "step": 11840 }, { "epoch": 0.0246875, "grad_norm": 0.7912973165512085, "learning_rate": 0.0002996857856650565, "loss": 4.0727, "step": 11850 }, { "epoch": 0.024708333333333332, "grad_norm": 1.0303070545196533, "learning_rate": 0.00029968514756595165, "loss": 4.0927, "step": 11860 }, { "epoch": 0.024729166666666667, "grad_norm": 0.8014335632324219, "learning_rate": 0.0002996845088202661, "loss": 3.9301, "step": 11870 }, { "epoch": 0.02475, "grad_norm": 0.9272903800010681, "learning_rate": 0.0002996838694280028, "loss": 4.1477, "step": 11880 }, { "epoch": 0.024770833333333332, "grad_norm": 0.8557513952255249, "learning_rate": 0.0002996832293891644, "loss": 4.1443, "step": 11890 }, { "epoch": 0.024791666666666667, "grad_norm": 0.8178189396858215, "learning_rate": 0.0002996825887037538, "loss": 4.0479, "step": 11900 }, { "epoch": 0.0248125, "grad_norm": 0.8239704966545105, "learning_rate": 0.0002996819473717736, "loss": 4.0242, "step": 11910 }, { "epoch": 0.024833333333333332, "grad_norm": 0.8839130401611328, "learning_rate": 0.0002996813053932266, "loss": 3.9996, "step": 11920 }, { "epoch": 0.024854166666666667, "grad_norm": 0.9180129766464233, "learning_rate": 0.0002996806627681156, "loss": 4.1706, "step": 11930 }, { "epoch": 0.024875, "grad_norm": 0.9097622632980347, "learning_rate": 0.00029968001949644344, "loss": 3.9873, "step": 11940 }, { "epoch": 0.024895833333333332, "grad_norm": 0.8870061039924622, "learning_rate": 0.0002996793755782128, "loss": 4.1646, "step": 11950 }, { "epoch": 0.024916666666666667, "grad_norm": 0.7925917506217957, "learning_rate": 0.0002996787310134265, "loss": 3.9, "step": 11960 }, { "epoch": 0.0249375, "grad_norm": 0.8051598072052002, "learning_rate": 0.0002996780858020874, "loss": 3.9708, "step": 11970 }, { "epoch": 0.024958333333333332, "grad_norm": 0.7883305549621582, "learning_rate": 0.00029967743994419813, "loss": 4.0361, "step": 11980 }, { "epoch": 0.024979166666666667, "grad_norm": 0.8263134360313416, "learning_rate": 0.00029967679343976167, "loss": 3.9609, "step": 11990 }, { "epoch": 0.025, "grad_norm": 0.9787063598632812, "learning_rate": 0.0002996761462887806, "loss": 3.9739, "step": 12000 }, { "epoch": 0.025, "eval_loss": 4.355993747711182, "eval_runtime": 9.4117, "eval_samples_per_second": 1.063, "eval_steps_per_second": 0.319, "step": 12000 }, { "epoch": 0.025020833333333332, "grad_norm": 0.9648151397705078, "learning_rate": 0.0002996754984912579, "loss": 4.0873, "step": 12010 }, { "epoch": 0.025041666666666667, "grad_norm": 0.9900327920913696, "learning_rate": 0.00029967485004719625, "loss": 4.1845, "step": 12020 }, { "epoch": 0.0250625, "grad_norm": 0.7829849720001221, "learning_rate": 0.0002996742009565985, "loss": 4.098, "step": 12030 }, { "epoch": 0.025083333333333332, "grad_norm": 0.7555475831031799, "learning_rate": 0.00029967355121946745, "loss": 4.1276, "step": 12040 }, { "epoch": 0.025104166666666667, "grad_norm": 1.2551724910736084, "learning_rate": 0.0002996729008358059, "loss": 4.1739, "step": 12050 }, { "epoch": 0.025125, "grad_norm": 0.8260138034820557, "learning_rate": 0.0002996722498056167, "loss": 4.132, "step": 12060 }, { "epoch": 0.025145833333333333, "grad_norm": 0.8505834937095642, "learning_rate": 0.0002996715981289026, "loss": 4.1513, "step": 12070 }, { "epoch": 0.025166666666666667, "grad_norm": 0.8663877248764038, "learning_rate": 0.0002996709458056664, "loss": 4.0009, "step": 12080 }, { "epoch": 0.0251875, "grad_norm": 0.9046712517738342, "learning_rate": 0.000299670292835911, "loss": 3.9447, "step": 12090 }, { "epoch": 0.025208333333333333, "grad_norm": 0.8156468272209167, "learning_rate": 0.00029966963921963915, "loss": 3.9951, "step": 12100 }, { "epoch": 0.025229166666666667, "grad_norm": 0.8045362830162048, "learning_rate": 0.00029966898495685377, "loss": 3.9991, "step": 12110 }, { "epoch": 0.02525, "grad_norm": 0.8384324908256531, "learning_rate": 0.00029966833004755754, "loss": 4.0331, "step": 12120 }, { "epoch": 0.025270833333333333, "grad_norm": 0.8372187614440918, "learning_rate": 0.0002996676744917534, "loss": 4.073, "step": 12130 }, { "epoch": 0.025291666666666667, "grad_norm": 0.8713473677635193, "learning_rate": 0.00029966701828944417, "loss": 4.0687, "step": 12140 }, { "epoch": 0.0253125, "grad_norm": 0.8944408297538757, "learning_rate": 0.0002996663614406326, "loss": 4.1542, "step": 12150 }, { "epoch": 0.025333333333333333, "grad_norm": 0.8797274231910706, "learning_rate": 0.0002996657039453216, "loss": 3.9635, "step": 12160 }, { "epoch": 0.025354166666666667, "grad_norm": 0.8559905886650085, "learning_rate": 0.00029966504580351404, "loss": 4.1181, "step": 12170 }, { "epoch": 0.025375, "grad_norm": 1.1843395233154297, "learning_rate": 0.00029966438701521273, "loss": 4.0031, "step": 12180 }, { "epoch": 0.025395833333333333, "grad_norm": 0.9130030274391174, "learning_rate": 0.00029966372758042053, "loss": 4.0628, "step": 12190 }, { "epoch": 0.025416666666666667, "grad_norm": 0.7298511266708374, "learning_rate": 0.0002996630674991402, "loss": 4.0176, "step": 12200 }, { "epoch": 0.0254375, "grad_norm": 0.8563189506530762, "learning_rate": 0.0002996624067713747, "loss": 4.0227, "step": 12210 }, { "epoch": 0.025458333333333333, "grad_norm": 0.9190595746040344, "learning_rate": 0.00029966174539712684, "loss": 4.0652, "step": 12220 }, { "epoch": 0.025479166666666667, "grad_norm": 0.7569317817687988, "learning_rate": 0.0002996610833763995, "loss": 4.0059, "step": 12230 }, { "epoch": 0.0255, "grad_norm": 0.8048116564750671, "learning_rate": 0.00029966042070919544, "loss": 3.9274, "step": 12240 }, { "epoch": 0.025520833333333333, "grad_norm": 0.9239625334739685, "learning_rate": 0.0002996597573955177, "loss": 4.0971, "step": 12250 }, { "epoch": 0.025541666666666667, "grad_norm": 1.0842387676239014, "learning_rate": 0.000299659093435369, "loss": 4.0068, "step": 12260 }, { "epoch": 0.0255625, "grad_norm": 0.8540835976600647, "learning_rate": 0.00029965842882875225, "loss": 4.0468, "step": 12270 }, { "epoch": 0.025583333333333333, "grad_norm": 0.8760429620742798, "learning_rate": 0.0002996577635756703, "loss": 4.0911, "step": 12280 }, { "epoch": 0.025604166666666667, "grad_norm": 0.8791810870170593, "learning_rate": 0.00029965709767612613, "loss": 3.9895, "step": 12290 }, { "epoch": 0.025625, "grad_norm": 1.0496407747268677, "learning_rate": 0.00029965643113012247, "loss": 4.0144, "step": 12300 }, { "epoch": 0.025645833333333333, "grad_norm": 0.9198064208030701, "learning_rate": 0.00029965576393766233, "loss": 4.0595, "step": 12310 }, { "epoch": 0.025666666666666667, "grad_norm": 1.3422293663024902, "learning_rate": 0.00029965509609874844, "loss": 3.9287, "step": 12320 }, { "epoch": 0.0256875, "grad_norm": 0.8336278200149536, "learning_rate": 0.00029965442761338383, "loss": 4.069, "step": 12330 }, { "epoch": 0.025708333333333333, "grad_norm": 0.8513005971908569, "learning_rate": 0.0002996537584815713, "loss": 4.1971, "step": 12340 }, { "epoch": 0.025729166666666668, "grad_norm": 0.8377391695976257, "learning_rate": 0.0002996530887033138, "loss": 4.0051, "step": 12350 }, { "epoch": 0.02575, "grad_norm": 0.8428595662117004, "learning_rate": 0.0002996524182786142, "loss": 3.9223, "step": 12360 }, { "epoch": 0.025770833333333333, "grad_norm": 0.8020024299621582, "learning_rate": 0.00029965174720747537, "loss": 3.9248, "step": 12370 }, { "epoch": 0.025791666666666668, "grad_norm": 0.8445428013801575, "learning_rate": 0.0002996510754899002, "loss": 4.1044, "step": 12380 }, { "epoch": 0.0258125, "grad_norm": 0.8422583341598511, "learning_rate": 0.00029965040312589166, "loss": 4.0739, "step": 12390 }, { "epoch": 0.025833333333333333, "grad_norm": 0.77658611536026, "learning_rate": 0.0002996497301154526, "loss": 4.0383, "step": 12400 }, { "epoch": 0.025854166666666668, "grad_norm": 0.8723292946815491, "learning_rate": 0.00029964905645858594, "loss": 3.942, "step": 12410 }, { "epoch": 0.025875, "grad_norm": 0.8531607389450073, "learning_rate": 0.0002996483821552946, "loss": 4.1756, "step": 12420 }, { "epoch": 0.025895833333333333, "grad_norm": 0.865697979927063, "learning_rate": 0.0002996477072055815, "loss": 4.0767, "step": 12430 }, { "epoch": 0.025916666666666668, "grad_norm": 0.7985309362411499, "learning_rate": 0.00029964703160944954, "loss": 4.0182, "step": 12440 }, { "epoch": 0.0259375, "grad_norm": 0.9476754665374756, "learning_rate": 0.0002996463553669016, "loss": 4.0276, "step": 12450 }, { "epoch": 0.025958333333333333, "grad_norm": 0.8182475566864014, "learning_rate": 0.00029964567847794063, "loss": 4.037, "step": 12460 }, { "epoch": 0.025979166666666668, "grad_norm": 0.7820776700973511, "learning_rate": 0.0002996450009425696, "loss": 4.1314, "step": 12470 }, { "epoch": 0.026, "grad_norm": 0.953820526599884, "learning_rate": 0.0002996443227607914, "loss": 4.0649, "step": 12480 }, { "epoch": 0.026020833333333333, "grad_norm": 0.9297104477882385, "learning_rate": 0.00029964364393260894, "loss": 3.9231, "step": 12490 }, { "epoch": 0.026041666666666668, "grad_norm": 0.8150413036346436, "learning_rate": 0.0002996429644580252, "loss": 4.0518, "step": 12500 }, { "epoch": 0.0260625, "grad_norm": 0.9100131392478943, "learning_rate": 0.00029964228433704303, "loss": 4.112, "step": 12510 }, { "epoch": 0.026083333333333333, "grad_norm": 0.8346758484840393, "learning_rate": 0.00029964160356966545, "loss": 4.0265, "step": 12520 }, { "epoch": 0.026104166666666668, "grad_norm": 1.0204684734344482, "learning_rate": 0.00029964092215589537, "loss": 4.0501, "step": 12530 }, { "epoch": 0.026125, "grad_norm": 0.8823035955429077, "learning_rate": 0.00029964024009573577, "loss": 4.1322, "step": 12540 }, { "epoch": 0.026145833333333333, "grad_norm": 1.1147531270980835, "learning_rate": 0.00029963955738918953, "loss": 4.002, "step": 12550 }, { "epoch": 0.026166666666666668, "grad_norm": 0.8762080669403076, "learning_rate": 0.0002996388740362597, "loss": 4.1656, "step": 12560 }, { "epoch": 0.0261875, "grad_norm": 0.8316856026649475, "learning_rate": 0.0002996381900369491, "loss": 4.1048, "step": 12570 }, { "epoch": 0.026208333333333333, "grad_norm": 0.9266704320907593, "learning_rate": 0.00029963750539126075, "loss": 4.2185, "step": 12580 }, { "epoch": 0.026229166666666668, "grad_norm": 0.9004167318344116, "learning_rate": 0.00029963682009919763, "loss": 4.0116, "step": 12590 }, { "epoch": 0.02625, "grad_norm": 0.8255387544631958, "learning_rate": 0.0002996361341607627, "loss": 3.9482, "step": 12600 }, { "epoch": 0.026270833333333334, "grad_norm": 0.8466336131095886, "learning_rate": 0.00029963544757595885, "loss": 3.9322, "step": 12610 }, { "epoch": 0.026291666666666668, "grad_norm": 0.8526718616485596, "learning_rate": 0.0002996347603447891, "loss": 4.0327, "step": 12620 }, { "epoch": 0.0263125, "grad_norm": 0.9007949829101562, "learning_rate": 0.00029963407246725644, "loss": 4.0894, "step": 12630 }, { "epoch": 0.026333333333333334, "grad_norm": 0.810897707939148, "learning_rate": 0.0002996333839433638, "loss": 3.9678, "step": 12640 }, { "epoch": 0.026354166666666668, "grad_norm": 0.9200378656387329, "learning_rate": 0.0002996326947731142, "loss": 3.911, "step": 12650 }, { "epoch": 0.026375, "grad_norm": 0.9246525764465332, "learning_rate": 0.00029963200495651055, "loss": 3.8677, "step": 12660 }, { "epoch": 0.026395833333333334, "grad_norm": 0.8256850242614746, "learning_rate": 0.0002996313144935559, "loss": 3.9736, "step": 12670 }, { "epoch": 0.026416666666666668, "grad_norm": 0.8702117204666138, "learning_rate": 0.0002996306233842532, "loss": 3.9605, "step": 12680 }, { "epoch": 0.0264375, "grad_norm": 0.8772563934326172, "learning_rate": 0.0002996299316286054, "loss": 4.2239, "step": 12690 }, { "epoch": 0.026458333333333334, "grad_norm": 0.9275411367416382, "learning_rate": 0.0002996292392266155, "loss": 3.9043, "step": 12700 }, { "epoch": 0.026479166666666668, "grad_norm": 0.9481557607650757, "learning_rate": 0.0002996285461782866, "loss": 4.0144, "step": 12710 }, { "epoch": 0.0265, "grad_norm": 0.978755533695221, "learning_rate": 0.00029962785248362157, "loss": 3.953, "step": 12720 }, { "epoch": 0.026520833333333334, "grad_norm": 0.8623465299606323, "learning_rate": 0.0002996271581426234, "loss": 4.0704, "step": 12730 }, { "epoch": 0.02654166666666667, "grad_norm": 0.8921887278556824, "learning_rate": 0.0002996264631552952, "loss": 3.8152, "step": 12740 }, { "epoch": 0.0265625, "grad_norm": 0.839424192905426, "learning_rate": 0.0002996257675216399, "loss": 4.1187, "step": 12750 }, { "epoch": 0.026583333333333334, "grad_norm": 0.8677070140838623, "learning_rate": 0.00029962507124166044, "loss": 4.1257, "step": 12760 }, { "epoch": 0.02660416666666667, "grad_norm": 1.0243782997131348, "learning_rate": 0.00029962437431536, "loss": 4.018, "step": 12770 }, { "epoch": 0.026625, "grad_norm": 0.789656937122345, "learning_rate": 0.00029962367674274144, "loss": 4.0919, "step": 12780 }, { "epoch": 0.026645833333333334, "grad_norm": 0.9391693472862244, "learning_rate": 0.00029962297852380776, "loss": 3.9415, "step": 12790 }, { "epoch": 0.02666666666666667, "grad_norm": 0.8821779489517212, "learning_rate": 0.0002996222796585621, "loss": 4.0768, "step": 12800 }, { "epoch": 0.0266875, "grad_norm": 0.8409366607666016, "learning_rate": 0.0002996215801470074, "loss": 4.0558, "step": 12810 }, { "epoch": 0.026708333333333334, "grad_norm": 0.8120698928833008, "learning_rate": 0.0002996208799891467, "loss": 4.193, "step": 12820 }, { "epoch": 0.026729166666666665, "grad_norm": 0.8941954970359802, "learning_rate": 0.00029962017918498305, "loss": 3.9991, "step": 12830 }, { "epoch": 0.02675, "grad_norm": 0.8437336683273315, "learning_rate": 0.0002996194777345194, "loss": 4.0258, "step": 12840 }, { "epoch": 0.026770833333333334, "grad_norm": 0.9636651277542114, "learning_rate": 0.0002996187756377589, "loss": 4.0927, "step": 12850 }, { "epoch": 0.026791666666666665, "grad_norm": 0.8670513033866882, "learning_rate": 0.00029961807289470446, "loss": 3.9893, "step": 12860 }, { "epoch": 0.0268125, "grad_norm": 0.8243114352226257, "learning_rate": 0.00029961736950535916, "loss": 4.0284, "step": 12870 }, { "epoch": 0.026833333333333334, "grad_norm": 0.867907702922821, "learning_rate": 0.0002996166654697261, "loss": 4.0451, "step": 12880 }, { "epoch": 0.026854166666666665, "grad_norm": 0.9168021082878113, "learning_rate": 0.00029961596078780824, "loss": 3.9235, "step": 12890 }, { "epoch": 0.026875, "grad_norm": 0.9834937453269958, "learning_rate": 0.00029961525545960864, "loss": 4.0184, "step": 12900 }, { "epoch": 0.026895833333333334, "grad_norm": 0.9485666155815125, "learning_rate": 0.0002996145494851303, "loss": 4.1428, "step": 12910 }, { "epoch": 0.026916666666666665, "grad_norm": 0.9374496936798096, "learning_rate": 0.00029961384286437644, "loss": 4.0228, "step": 12920 }, { "epoch": 0.0269375, "grad_norm": 1.150719165802002, "learning_rate": 0.0002996131355973499, "loss": 4.0496, "step": 12930 }, { "epoch": 0.026958333333333334, "grad_norm": 0.8332419991493225, "learning_rate": 0.00029961242768405396, "loss": 4.3133, "step": 12940 }, { "epoch": 0.026979166666666665, "grad_norm": 1.0052791833877563, "learning_rate": 0.00029961171912449143, "loss": 4.0232, "step": 12950 }, { "epoch": 0.027, "grad_norm": 0.8669558167457581, "learning_rate": 0.0002996110099186655, "loss": 4.0503, "step": 12960 }, { "epoch": 0.027020833333333334, "grad_norm": 0.8199687600135803, "learning_rate": 0.00029961030006657934, "loss": 3.9457, "step": 12970 }, { "epoch": 0.027041666666666665, "grad_norm": 0.7889499664306641, "learning_rate": 0.0002996095895682358, "loss": 4.09, "step": 12980 }, { "epoch": 0.0270625, "grad_norm": 0.8110848665237427, "learning_rate": 0.0002996088784236381, "loss": 4.0489, "step": 12990 }, { "epoch": 0.027083333333333334, "grad_norm": 0.8707507848739624, "learning_rate": 0.00029960816663278925, "loss": 4.0854, "step": 13000 }, { "epoch": 0.027083333333333334, "eval_loss": 4.359851837158203, "eval_runtime": 9.5293, "eval_samples_per_second": 1.049, "eval_steps_per_second": 0.315, "step": 13000 }, { "epoch": 0.027104166666666665, "grad_norm": 0.8259526491165161, "learning_rate": 0.0002996074541956923, "loss": 3.9867, "step": 13010 }, { "epoch": 0.027125, "grad_norm": 0.8513361811637878, "learning_rate": 0.0002996067411123504, "loss": 4.2101, "step": 13020 }, { "epoch": 0.027145833333333334, "grad_norm": 0.8666677474975586, "learning_rate": 0.00029960602738276663, "loss": 4.1288, "step": 13030 }, { "epoch": 0.027166666666666665, "grad_norm": 0.8560096621513367, "learning_rate": 0.00029960531300694403, "loss": 4.0676, "step": 13040 }, { "epoch": 0.0271875, "grad_norm": 0.8779157996177673, "learning_rate": 0.00029960459798488565, "loss": 4.3977, "step": 13050 }, { "epoch": 0.027208333333333334, "grad_norm": 0.8502326011657715, "learning_rate": 0.0002996038823165947, "loss": 4.1232, "step": 13060 }, { "epoch": 0.027229166666666665, "grad_norm": 0.8127399682998657, "learning_rate": 0.00029960316600207413, "loss": 3.9757, "step": 13070 }, { "epoch": 0.02725, "grad_norm": 0.9204973578453064, "learning_rate": 0.0002996024490413271, "loss": 3.9006, "step": 13080 }, { "epoch": 0.027270833333333334, "grad_norm": 0.7315559387207031, "learning_rate": 0.00029960173143435675, "loss": 4.122, "step": 13090 }, { "epoch": 0.027291666666666665, "grad_norm": 0.7884310483932495, "learning_rate": 0.0002996010131811661, "loss": 3.988, "step": 13100 }, { "epoch": 0.0273125, "grad_norm": 0.7562890648841858, "learning_rate": 0.0002996002942817583, "loss": 4.0558, "step": 13110 }, { "epoch": 0.027333333333333334, "grad_norm": 0.8700065016746521, "learning_rate": 0.00029959957473613645, "loss": 4.1028, "step": 13120 }, { "epoch": 0.027354166666666666, "grad_norm": 0.9044538736343384, "learning_rate": 0.00029959885454430363, "loss": 4.0376, "step": 13130 }, { "epoch": 0.027375, "grad_norm": 1.1886190176010132, "learning_rate": 0.000299598133706263, "loss": 4.0132, "step": 13140 }, { "epoch": 0.027395833333333335, "grad_norm": 0.822162926197052, "learning_rate": 0.00029959741222201767, "loss": 4.038, "step": 13150 }, { "epoch": 0.027416666666666666, "grad_norm": 0.7957779765129089, "learning_rate": 0.0002995966900915707, "loss": 3.956, "step": 13160 }, { "epoch": 0.0274375, "grad_norm": 0.8780480623245239, "learning_rate": 0.0002995959673149252, "loss": 4.3233, "step": 13170 }, { "epoch": 0.027458333333333335, "grad_norm": 0.8577442169189453, "learning_rate": 0.0002995952438920844, "loss": 4.1567, "step": 13180 }, { "epoch": 0.027479166666666666, "grad_norm": 0.7436883449554443, "learning_rate": 0.0002995945198230514, "loss": 4.0913, "step": 13190 }, { "epoch": 0.0275, "grad_norm": 0.875278890132904, "learning_rate": 0.0002995937951078292, "loss": 4.0634, "step": 13200 }, { "epoch": 0.027520833333333335, "grad_norm": 0.8415312170982361, "learning_rate": 0.00029959306974642106, "loss": 4.0181, "step": 13210 }, { "epoch": 0.027541666666666666, "grad_norm": 0.8785003423690796, "learning_rate": 0.00029959234373883004, "loss": 3.9336, "step": 13220 }, { "epoch": 0.0275625, "grad_norm": 0.8308568596839905, "learning_rate": 0.00029959161708505936, "loss": 4.2094, "step": 13230 }, { "epoch": 0.027583333333333335, "grad_norm": 0.818951427936554, "learning_rate": 0.00029959088978511204, "loss": 4.0752, "step": 13240 }, { "epoch": 0.027604166666666666, "grad_norm": 0.955394983291626, "learning_rate": 0.00029959016183899134, "loss": 3.9359, "step": 13250 }, { "epoch": 0.027625, "grad_norm": 0.8723248839378357, "learning_rate": 0.00029958943324670035, "loss": 3.9903, "step": 13260 }, { "epoch": 0.027645833333333335, "grad_norm": 0.7435494065284729, "learning_rate": 0.00029958870400824216, "loss": 4.0909, "step": 13270 }, { "epoch": 0.027666666666666666, "grad_norm": 0.9011809229850769, "learning_rate": 0.00029958797412362, "loss": 4.1353, "step": 13280 }, { "epoch": 0.0276875, "grad_norm": 0.7393107414245605, "learning_rate": 0.0002995872435928371, "loss": 4.0422, "step": 13290 }, { "epoch": 0.027708333333333335, "grad_norm": 0.8635237812995911, "learning_rate": 0.00029958651241589646, "loss": 3.9878, "step": 13300 }, { "epoch": 0.027729166666666666, "grad_norm": 0.9227210879325867, "learning_rate": 0.0002995857805928012, "loss": 3.8942, "step": 13310 }, { "epoch": 0.02775, "grad_norm": 0.8019893765449524, "learning_rate": 0.00029958504812355473, "loss": 3.9775, "step": 13320 }, { "epoch": 0.027770833333333335, "grad_norm": 0.8776654005050659, "learning_rate": 0.00029958431500815995, "loss": 4.0897, "step": 13330 }, { "epoch": 0.027791666666666666, "grad_norm": 0.8234403729438782, "learning_rate": 0.0002995835812466202, "loss": 4.1636, "step": 13340 }, { "epoch": 0.0278125, "grad_norm": 0.8834239840507507, "learning_rate": 0.0002995828468389386, "loss": 4.1159, "step": 13350 }, { "epoch": 0.027833333333333335, "grad_norm": 0.8409972190856934, "learning_rate": 0.0002995821117851183, "loss": 4.1387, "step": 13360 }, { "epoch": 0.027854166666666666, "grad_norm": 0.8174935579299927, "learning_rate": 0.00029958137608516246, "loss": 4.1037, "step": 13370 }, { "epoch": 0.027875, "grad_norm": 1.0774798393249512, "learning_rate": 0.00029958063973907424, "loss": 3.8952, "step": 13380 }, { "epoch": 0.027895833333333335, "grad_norm": 1.0032036304473877, "learning_rate": 0.00029957990274685694, "loss": 4.0937, "step": 13390 }, { "epoch": 0.027916666666666666, "grad_norm": 0.8382406830787659, "learning_rate": 0.0002995791651085136, "loss": 4.1684, "step": 13400 }, { "epoch": 0.0279375, "grad_norm": 0.7782190442085266, "learning_rate": 0.00029957842682404757, "loss": 4.0188, "step": 13410 }, { "epoch": 0.027958333333333335, "grad_norm": 0.8803874850273132, "learning_rate": 0.0002995776878934619, "loss": 4.0396, "step": 13420 }, { "epoch": 0.027979166666666666, "grad_norm": 0.827543318271637, "learning_rate": 0.0002995769483167598, "loss": 4.2623, "step": 13430 }, { "epoch": 0.028, "grad_norm": 0.861603856086731, "learning_rate": 0.0002995762080939445, "loss": 3.97, "step": 13440 }, { "epoch": 0.02802083333333333, "grad_norm": 0.9303983449935913, "learning_rate": 0.0002995754672250192, "loss": 4.1121, "step": 13450 }, { "epoch": 0.028041666666666666, "grad_norm": 0.9568511247634888, "learning_rate": 0.0002995747257099871, "loss": 3.9798, "step": 13460 }, { "epoch": 0.0280625, "grad_norm": 0.8132941126823425, "learning_rate": 0.00029957398354885133, "loss": 4.019, "step": 13470 }, { "epoch": 0.02808333333333333, "grad_norm": 0.9443039894104004, "learning_rate": 0.0002995732407416152, "loss": 4.1122, "step": 13480 }, { "epoch": 0.028104166666666666, "grad_norm": 0.9273906350135803, "learning_rate": 0.0002995724972882819, "loss": 4.0012, "step": 13490 }, { "epoch": 0.028125, "grad_norm": 0.7813358306884766, "learning_rate": 0.0002995717531888546, "loss": 3.9752, "step": 13500 }, { "epoch": 0.02814583333333333, "grad_norm": 0.9638699293136597, "learning_rate": 0.0002995710084433365, "loss": 4.0382, "step": 13510 }, { "epoch": 0.028166666666666666, "grad_norm": 1.0133676528930664, "learning_rate": 0.0002995702630517309, "loss": 4.0428, "step": 13520 }, { "epoch": 0.0281875, "grad_norm": 1.0262118577957153, "learning_rate": 0.0002995695170140409, "loss": 4.3586, "step": 13530 }, { "epoch": 0.028208333333333332, "grad_norm": 0.92856365442276, "learning_rate": 0.00029956877033026984, "loss": 3.9101, "step": 13540 }, { "epoch": 0.028229166666666666, "grad_norm": 0.8816470503807068, "learning_rate": 0.0002995680230004209, "loss": 4.1489, "step": 13550 }, { "epoch": 0.02825, "grad_norm": 1.0170079469680786, "learning_rate": 0.0002995672750244973, "loss": 4.1837, "step": 13560 }, { "epoch": 0.028270833333333332, "grad_norm": 0.9074510931968689, "learning_rate": 0.00029956652640250223, "loss": 4.1081, "step": 13570 }, { "epoch": 0.028291666666666666, "grad_norm": 0.8010416030883789, "learning_rate": 0.000299565777134439, "loss": 4.072, "step": 13580 }, { "epoch": 0.0283125, "grad_norm": 0.7508525252342224, "learning_rate": 0.0002995650272203108, "loss": 4.0573, "step": 13590 }, { "epoch": 0.028333333333333332, "grad_norm": 0.9767383933067322, "learning_rate": 0.0002995642766601209, "loss": 4.0596, "step": 13600 }, { "epoch": 0.028354166666666666, "grad_norm": 0.9028267860412598, "learning_rate": 0.00029956352545387256, "loss": 3.9044, "step": 13610 }, { "epoch": 0.028375, "grad_norm": 0.987820565700531, "learning_rate": 0.000299562773601569, "loss": 3.8103, "step": 13620 }, { "epoch": 0.028395833333333332, "grad_norm": 0.7659754753112793, "learning_rate": 0.0002995620211032134, "loss": 3.9897, "step": 13630 }, { "epoch": 0.028416666666666666, "grad_norm": 0.8494104146957397, "learning_rate": 0.00029956126795880906, "loss": 3.9812, "step": 13640 }, { "epoch": 0.0284375, "grad_norm": 0.8383607268333435, "learning_rate": 0.00029956051416835924, "loss": 4.2454, "step": 13650 }, { "epoch": 0.028458333333333332, "grad_norm": 0.9371084570884705, "learning_rate": 0.00029955975973186723, "loss": 3.9576, "step": 13660 }, { "epoch": 0.028479166666666667, "grad_norm": 0.9145421385765076, "learning_rate": 0.0002995590046493363, "loss": 4.195, "step": 13670 }, { "epoch": 0.0285, "grad_norm": 0.9933358430862427, "learning_rate": 0.0002995582489207696, "loss": 4.0705, "step": 13680 }, { "epoch": 0.028520833333333332, "grad_norm": 0.7886926531791687, "learning_rate": 0.0002995574925461705, "loss": 4.1436, "step": 13690 }, { "epoch": 0.028541666666666667, "grad_norm": 0.8565403819084167, "learning_rate": 0.0002995567355255422, "loss": 3.9428, "step": 13700 }, { "epoch": 0.0285625, "grad_norm": 0.9245144128799438, "learning_rate": 0.00029955597785888806, "loss": 4.0552, "step": 13710 }, { "epoch": 0.028583333333333332, "grad_norm": 0.9167112708091736, "learning_rate": 0.00029955521954621125, "loss": 3.9909, "step": 13720 }, { "epoch": 0.028604166666666667, "grad_norm": 0.8368225693702698, "learning_rate": 0.00029955446058751507, "loss": 4.1241, "step": 13730 }, { "epoch": 0.028625, "grad_norm": 0.9742733836174011, "learning_rate": 0.0002995537009828028, "loss": 3.9613, "step": 13740 }, { "epoch": 0.028645833333333332, "grad_norm": 0.7571779489517212, "learning_rate": 0.0002995529407320778, "loss": 3.9219, "step": 13750 }, { "epoch": 0.028666666666666667, "grad_norm": 0.821368932723999, "learning_rate": 0.0002995521798353433, "loss": 4.2434, "step": 13760 }, { "epoch": 0.0286875, "grad_norm": 0.88266521692276, "learning_rate": 0.0002995514182926026, "loss": 4.0037, "step": 13770 }, { "epoch": 0.028708333333333332, "grad_norm": 0.959341287612915, "learning_rate": 0.0002995506561038589, "loss": 4.0222, "step": 13780 }, { "epoch": 0.028729166666666667, "grad_norm": 0.7965496182441711, "learning_rate": 0.00029954989326911555, "loss": 4.0164, "step": 13790 }, { "epoch": 0.02875, "grad_norm": 0.8554810881614685, "learning_rate": 0.00029954912978837593, "loss": 3.9433, "step": 13800 }, { "epoch": 0.028770833333333332, "grad_norm": 0.9147219061851501, "learning_rate": 0.00029954836566164323, "loss": 4.1305, "step": 13810 }, { "epoch": 0.028791666666666667, "grad_norm": 0.9397408366203308, "learning_rate": 0.00029954760088892076, "loss": 3.913, "step": 13820 }, { "epoch": 0.0288125, "grad_norm": 0.9073673486709595, "learning_rate": 0.0002995468354702119, "loss": 4.0855, "step": 13830 }, { "epoch": 0.028833333333333332, "grad_norm": 0.7644234895706177, "learning_rate": 0.0002995460694055199, "loss": 4.0826, "step": 13840 }, { "epoch": 0.028854166666666667, "grad_norm": 0.8978095650672913, "learning_rate": 0.00029954530269484805, "loss": 4.147, "step": 13850 }, { "epoch": 0.028875, "grad_norm": 0.7489539384841919, "learning_rate": 0.00029954453533819966, "loss": 4.0548, "step": 13860 }, { "epoch": 0.028895833333333332, "grad_norm": 0.9819786548614502, "learning_rate": 0.0002995437673355781, "loss": 4.1459, "step": 13870 }, { "epoch": 0.028916666666666667, "grad_norm": 0.935992956161499, "learning_rate": 0.0002995429986869867, "loss": 4.1125, "step": 13880 }, { "epoch": 0.0289375, "grad_norm": 1.3112685680389404, "learning_rate": 0.0002995422293924287, "loss": 4.027, "step": 13890 }, { "epoch": 0.028958333333333332, "grad_norm": 0.8548194766044617, "learning_rate": 0.0002995414594519074, "loss": 3.9184, "step": 13900 }, { "epoch": 0.028979166666666667, "grad_norm": 0.8113975524902344, "learning_rate": 0.0002995406888654263, "loss": 4.0994, "step": 13910 }, { "epoch": 0.029, "grad_norm": 0.9581493139266968, "learning_rate": 0.00029953991763298856, "loss": 4.0694, "step": 13920 }, { "epoch": 0.029020833333333333, "grad_norm": 0.7941803932189941, "learning_rate": 0.00029953914575459755, "loss": 4.1715, "step": 13930 }, { "epoch": 0.029041666666666667, "grad_norm": 0.9321348667144775, "learning_rate": 0.00029953837323025667, "loss": 4.0293, "step": 13940 }, { "epoch": 0.0290625, "grad_norm": 1.9892157316207886, "learning_rate": 0.00029953760005996916, "loss": 3.8948, "step": 13950 }, { "epoch": 0.029083333333333333, "grad_norm": 1.0032389163970947, "learning_rate": 0.0002995368262437384, "loss": 4.0357, "step": 13960 }, { "epoch": 0.029104166666666667, "grad_norm": 0.8386779427528381, "learning_rate": 0.00029953605178156784, "loss": 4.1822, "step": 13970 }, { "epoch": 0.029125, "grad_norm": 0.7913174629211426, "learning_rate": 0.00029953527667346064, "loss": 4.188, "step": 13980 }, { "epoch": 0.029145833333333333, "grad_norm": 1.1361711025238037, "learning_rate": 0.00029953450091942026, "loss": 4.2595, "step": 13990 }, { "epoch": 0.029166666666666667, "grad_norm": 0.8619164228439331, "learning_rate": 0.00029953372451945, "loss": 3.9751, "step": 14000 }, { "epoch": 0.029166666666666667, "eval_loss": 4.356916427612305, "eval_runtime": 9.3544, "eval_samples_per_second": 1.069, "eval_steps_per_second": 0.321, "step": 14000 }, { "epoch": 0.0291875, "grad_norm": 0.7936063408851624, "learning_rate": 0.00029953294747355326, "loss": 4.091, "step": 14010 }, { "epoch": 0.029208333333333333, "grad_norm": 1.0108964443206787, "learning_rate": 0.00029953216978173335, "loss": 4.0172, "step": 14020 }, { "epoch": 0.029229166666666667, "grad_norm": 0.9538745880126953, "learning_rate": 0.0002995313914439937, "loss": 4.1773, "step": 14030 }, { "epoch": 0.02925, "grad_norm": 0.856364369392395, "learning_rate": 0.00029953061246033765, "loss": 3.9308, "step": 14040 }, { "epoch": 0.029270833333333333, "grad_norm": 0.8447313904762268, "learning_rate": 0.0002995298328307685, "loss": 4.0601, "step": 14050 }, { "epoch": 0.029291666666666667, "grad_norm": 0.8464942574501038, "learning_rate": 0.0002995290525552897, "loss": 4.0141, "step": 14060 }, { "epoch": 0.0293125, "grad_norm": 0.9490212202072144, "learning_rate": 0.0002995282716339045, "loss": 4.1654, "step": 14070 }, { "epoch": 0.029333333333333333, "grad_norm": 0.8684578537940979, "learning_rate": 0.0002995274900666164, "loss": 4.1965, "step": 14080 }, { "epoch": 0.029354166666666667, "grad_norm": 0.998436450958252, "learning_rate": 0.00029952670785342875, "loss": 3.9991, "step": 14090 }, { "epoch": 0.029375, "grad_norm": 0.7740040421485901, "learning_rate": 0.0002995259249943449, "loss": 4.2114, "step": 14100 }, { "epoch": 0.029395833333333333, "grad_norm": 1.4362983703613281, "learning_rate": 0.0002995251414893682, "loss": 3.9309, "step": 14110 }, { "epoch": 0.029416666666666667, "grad_norm": 0.8584771156311035, "learning_rate": 0.0002995243573385021, "loss": 4.0263, "step": 14120 }, { "epoch": 0.0294375, "grad_norm": 0.8559417724609375, "learning_rate": 0.00029952357254175, "loss": 4.1697, "step": 14130 }, { "epoch": 0.029458333333333333, "grad_norm": 0.9709491729736328, "learning_rate": 0.0002995227870991152, "loss": 4.2842, "step": 14140 }, { "epoch": 0.029479166666666667, "grad_norm": 0.8047007322311401, "learning_rate": 0.00029952200101060114, "loss": 3.9945, "step": 14150 }, { "epoch": 0.0295, "grad_norm": 0.8429526090621948, "learning_rate": 0.00029952121427621127, "loss": 4.2002, "step": 14160 }, { "epoch": 0.029520833333333333, "grad_norm": 0.946507453918457, "learning_rate": 0.0002995204268959489, "loss": 4.1771, "step": 14170 }, { "epoch": 0.029541666666666667, "grad_norm": 0.8206014037132263, "learning_rate": 0.00029951963886981744, "loss": 3.8681, "step": 14180 }, { "epoch": 0.0295625, "grad_norm": 0.8725135922431946, "learning_rate": 0.0002995188501978204, "loss": 4.0012, "step": 14190 }, { "epoch": 0.029583333333333333, "grad_norm": 0.8647250533103943, "learning_rate": 0.0002995180608799611, "loss": 3.835, "step": 14200 }, { "epoch": 0.029604166666666668, "grad_norm": 0.8583681583404541, "learning_rate": 0.0002995172709162429, "loss": 4.0018, "step": 14210 }, { "epoch": 0.029625, "grad_norm": 0.9821990728378296, "learning_rate": 0.0002995164803066693, "loss": 4.0503, "step": 14220 }, { "epoch": 0.029645833333333333, "grad_norm": 0.8250752091407776, "learning_rate": 0.0002995156890512437, "loss": 4.0846, "step": 14230 }, { "epoch": 0.029666666666666668, "grad_norm": 0.9520192742347717, "learning_rate": 0.0002995148971499695, "loss": 3.9514, "step": 14240 }, { "epoch": 0.0296875, "grad_norm": 1.0640666484832764, "learning_rate": 0.00029951410460285016, "loss": 4.094, "step": 14250 }, { "epoch": 0.029708333333333333, "grad_norm": 0.8637073040008545, "learning_rate": 0.00029951331140988904, "loss": 4.1746, "step": 14260 }, { "epoch": 0.029729166666666668, "grad_norm": 0.7906662821769714, "learning_rate": 0.0002995125175710896, "loss": 4.187, "step": 14270 }, { "epoch": 0.02975, "grad_norm": 0.8535051941871643, "learning_rate": 0.00029951172308645527, "loss": 4.2243, "step": 14280 }, { "epoch": 0.029770833333333333, "grad_norm": 0.8398330807685852, "learning_rate": 0.00029951092795598946, "loss": 3.992, "step": 14290 }, { "epoch": 0.029791666666666668, "grad_norm": 0.8448793292045593, "learning_rate": 0.00029951013217969564, "loss": 4.1865, "step": 14300 }, { "epoch": 0.0298125, "grad_norm": 0.991813600063324, "learning_rate": 0.00029950933575757717, "loss": 4.1371, "step": 14310 }, { "epoch": 0.029833333333333333, "grad_norm": 0.939232349395752, "learning_rate": 0.00029950853868963764, "loss": 4.1055, "step": 14320 }, { "epoch": 0.029854166666666668, "grad_norm": 0.9091331958770752, "learning_rate": 0.00029950774097588033, "loss": 3.8969, "step": 14330 }, { "epoch": 0.029875, "grad_norm": 0.8256743550300598, "learning_rate": 0.0002995069426163088, "loss": 4.0185, "step": 14340 }, { "epoch": 0.029895833333333333, "grad_norm": 0.9156287312507629, "learning_rate": 0.00029950614361092643, "loss": 4.046, "step": 14350 }, { "epoch": 0.029916666666666668, "grad_norm": 0.9120573401451111, "learning_rate": 0.00029950534395973676, "loss": 4.1613, "step": 14360 }, { "epoch": 0.0299375, "grad_norm": 0.8116564154624939, "learning_rate": 0.0002995045436627431, "loss": 4.1115, "step": 14370 }, { "epoch": 0.029958333333333333, "grad_norm": 0.8502389192581177, "learning_rate": 0.0002995037427199491, "loss": 4.1647, "step": 14380 }, { "epoch": 0.029979166666666668, "grad_norm": 0.8279502987861633, "learning_rate": 0.00029950294113135795, "loss": 3.976, "step": 14390 }, { "epoch": 0.03, "grad_norm": 0.7861356735229492, "learning_rate": 0.00029950213889697334, "loss": 4.0995, "step": 14400 }, { "epoch": 0.030020833333333333, "grad_norm": 0.8641905784606934, "learning_rate": 0.0002995013360167987, "loss": 4.0781, "step": 14410 }, { "epoch": 0.030041666666666668, "grad_norm": 0.9762683510780334, "learning_rate": 0.00029950053249083746, "loss": 3.9164, "step": 14420 }, { "epoch": 0.0300625, "grad_norm": 0.8936527371406555, "learning_rate": 0.0002994997283190931, "loss": 4.0197, "step": 14430 }, { "epoch": 0.030083333333333333, "grad_norm": 0.9123913645744324, "learning_rate": 0.0002994989235015691, "loss": 4.2142, "step": 14440 }, { "epoch": 0.030104166666666668, "grad_norm": 0.7833881378173828, "learning_rate": 0.00029949811803826887, "loss": 4.1087, "step": 14450 }, { "epoch": 0.030125, "grad_norm": 0.9175639152526855, "learning_rate": 0.000299497311929196, "loss": 4.0483, "step": 14460 }, { "epoch": 0.030145833333333334, "grad_norm": 1.0885392427444458, "learning_rate": 0.0002994965051743539, "loss": 4.1156, "step": 14470 }, { "epoch": 0.030166666666666668, "grad_norm": 0.7812568545341492, "learning_rate": 0.00029949569777374606, "loss": 4.2049, "step": 14480 }, { "epoch": 0.0301875, "grad_norm": 0.7951915264129639, "learning_rate": 0.00029949488972737595, "loss": 4.2044, "step": 14490 }, { "epoch": 0.030208333333333334, "grad_norm": 0.889025866985321, "learning_rate": 0.0002994940810352472, "loss": 4.0133, "step": 14500 }, { "epoch": 0.030229166666666668, "grad_norm": 0.8385442495346069, "learning_rate": 0.0002994932716973631, "loss": 3.9657, "step": 14510 }, { "epoch": 0.03025, "grad_norm": 0.8191893100738525, "learning_rate": 0.00029949246171372725, "loss": 3.9902, "step": 14520 }, { "epoch": 0.030270833333333334, "grad_norm": 0.8516495227813721, "learning_rate": 0.00029949165108434316, "loss": 3.8266, "step": 14530 }, { "epoch": 0.030291666666666668, "grad_norm": 0.8472347259521484, "learning_rate": 0.00029949083980921427, "loss": 4.1477, "step": 14540 }, { "epoch": 0.0303125, "grad_norm": 0.7125795483589172, "learning_rate": 0.0002994900278883441, "loss": 3.9867, "step": 14550 }, { "epoch": 0.030333333333333334, "grad_norm": 0.7736186385154724, "learning_rate": 0.00029948921532173625, "loss": 3.9828, "step": 14560 }, { "epoch": 0.030354166666666668, "grad_norm": 0.9110493659973145, "learning_rate": 0.0002994884021093942, "loss": 4.0417, "step": 14570 }, { "epoch": 0.030375, "grad_norm": 0.823752224445343, "learning_rate": 0.0002994875882513214, "loss": 4.0839, "step": 14580 }, { "epoch": 0.030395833333333334, "grad_norm": 0.8900298476219177, "learning_rate": 0.0002994867737475213, "loss": 4.0366, "step": 14590 }, { "epoch": 0.030416666666666668, "grad_norm": 0.8623661994934082, "learning_rate": 0.0002994859585979976, "loss": 4.2338, "step": 14600 }, { "epoch": 0.0304375, "grad_norm": 0.9114215970039368, "learning_rate": 0.00029948514280275367, "loss": 3.738, "step": 14610 }, { "epoch": 0.030458333333333334, "grad_norm": 0.794955849647522, "learning_rate": 0.00029948432636179315, "loss": 4.1121, "step": 14620 }, { "epoch": 0.03047916666666667, "grad_norm": 0.9092820286750793, "learning_rate": 0.00029948350927511944, "loss": 4.1745, "step": 14630 }, { "epoch": 0.0305, "grad_norm": 0.8599286079406738, "learning_rate": 0.0002994826915427362, "loss": 4.2106, "step": 14640 }, { "epoch": 0.030520833333333334, "grad_norm": 0.9800681471824646, "learning_rate": 0.0002994818731646469, "loss": 4.0644, "step": 14650 }, { "epoch": 0.03054166666666667, "grad_norm": 0.8235310912132263, "learning_rate": 0.0002994810541408551, "loss": 4.0764, "step": 14660 }, { "epoch": 0.0305625, "grad_norm": 0.8471696972846985, "learning_rate": 0.0002994802344713643, "loss": 4.0903, "step": 14670 }, { "epoch": 0.030583333333333334, "grad_norm": 0.900359570980072, "learning_rate": 0.00029947941415617795, "loss": 4.0169, "step": 14680 }, { "epoch": 0.030604166666666665, "grad_norm": 0.8637657165527344, "learning_rate": 0.00029947859319529984, "loss": 4.077, "step": 14690 }, { "epoch": 0.030625, "grad_norm": 0.86497563123703, "learning_rate": 0.00029947777158873326, "loss": 4.0702, "step": 14700 }, { "epoch": 0.030645833333333334, "grad_norm": 0.7919631004333496, "learning_rate": 0.00029947694933648195, "loss": 4.0094, "step": 14710 }, { "epoch": 0.030666666666666665, "grad_norm": 0.927245557308197, "learning_rate": 0.00029947612643854937, "loss": 4.1117, "step": 14720 }, { "epoch": 0.0306875, "grad_norm": 1.019700050354004, "learning_rate": 0.0002994753028949391, "loss": 4.1263, "step": 14730 }, { "epoch": 0.030708333333333334, "grad_norm": 0.8786669373512268, "learning_rate": 0.0002994744787056547, "loss": 4.0432, "step": 14740 }, { "epoch": 0.030729166666666665, "grad_norm": 0.8385117650032043, "learning_rate": 0.0002994736538706997, "loss": 4.0987, "step": 14750 }, { "epoch": 0.03075, "grad_norm": 0.746900737285614, "learning_rate": 0.0002994728283900776, "loss": 4.0355, "step": 14760 }, { "epoch": 0.030770833333333334, "grad_norm": 0.8696882724761963, "learning_rate": 0.0002994720022637922, "loss": 4.2424, "step": 14770 }, { "epoch": 0.030791666666666665, "grad_norm": 0.8687977194786072, "learning_rate": 0.0002994711754918468, "loss": 3.9462, "step": 14780 }, { "epoch": 0.0308125, "grad_norm": 0.9078602194786072, "learning_rate": 0.00029947034807424513, "loss": 4.013, "step": 14790 }, { "epoch": 0.030833333333333334, "grad_norm": 1.294808268547058, "learning_rate": 0.0002994695200109907, "loss": 3.987, "step": 14800 }, { "epoch": 0.030854166666666665, "grad_norm": 0.9757322072982788, "learning_rate": 0.00029946869130208713, "loss": 4.1635, "step": 14810 }, { "epoch": 0.030875, "grad_norm": 0.768364667892456, "learning_rate": 0.00029946786194753796, "loss": 4.0322, "step": 14820 }, { "epoch": 0.030895833333333334, "grad_norm": 0.7371079921722412, "learning_rate": 0.0002994670319473468, "loss": 4.0079, "step": 14830 }, { "epoch": 0.030916666666666665, "grad_norm": 0.8342958092689514, "learning_rate": 0.00029946620130151725, "loss": 4.0807, "step": 14840 }, { "epoch": 0.0309375, "grad_norm": 0.9092526435852051, "learning_rate": 0.0002994653700100528, "loss": 4.1937, "step": 14850 }, { "epoch": 0.030958333333333334, "grad_norm": 0.9627977013587952, "learning_rate": 0.00029946453807295717, "loss": 4.1064, "step": 14860 }, { "epoch": 0.030979166666666665, "grad_norm": 0.8539911508560181, "learning_rate": 0.00029946370549023386, "loss": 4.1365, "step": 14870 }, { "epoch": 0.031, "grad_norm": 0.872199296951294, "learning_rate": 0.00029946287226188654, "loss": 4.0328, "step": 14880 }, { "epoch": 0.031020833333333334, "grad_norm": 0.9470723867416382, "learning_rate": 0.00029946203838791883, "loss": 4.0389, "step": 14890 }, { "epoch": 0.031041666666666665, "grad_norm": 0.9475892186164856, "learning_rate": 0.0002994612038683342, "loss": 4.1021, "step": 14900 }, { "epoch": 0.0310625, "grad_norm": 0.881456732749939, "learning_rate": 0.0002994603687031363, "loss": 3.895, "step": 14910 }, { "epoch": 0.031083333333333334, "grad_norm": 0.8027737140655518, "learning_rate": 0.0002994595328923288, "loss": 4.1018, "step": 14920 }, { "epoch": 0.031104166666666665, "grad_norm": 0.9134830236434937, "learning_rate": 0.00029945869643591534, "loss": 4.0712, "step": 14930 }, { "epoch": 0.031125, "grad_norm": 0.9590940475463867, "learning_rate": 0.00029945785933389944, "loss": 4.144, "step": 14940 }, { "epoch": 0.031145833333333334, "grad_norm": 0.8448448777198792, "learning_rate": 0.0002994570215862847, "loss": 3.9476, "step": 14950 }, { "epoch": 0.031166666666666665, "grad_norm": 0.8625873327255249, "learning_rate": 0.00029945618319307483, "loss": 4.2291, "step": 14960 }, { "epoch": 0.0311875, "grad_norm": 0.8199671506881714, "learning_rate": 0.00029945534415427334, "loss": 4.2394, "step": 14970 }, { "epoch": 0.031208333333333334, "grad_norm": 0.9125764966011047, "learning_rate": 0.000299454504469884, "loss": 3.9974, "step": 14980 }, { "epoch": 0.031229166666666665, "grad_norm": 1.252485752105713, "learning_rate": 0.0002994536641399103, "loss": 3.9833, "step": 14990 }, { "epoch": 0.03125, "grad_norm": 0.8720163702964783, "learning_rate": 0.000299452823164356, "loss": 4.178, "step": 15000 }, { "epoch": 0.03125, "eval_loss": 4.33093786239624, "eval_runtime": 9.0611, "eval_samples_per_second": 1.104, "eval_steps_per_second": 0.331, "step": 15000 }, { "epoch": 0.03127083333333333, "grad_norm": 0.878359317779541, "learning_rate": 0.00029945198154322463, "loss": 4.1393, "step": 15010 }, { "epoch": 0.03129166666666667, "grad_norm": 0.8419456481933594, "learning_rate": 0.00029945113927651985, "loss": 4.1687, "step": 15020 }, { "epoch": 0.0313125, "grad_norm": 0.9828937649726868, "learning_rate": 0.00029945029636424525, "loss": 3.9624, "step": 15030 }, { "epoch": 0.03133333333333333, "grad_norm": 0.8137750029563904, "learning_rate": 0.0002994494528064046, "loss": 3.9851, "step": 15040 }, { "epoch": 0.03135416666666667, "grad_norm": 0.8770872354507446, "learning_rate": 0.0002994486086030015, "loss": 4.0027, "step": 15050 }, { "epoch": 0.031375, "grad_norm": 0.760393500328064, "learning_rate": 0.0002994477637540395, "loss": 4.015, "step": 15060 }, { "epoch": 0.03139583333333333, "grad_norm": 1.043774962425232, "learning_rate": 0.00029944691825952227, "loss": 4.0337, "step": 15070 }, { "epoch": 0.03141666666666667, "grad_norm": 0.8033528327941895, "learning_rate": 0.0002994460721194536, "loss": 4.0333, "step": 15080 }, { "epoch": 0.0314375, "grad_norm": 0.9265820980072021, "learning_rate": 0.00029944522533383706, "loss": 3.9952, "step": 15090 }, { "epoch": 0.03145833333333333, "grad_norm": 0.82586669921875, "learning_rate": 0.0002994443779026762, "loss": 4.0545, "step": 15100 }, { "epoch": 0.03147916666666667, "grad_norm": 0.910287082195282, "learning_rate": 0.0002994435298259749, "loss": 3.9704, "step": 15110 }, { "epoch": 0.0315, "grad_norm": 0.7352041602134705, "learning_rate": 0.00029944268110373664, "loss": 4.0829, "step": 15120 }, { "epoch": 0.03152083333333333, "grad_norm": 0.7913026213645935, "learning_rate": 0.00029944183173596516, "loss": 4.0073, "step": 15130 }, { "epoch": 0.03154166666666667, "grad_norm": 0.8794562220573425, "learning_rate": 0.00029944098172266415, "loss": 4.0265, "step": 15140 }, { "epoch": 0.0315625, "grad_norm": 0.8485791087150574, "learning_rate": 0.00029944013106383724, "loss": 4.0441, "step": 15150 }, { "epoch": 0.03158333333333333, "grad_norm": 0.7684953212738037, "learning_rate": 0.00029943927975948807, "loss": 4.1521, "step": 15160 }, { "epoch": 0.03160416666666667, "grad_norm": 0.8206188678741455, "learning_rate": 0.00029943842780962037, "loss": 4.1218, "step": 15170 }, { "epoch": 0.031625, "grad_norm": 0.7914516925811768, "learning_rate": 0.00029943757521423784, "loss": 3.9008, "step": 15180 }, { "epoch": 0.03164583333333333, "grad_norm": 0.8451589345932007, "learning_rate": 0.00029943672197334416, "loss": 3.9649, "step": 15190 }, { "epoch": 0.03166666666666667, "grad_norm": 0.8165528774261475, "learning_rate": 0.00029943586808694295, "loss": 4.1614, "step": 15200 }, { "epoch": 0.0316875, "grad_norm": 0.9129602909088135, "learning_rate": 0.000299435013555038, "loss": 4.1485, "step": 15210 }, { "epoch": 0.03170833333333333, "grad_norm": 0.9809873700141907, "learning_rate": 0.00029943415837763285, "loss": 4.0221, "step": 15220 }, { "epoch": 0.03172916666666667, "grad_norm": 0.8489075899124146, "learning_rate": 0.0002994333025547313, "loss": 4.275, "step": 15230 }, { "epoch": 0.03175, "grad_norm": 0.8379136919975281, "learning_rate": 0.0002994324460863371, "loss": 4.1557, "step": 15240 }, { "epoch": 0.03177083333333333, "grad_norm": 0.903752863407135, "learning_rate": 0.00029943158897245383, "loss": 4.0205, "step": 15250 }, { "epoch": 0.03179166666666667, "grad_norm": 0.9514161348342896, "learning_rate": 0.0002994307312130853, "loss": 4.0831, "step": 15260 }, { "epoch": 0.0318125, "grad_norm": 0.8124263286590576, "learning_rate": 0.0002994298728082351, "loss": 4.1813, "step": 15270 }, { "epoch": 0.03183333333333333, "grad_norm": 0.8268098831176758, "learning_rate": 0.00029942901375790707, "loss": 4.0504, "step": 15280 }, { "epoch": 0.03185416666666667, "grad_norm": 0.9709042906761169, "learning_rate": 0.0002994281540621048, "loss": 4.0775, "step": 15290 }, { "epoch": 0.031875, "grad_norm": 0.8725966215133667, "learning_rate": 0.00029942729372083206, "loss": 4.1487, "step": 15300 }, { "epoch": 0.03189583333333333, "grad_norm": 0.9131580591201782, "learning_rate": 0.0002994264327340925, "loss": 4.1491, "step": 15310 }, { "epoch": 0.03191666666666667, "grad_norm": 0.8566455841064453, "learning_rate": 0.00029942557110189, "loss": 3.8982, "step": 15320 }, { "epoch": 0.0319375, "grad_norm": 0.8703935742378235, "learning_rate": 0.0002994247088242281, "loss": 4.0579, "step": 15330 }, { "epoch": 0.03195833333333333, "grad_norm": 0.8805674314498901, "learning_rate": 0.00029942384590111066, "loss": 4.113, "step": 15340 }, { "epoch": 0.03197916666666667, "grad_norm": 0.8759633898735046, "learning_rate": 0.0002994229823325413, "loss": 4.1328, "step": 15350 }, { "epoch": 0.032, "grad_norm": 0.7107021808624268, "learning_rate": 0.00029942211811852384, "loss": 4.1089, "step": 15360 }, { "epoch": 0.03202083333333333, "grad_norm": 0.7688440084457397, "learning_rate": 0.00029942125325906196, "loss": 4.0989, "step": 15370 }, { "epoch": 0.03204166666666667, "grad_norm": 0.7890715003013611, "learning_rate": 0.0002994203877541594, "loss": 4.0704, "step": 15380 }, { "epoch": 0.0320625, "grad_norm": 0.9604535698890686, "learning_rate": 0.0002994195216038199, "loss": 3.9661, "step": 15390 }, { "epoch": 0.03208333333333333, "grad_norm": 0.9563435912132263, "learning_rate": 0.0002994186548080473, "loss": 4.0421, "step": 15400 }, { "epoch": 0.03210416666666667, "grad_norm": 0.7535944581031799, "learning_rate": 0.0002994177873668451, "loss": 4.1313, "step": 15410 }, { "epoch": 0.032125, "grad_norm": 0.8137538433074951, "learning_rate": 0.00029941691928021737, "loss": 4.1078, "step": 15420 }, { "epoch": 0.03214583333333333, "grad_norm": 0.7604168653488159, "learning_rate": 0.0002994160505481676, "loss": 4.2108, "step": 15430 }, { "epoch": 0.03216666666666667, "grad_norm": 0.8974458575248718, "learning_rate": 0.0002994151811706996, "loss": 4.0118, "step": 15440 }, { "epoch": 0.0321875, "grad_norm": 0.8392168879508972, "learning_rate": 0.0002994143111478172, "loss": 4.1775, "step": 15450 }, { "epoch": 0.03220833333333333, "grad_norm": 0.7376740574836731, "learning_rate": 0.00029941344047952417, "loss": 4.3068, "step": 15460 }, { "epoch": 0.03222916666666667, "grad_norm": 0.7751104235649109, "learning_rate": 0.0002994125691658242, "loss": 3.8922, "step": 15470 }, { "epoch": 0.03225, "grad_norm": 0.8617166876792908, "learning_rate": 0.00029941169720672104, "loss": 3.9637, "step": 15480 }, { "epoch": 0.03227083333333333, "grad_norm": 0.8667832016944885, "learning_rate": 0.0002994108246022185, "loss": 3.9956, "step": 15490 }, { "epoch": 0.03229166666666667, "grad_norm": 0.8785979747772217, "learning_rate": 0.0002994099513523204, "loss": 3.9887, "step": 15500 }, { "epoch": 0.0323125, "grad_norm": 0.9857479333877563, "learning_rate": 0.0002994090774570303, "loss": 4.0639, "step": 15510 }, { "epoch": 0.03233333333333333, "grad_norm": 0.8522710204124451, "learning_rate": 0.0002994082029163522, "loss": 4.1742, "step": 15520 }, { "epoch": 0.03235416666666667, "grad_norm": 0.8661463856697083, "learning_rate": 0.00029940732773028986, "loss": 4.031, "step": 15530 }, { "epoch": 0.032375, "grad_norm": 0.7796003222465515, "learning_rate": 0.00029940645189884696, "loss": 4.0595, "step": 15540 }, { "epoch": 0.03239583333333333, "grad_norm": 0.8311572670936584, "learning_rate": 0.0002994055754220273, "loss": 3.9215, "step": 15550 }, { "epoch": 0.03241666666666667, "grad_norm": 0.8599438667297363, "learning_rate": 0.00029940469829983475, "loss": 4.0982, "step": 15560 }, { "epoch": 0.0324375, "grad_norm": 0.9948984384536743, "learning_rate": 0.000299403820532273, "loss": 4.0887, "step": 15570 }, { "epoch": 0.03245833333333333, "grad_norm": 0.8569654822349548, "learning_rate": 0.0002994029421193459, "loss": 3.904, "step": 15580 }, { "epoch": 0.03247916666666667, "grad_norm": 0.8488124012947083, "learning_rate": 0.00029940206306105723, "loss": 4.0056, "step": 15590 }, { "epoch": 0.0325, "grad_norm": 0.7372636198997498, "learning_rate": 0.00029940118335741077, "loss": 4.1109, "step": 15600 }, { "epoch": 0.03252083333333333, "grad_norm": 0.7716682553291321, "learning_rate": 0.0002994003030084103, "loss": 4.0849, "step": 15610 }, { "epoch": 0.03254166666666667, "grad_norm": 1.0652674436569214, "learning_rate": 0.0002993994220140597, "loss": 4.3322, "step": 15620 }, { "epoch": 0.0325625, "grad_norm": 0.89274662733078, "learning_rate": 0.00029939854037436275, "loss": 4.2091, "step": 15630 }, { "epoch": 0.03258333333333333, "grad_norm": 0.843664824962616, "learning_rate": 0.00029939765808932324, "loss": 4.0918, "step": 15640 }, { "epoch": 0.03260416666666666, "grad_norm": 0.7798587083816528, "learning_rate": 0.00029939677515894496, "loss": 4.2316, "step": 15650 }, { "epoch": 0.032625, "grad_norm": 0.908891499042511, "learning_rate": 0.00029939589158323177, "loss": 4.0584, "step": 15660 }, { "epoch": 0.03264583333333333, "grad_norm": 0.800485372543335, "learning_rate": 0.00029939500736218745, "loss": 3.8963, "step": 15670 }, { "epoch": 0.03266666666666666, "grad_norm": 0.8182084560394287, "learning_rate": 0.0002993941224958158, "loss": 3.8216, "step": 15680 }, { "epoch": 0.0326875, "grad_norm": 0.8195801973342896, "learning_rate": 0.0002993932369841207, "loss": 4.0306, "step": 15690 }, { "epoch": 0.03270833333333333, "grad_norm": 0.8744678497314453, "learning_rate": 0.000299392350827106, "loss": 3.8719, "step": 15700 }, { "epoch": 0.03272916666666666, "grad_norm": 0.8203961849212646, "learning_rate": 0.00029939146402477545, "loss": 4.2014, "step": 15710 }, { "epoch": 0.03275, "grad_norm": 0.8917534351348877, "learning_rate": 0.0002993905765771329, "loss": 4.1067, "step": 15720 }, { "epoch": 0.03277083333333333, "grad_norm": 0.8452229499816895, "learning_rate": 0.00029938968848418216, "loss": 4.2494, "step": 15730 }, { "epoch": 0.03279166666666666, "grad_norm": 0.8527575731277466, "learning_rate": 0.00029938879974592713, "loss": 4.0757, "step": 15740 }, { "epoch": 0.0328125, "grad_norm": 0.8027780055999756, "learning_rate": 0.0002993879103623716, "loss": 3.9564, "step": 15750 }, { "epoch": 0.03283333333333333, "grad_norm": 0.8674333691596985, "learning_rate": 0.00029938702033351945, "loss": 4.0269, "step": 15760 }, { "epoch": 0.03285416666666666, "grad_norm": 0.9531248211860657, "learning_rate": 0.0002993861296593745, "loss": 4.0679, "step": 15770 }, { "epoch": 0.032875, "grad_norm": 0.7846377491950989, "learning_rate": 0.0002993852383399406, "loss": 4.1212, "step": 15780 }, { "epoch": 0.03289583333333333, "grad_norm": 0.893591582775116, "learning_rate": 0.00029938434637522156, "loss": 4.0796, "step": 15790 }, { "epoch": 0.032916666666666664, "grad_norm": 0.8073575496673584, "learning_rate": 0.0002993834537652213, "loss": 3.9846, "step": 15800 }, { "epoch": 0.0329375, "grad_norm": 0.8872947692871094, "learning_rate": 0.0002993825605099437, "loss": 4.0895, "step": 15810 }, { "epoch": 0.03295833333333333, "grad_norm": 0.8714396953582764, "learning_rate": 0.0002993816666093925, "loss": 4.1946, "step": 15820 }, { "epoch": 0.032979166666666664, "grad_norm": 0.8361475467681885, "learning_rate": 0.0002993807720635717, "loss": 4.0983, "step": 15830 }, { "epoch": 0.033, "grad_norm": 0.8470453023910522, "learning_rate": 0.000299379876872485, "loss": 4.0223, "step": 15840 }, { "epoch": 0.03302083333333333, "grad_norm": 0.8411586880683899, "learning_rate": 0.00029937898103613643, "loss": 4.0823, "step": 15850 }, { "epoch": 0.033041666666666664, "grad_norm": 1.0533279180526733, "learning_rate": 0.0002993780845545298, "loss": 3.9746, "step": 15860 }, { "epoch": 0.0330625, "grad_norm": 0.8105953931808472, "learning_rate": 0.00029937718742766896, "loss": 3.9854, "step": 15870 }, { "epoch": 0.03308333333333333, "grad_norm": 0.8612307906150818, "learning_rate": 0.00029937628965555775, "loss": 4.2088, "step": 15880 }, { "epoch": 0.033104166666666664, "grad_norm": 0.8461914658546448, "learning_rate": 0.0002993753912382001, "loss": 4.0537, "step": 15890 }, { "epoch": 0.033125, "grad_norm": 0.8008294701576233, "learning_rate": 0.00029937449217559996, "loss": 4.0422, "step": 15900 }, { "epoch": 0.03314583333333333, "grad_norm": 0.7430229783058167, "learning_rate": 0.00029937359246776107, "loss": 4.0021, "step": 15910 }, { "epoch": 0.033166666666666664, "grad_norm": 0.775693953037262, "learning_rate": 0.0002993726921146874, "loss": 4.1492, "step": 15920 }, { "epoch": 0.0331875, "grad_norm": 0.8002509474754333, "learning_rate": 0.00029937179111638284, "loss": 4.126, "step": 15930 }, { "epoch": 0.03320833333333333, "grad_norm": 0.7978214025497437, "learning_rate": 0.0002993708894728513, "loss": 4.007, "step": 15940 }, { "epoch": 0.033229166666666664, "grad_norm": 0.9126216769218445, "learning_rate": 0.0002993699871840966, "loss": 4.1246, "step": 15950 }, { "epoch": 0.03325, "grad_norm": 0.9049301147460938, "learning_rate": 0.00029936908425012273, "loss": 4.0706, "step": 15960 }, { "epoch": 0.03327083333333333, "grad_norm": 0.8548170924186707, "learning_rate": 0.00029936818067093345, "loss": 4.0023, "step": 15970 }, { "epoch": 0.033291666666666664, "grad_norm": 0.8215303421020508, "learning_rate": 0.0002993672764465328, "loss": 4.0278, "step": 15980 }, { "epoch": 0.0333125, "grad_norm": 0.8506315350532532, "learning_rate": 0.00029936637157692463, "loss": 4.1399, "step": 15990 }, { "epoch": 0.03333333333333333, "grad_norm": 0.9001700282096863, "learning_rate": 0.0002993654660621129, "loss": 3.9919, "step": 16000 }, { "epoch": 0.03333333333333333, "eval_loss": 4.3315629959106445, "eval_runtime": 8.8322, "eval_samples_per_second": 1.132, "eval_steps_per_second": 0.34, "step": 16000 }, { "epoch": 0.033354166666666664, "grad_norm": 0.9198235869407654, "learning_rate": 0.00029936455990210145, "loss": 3.9796, "step": 16010 }, { "epoch": 0.033375, "grad_norm": 0.9833637475967407, "learning_rate": 0.00029936365309689425, "loss": 3.9212, "step": 16020 }, { "epoch": 0.03339583333333333, "grad_norm": 0.8164150714874268, "learning_rate": 0.00029936274564649513, "loss": 3.9538, "step": 16030 }, { "epoch": 0.033416666666666664, "grad_norm": 0.9178228974342346, "learning_rate": 0.0002993618375509081, "loss": 3.8791, "step": 16040 }, { "epoch": 0.0334375, "grad_norm": 0.7732407450675964, "learning_rate": 0.00029936092881013707, "loss": 4.0548, "step": 16050 }, { "epoch": 0.03345833333333333, "grad_norm": 0.7776960134506226, "learning_rate": 0.0002993600194241859, "loss": 4.071, "step": 16060 }, { "epoch": 0.033479166666666664, "grad_norm": 0.8848630785942078, "learning_rate": 0.00029935910939305865, "loss": 3.9908, "step": 16070 }, { "epoch": 0.0335, "grad_norm": 0.7808995246887207, "learning_rate": 0.0002993581987167591, "loss": 3.7747, "step": 16080 }, { "epoch": 0.03352083333333333, "grad_norm": 0.8991162776947021, "learning_rate": 0.0002993572873952913, "loss": 4.072, "step": 16090 }, { "epoch": 0.033541666666666664, "grad_norm": 0.8174862861633301, "learning_rate": 0.0002993563754286591, "loss": 4.1168, "step": 16100 }, { "epoch": 0.0335625, "grad_norm": 0.916215717792511, "learning_rate": 0.0002993554628168665, "loss": 3.989, "step": 16110 }, { "epoch": 0.03358333333333333, "grad_norm": 0.8327673673629761, "learning_rate": 0.00029935454955991737, "loss": 3.8921, "step": 16120 }, { "epoch": 0.033604166666666664, "grad_norm": 0.8554166555404663, "learning_rate": 0.0002993536356578158, "loss": 4.0543, "step": 16130 }, { "epoch": 0.033625, "grad_norm": 1.07235848903656, "learning_rate": 0.00029935272111056554, "loss": 3.9233, "step": 16140 }, { "epoch": 0.03364583333333333, "grad_norm": 0.828044593334198, "learning_rate": 0.00029935180591817074, "loss": 4.189, "step": 16150 }, { "epoch": 0.033666666666666664, "grad_norm": 1.0246752500534058, "learning_rate": 0.00029935089008063516, "loss": 3.7772, "step": 16160 }, { "epoch": 0.0336875, "grad_norm": 1.3070342540740967, "learning_rate": 0.0002993499735979629, "loss": 4.0821, "step": 16170 }, { "epoch": 0.03370833333333333, "grad_norm": 0.8444189429283142, "learning_rate": 0.00029934905647015784, "loss": 3.9954, "step": 16180 }, { "epoch": 0.033729166666666664, "grad_norm": 0.8488497734069824, "learning_rate": 0.000299348138697224, "loss": 3.9739, "step": 16190 }, { "epoch": 0.03375, "grad_norm": 0.8595477342605591, "learning_rate": 0.00029934722027916534, "loss": 3.7662, "step": 16200 }, { "epoch": 0.03377083333333333, "grad_norm": 0.7659378051757812, "learning_rate": 0.0002993463012159858, "loss": 4.0534, "step": 16210 }, { "epoch": 0.033791666666666664, "grad_norm": 0.924866795539856, "learning_rate": 0.00029934538150768933, "loss": 4.0921, "step": 16220 }, { "epoch": 0.0338125, "grad_norm": 0.9497525691986084, "learning_rate": 0.0002993444611542799, "loss": 4.0723, "step": 16230 }, { "epoch": 0.03383333333333333, "grad_norm": 0.8364046216011047, "learning_rate": 0.0002993435401557616, "loss": 4.0529, "step": 16240 }, { "epoch": 0.033854166666666664, "grad_norm": 0.9190325736999512, "learning_rate": 0.00029934261851213823, "loss": 4.0683, "step": 16250 }, { "epoch": 0.033875, "grad_norm": 1.1025983095169067, "learning_rate": 0.0002993416962234139, "loss": 4.1098, "step": 16260 }, { "epoch": 0.03389583333333333, "grad_norm": 0.886742889881134, "learning_rate": 0.00029934077328959256, "loss": 4.0909, "step": 16270 }, { "epoch": 0.033916666666666664, "grad_norm": 0.9103668928146362, "learning_rate": 0.0002993398497106782, "loss": 4.1457, "step": 16280 }, { "epoch": 0.0339375, "grad_norm": 0.8327091932296753, "learning_rate": 0.0002993389254866748, "loss": 4.0765, "step": 16290 }, { "epoch": 0.03395833333333333, "grad_norm": 0.9820424914360046, "learning_rate": 0.0002993380006175863, "loss": 4.0279, "step": 16300 }, { "epoch": 0.033979166666666664, "grad_norm": 0.90031898021698, "learning_rate": 0.0002993370751034168, "loss": 4.2943, "step": 16310 }, { "epoch": 0.034, "grad_norm": 0.8743019700050354, "learning_rate": 0.00029933614894417024, "loss": 3.9105, "step": 16320 }, { "epoch": 0.034020833333333333, "grad_norm": 0.8995828032493591, "learning_rate": 0.00029933522213985064, "loss": 3.9209, "step": 16330 }, { "epoch": 0.034041666666666665, "grad_norm": 0.8196219801902771, "learning_rate": 0.000299334294690462, "loss": 4.0775, "step": 16340 }, { "epoch": 0.0340625, "grad_norm": 0.8875076174736023, "learning_rate": 0.00029933336659600826, "loss": 4.052, "step": 16350 }, { "epoch": 0.034083333333333334, "grad_norm": 0.8845887184143066, "learning_rate": 0.00029933243785649355, "loss": 4.0091, "step": 16360 }, { "epoch": 0.034104166666666665, "grad_norm": 0.9027897715568542, "learning_rate": 0.00029933150847192175, "loss": 4.087, "step": 16370 }, { "epoch": 0.034125, "grad_norm": 0.9315267205238342, "learning_rate": 0.000299330578442297, "loss": 3.9661, "step": 16380 }, { "epoch": 0.034145833333333334, "grad_norm": 0.7526669502258301, "learning_rate": 0.00029932964776762327, "loss": 4.1032, "step": 16390 }, { "epoch": 0.034166666666666665, "grad_norm": 0.7556225061416626, "learning_rate": 0.0002993287164479045, "loss": 3.9778, "step": 16400 }, { "epoch": 0.0341875, "grad_norm": 0.8363755345344543, "learning_rate": 0.0002993277844831449, "loss": 4.0933, "step": 16410 }, { "epoch": 0.034208333333333334, "grad_norm": 0.8591242432594299, "learning_rate": 0.00029932685187334827, "loss": 4.0136, "step": 16420 }, { "epoch": 0.034229166666666665, "grad_norm": 0.8140270709991455, "learning_rate": 0.0002993259186185188, "loss": 4.0605, "step": 16430 }, { "epoch": 0.03425, "grad_norm": 0.8638515472412109, "learning_rate": 0.0002993249847186604, "loss": 4.1236, "step": 16440 }, { "epoch": 0.034270833333333334, "grad_norm": 0.9182011485099792, "learning_rate": 0.00029932405017377725, "loss": 4.0033, "step": 16450 }, { "epoch": 0.034291666666666665, "grad_norm": 0.741743266582489, "learning_rate": 0.0002993231149838733, "loss": 3.9522, "step": 16460 }, { "epoch": 0.0343125, "grad_norm": 0.7912690043449402, "learning_rate": 0.0002993221791489526, "loss": 4.0326, "step": 16470 }, { "epoch": 0.034333333333333334, "grad_norm": 0.8383122682571411, "learning_rate": 0.0002993212426690191, "loss": 3.8846, "step": 16480 }, { "epoch": 0.034354166666666665, "grad_norm": 0.8124603033065796, "learning_rate": 0.0002993203055440771, "loss": 4.1269, "step": 16490 }, { "epoch": 0.034375, "grad_norm": 0.8415465354919434, "learning_rate": 0.00029931936777413036, "loss": 4.1155, "step": 16500 }, { "epoch": 0.034395833333333334, "grad_norm": 0.8443299531936646, "learning_rate": 0.0002993184293591831, "loss": 4.1101, "step": 16510 }, { "epoch": 0.034416666666666665, "grad_norm": 0.7773112654685974, "learning_rate": 0.0002993174902992393, "loss": 4.093, "step": 16520 }, { "epoch": 0.0344375, "grad_norm": 0.9969574213027954, "learning_rate": 0.0002993165505943031, "loss": 3.892, "step": 16530 }, { "epoch": 0.034458333333333334, "grad_norm": 0.885007917881012, "learning_rate": 0.0002993156102443785, "loss": 4.0801, "step": 16540 }, { "epoch": 0.034479166666666665, "grad_norm": 0.9501005411148071, "learning_rate": 0.0002993146692494695, "loss": 4.0472, "step": 16550 }, { "epoch": 0.0345, "grad_norm": 1.0263216495513916, "learning_rate": 0.0002993137276095803, "loss": 4.0818, "step": 16560 }, { "epoch": 0.034520833333333334, "grad_norm": 0.8649660348892212, "learning_rate": 0.00029931278532471485, "loss": 4.3089, "step": 16570 }, { "epoch": 0.034541666666666665, "grad_norm": 0.9227863550186157, "learning_rate": 0.0002993118423948773, "loss": 4.0961, "step": 16580 }, { "epoch": 0.0345625, "grad_norm": 0.9151936769485474, "learning_rate": 0.0002993108988200717, "loss": 4.2533, "step": 16590 }, { "epoch": 0.034583333333333334, "grad_norm": 0.8485237956047058, "learning_rate": 0.0002993099546003021, "loss": 3.999, "step": 16600 }, { "epoch": 0.034604166666666665, "grad_norm": 0.9053081274032593, "learning_rate": 0.0002993090097355726, "loss": 4.198, "step": 16610 }, { "epoch": 0.034625, "grad_norm": 0.9125163555145264, "learning_rate": 0.0002993080642258873, "loss": 3.8507, "step": 16620 }, { "epoch": 0.034645833333333334, "grad_norm": 0.8891355395317078, "learning_rate": 0.0002993071180712502, "loss": 4.0648, "step": 16630 }, { "epoch": 0.034666666666666665, "grad_norm": 0.8034995198249817, "learning_rate": 0.0002993061712716655, "loss": 3.8943, "step": 16640 }, { "epoch": 0.0346875, "grad_norm": 0.8404164910316467, "learning_rate": 0.00029930522382713725, "loss": 4.125, "step": 16650 }, { "epoch": 0.034708333333333334, "grad_norm": 0.8723776936531067, "learning_rate": 0.00029930427573766953, "loss": 4.1484, "step": 16660 }, { "epoch": 0.034729166666666665, "grad_norm": 0.9118918180465698, "learning_rate": 0.00029930332700326643, "loss": 3.9387, "step": 16670 }, { "epoch": 0.03475, "grad_norm": 0.8488430380821228, "learning_rate": 0.000299302377623932, "loss": 4.0746, "step": 16680 }, { "epoch": 0.034770833333333334, "grad_norm": 0.7929940223693848, "learning_rate": 0.0002993014275996705, "loss": 4.0733, "step": 16690 }, { "epoch": 0.034791666666666665, "grad_norm": 0.8379742503166199, "learning_rate": 0.00029930047693048584, "loss": 3.9553, "step": 16700 }, { "epoch": 0.0348125, "grad_norm": 0.781258761882782, "learning_rate": 0.0002992995256163823, "loss": 4.011, "step": 16710 }, { "epoch": 0.034833333333333334, "grad_norm": 0.8825591802597046, "learning_rate": 0.00029929857365736383, "loss": 4.0178, "step": 16720 }, { "epoch": 0.034854166666666665, "grad_norm": 0.7728365659713745, "learning_rate": 0.00029929762105343466, "loss": 4.0435, "step": 16730 }, { "epoch": 0.034875, "grad_norm": 0.9625519514083862, "learning_rate": 0.0002992966678045988, "loss": 4.0808, "step": 16740 }, { "epoch": 0.034895833333333334, "grad_norm": 1.0772294998168945, "learning_rate": 0.00029929571391086054, "loss": 4.0629, "step": 16750 }, { "epoch": 0.034916666666666665, "grad_norm": 0.9131920337677002, "learning_rate": 0.00029929475937222376, "loss": 4.1774, "step": 16760 }, { "epoch": 0.0349375, "grad_norm": 0.8400788903236389, "learning_rate": 0.0002992938041886928, "loss": 3.8498, "step": 16770 }, { "epoch": 0.034958333333333334, "grad_norm": 0.8904976844787598, "learning_rate": 0.0002992928483602717, "loss": 4.0129, "step": 16780 }, { "epoch": 0.034979166666666665, "grad_norm": 0.8708992600440979, "learning_rate": 0.0002992918918869646, "loss": 4.006, "step": 16790 }, { "epoch": 0.035, "grad_norm": 0.7637060284614563, "learning_rate": 0.0002992909347687756, "loss": 4.0009, "step": 16800 }, { "epoch": 0.035020833333333334, "grad_norm": 0.9666843414306641, "learning_rate": 0.0002992899770057088, "loss": 3.9724, "step": 16810 }, { "epoch": 0.035041666666666665, "grad_norm": 0.8615291714668274, "learning_rate": 0.00029928901859776845, "loss": 4.169, "step": 16820 }, { "epoch": 0.0350625, "grad_norm": 0.875882089138031, "learning_rate": 0.00029928805954495863, "loss": 3.9065, "step": 16830 }, { "epoch": 0.035083333333333334, "grad_norm": 0.7698918581008911, "learning_rate": 0.00029928709984728346, "loss": 3.881, "step": 16840 }, { "epoch": 0.035104166666666665, "grad_norm": 0.8980772495269775, "learning_rate": 0.00029928613950474717, "loss": 4.0857, "step": 16850 }, { "epoch": 0.035125, "grad_norm": 0.8362685441970825, "learning_rate": 0.0002992851785173538, "loss": 4.0175, "step": 16860 }, { "epoch": 0.035145833333333334, "grad_norm": 0.8589380979537964, "learning_rate": 0.00029928421688510756, "loss": 4.1152, "step": 16870 }, { "epoch": 0.035166666666666666, "grad_norm": 0.8299537301063538, "learning_rate": 0.00029928325460801264, "loss": 4.0223, "step": 16880 }, { "epoch": 0.0351875, "grad_norm": 0.7935989499092102, "learning_rate": 0.0002992822916860731, "loss": 3.9743, "step": 16890 }, { "epoch": 0.035208333333333335, "grad_norm": 0.8624267578125, "learning_rate": 0.0002992813281192931, "loss": 4.1329, "step": 16900 }, { "epoch": 0.035229166666666666, "grad_norm": 0.8893835544586182, "learning_rate": 0.0002992803639076769, "loss": 4.0249, "step": 16910 }, { "epoch": 0.03525, "grad_norm": 0.8192248940467834, "learning_rate": 0.00029927939905122864, "loss": 4.0329, "step": 16920 }, { "epoch": 0.035270833333333335, "grad_norm": 0.9476098418235779, "learning_rate": 0.00029927843354995244, "loss": 4.2627, "step": 16930 }, { "epoch": 0.035291666666666666, "grad_norm": 0.7768537402153015, "learning_rate": 0.0002992774674038525, "loss": 4.0038, "step": 16940 }, { "epoch": 0.0353125, "grad_norm": 0.829410970211029, "learning_rate": 0.000299276500612933, "loss": 4.1452, "step": 16950 }, { "epoch": 0.035333333333333335, "grad_norm": 0.8985475897789001, "learning_rate": 0.00029927553317719814, "loss": 3.9532, "step": 16960 }, { "epoch": 0.035354166666666666, "grad_norm": 0.9217942357063293, "learning_rate": 0.000299274565096652, "loss": 4.1556, "step": 16970 }, { "epoch": 0.035375, "grad_norm": 0.8565150499343872, "learning_rate": 0.0002992735963712988, "loss": 4.236, "step": 16980 }, { "epoch": 0.035395833333333335, "grad_norm": 0.8029810786247253, "learning_rate": 0.00029927262700114285, "loss": 4.2272, "step": 16990 }, { "epoch": 0.035416666666666666, "grad_norm": 0.8682880401611328, "learning_rate": 0.0002992716569861882, "loss": 4.1456, "step": 17000 }, { "epoch": 0.035416666666666666, "eval_loss": 4.325911045074463, "eval_runtime": 10.5687, "eval_samples_per_second": 0.946, "eval_steps_per_second": 0.284, "step": 17000 }, { "epoch": 0.0354375, "grad_norm": 0.862125039100647, "learning_rate": 0.00029927068632643907, "loss": 3.9567, "step": 17010 }, { "epoch": 0.035458333333333335, "grad_norm": 0.9618183970451355, "learning_rate": 0.0002992697150218996, "loss": 4.1078, "step": 17020 }, { "epoch": 0.035479166666666666, "grad_norm": 0.9096365571022034, "learning_rate": 0.0002992687430725741, "loss": 4.0195, "step": 17030 }, { "epoch": 0.0355, "grad_norm": 1.1312155723571777, "learning_rate": 0.0002992677704784667, "loss": 4.3551, "step": 17040 }, { "epoch": 0.035520833333333335, "grad_norm": 0.9860330820083618, "learning_rate": 0.00029926679723958166, "loss": 3.8919, "step": 17050 }, { "epoch": 0.035541666666666666, "grad_norm": 0.9555772542953491, "learning_rate": 0.0002992658233559231, "loss": 4.2192, "step": 17060 }, { "epoch": 0.0355625, "grad_norm": 0.8637245893478394, "learning_rate": 0.0002992648488274953, "loss": 4.1481, "step": 17070 }, { "epoch": 0.035583333333333335, "grad_norm": 1.1291141510009766, "learning_rate": 0.00029926387365430246, "loss": 3.9657, "step": 17080 }, { "epoch": 0.035604166666666666, "grad_norm": 0.8090156316757202, "learning_rate": 0.0002992628978363487, "loss": 4.1061, "step": 17090 }, { "epoch": 0.035625, "grad_norm": 0.8619391918182373, "learning_rate": 0.0002992619213736383, "loss": 4.119, "step": 17100 }, { "epoch": 0.035645833333333335, "grad_norm": 0.8947673439979553, "learning_rate": 0.0002992609442661755, "loss": 4.128, "step": 17110 }, { "epoch": 0.035666666666666666, "grad_norm": 0.812449038028717, "learning_rate": 0.0002992599665139645, "loss": 4.0285, "step": 17120 }, { "epoch": 0.0356875, "grad_norm": 0.8342782855033875, "learning_rate": 0.0002992589881170096, "loss": 4.0616, "step": 17130 }, { "epoch": 0.035708333333333335, "grad_norm": 0.9633160829544067, "learning_rate": 0.0002992580090753149, "loss": 4.079, "step": 17140 }, { "epoch": 0.035729166666666666, "grad_norm": 0.696545422077179, "learning_rate": 0.00029925702938888465, "loss": 4.1578, "step": 17150 }, { "epoch": 0.03575, "grad_norm": 0.845102071762085, "learning_rate": 0.00029925604905772313, "loss": 4.0031, "step": 17160 }, { "epoch": 0.035770833333333335, "grad_norm": 0.8604733943939209, "learning_rate": 0.0002992550680818345, "loss": 3.9297, "step": 17170 }, { "epoch": 0.035791666666666666, "grad_norm": 0.8403083682060242, "learning_rate": 0.00029925408646122316, "loss": 3.9781, "step": 17180 }, { "epoch": 0.0358125, "grad_norm": 0.8128111362457275, "learning_rate": 0.0002992531041958932, "loss": 4.0022, "step": 17190 }, { "epoch": 0.035833333333333335, "grad_norm": 0.8753374814987183, "learning_rate": 0.0002992521212858489, "loss": 4.0949, "step": 17200 }, { "epoch": 0.035854166666666666, "grad_norm": 0.8012135028839111, "learning_rate": 0.00029925113773109454, "loss": 4.0268, "step": 17210 }, { "epoch": 0.035875, "grad_norm": 0.9229749441146851, "learning_rate": 0.00029925015353163433, "loss": 3.9247, "step": 17220 }, { "epoch": 0.035895833333333335, "grad_norm": 0.8255541324615479, "learning_rate": 0.0002992491686874725, "loss": 3.9456, "step": 17230 }, { "epoch": 0.035916666666666666, "grad_norm": 0.8966618180274963, "learning_rate": 0.0002992481831986134, "loss": 4.0809, "step": 17240 }, { "epoch": 0.0359375, "grad_norm": 0.7697514295578003, "learning_rate": 0.0002992471970650612, "loss": 4.0766, "step": 17250 }, { "epoch": 0.035958333333333335, "grad_norm": 0.9949625730514526, "learning_rate": 0.00029924621028682016, "loss": 3.9723, "step": 17260 }, { "epoch": 0.035979166666666666, "grad_norm": 0.8245081901550293, "learning_rate": 0.00029924522286389456, "loss": 4.172, "step": 17270 }, { "epoch": 0.036, "grad_norm": 0.9166048765182495, "learning_rate": 0.0002992442347962887, "loss": 4.0882, "step": 17280 }, { "epoch": 0.036020833333333335, "grad_norm": 0.8413297533988953, "learning_rate": 0.00029924324608400683, "loss": 4.1594, "step": 17290 }, { "epoch": 0.036041666666666666, "grad_norm": 0.8478891253471375, "learning_rate": 0.0002992422567270532, "loss": 4.2285, "step": 17300 }, { "epoch": 0.0360625, "grad_norm": 0.8254544138908386, "learning_rate": 0.0002992412667254321, "loss": 4.0286, "step": 17310 }, { "epoch": 0.036083333333333335, "grad_norm": 0.9407104849815369, "learning_rate": 0.0002992402760791478, "loss": 3.9764, "step": 17320 }, { "epoch": 0.036104166666666666, "grad_norm": 0.7729441523551941, "learning_rate": 0.0002992392847882046, "loss": 4.192, "step": 17330 }, { "epoch": 0.036125, "grad_norm": 0.7948728203773499, "learning_rate": 0.00029923829285260676, "loss": 4.0012, "step": 17340 }, { "epoch": 0.036145833333333335, "grad_norm": 0.8187624216079712, "learning_rate": 0.0002992373002723585, "loss": 4.0948, "step": 17350 }, { "epoch": 0.036166666666666666, "grad_norm": 0.8051158785820007, "learning_rate": 0.0002992363070474642, "loss": 4.0792, "step": 17360 }, { "epoch": 0.0361875, "grad_norm": 0.8741142749786377, "learning_rate": 0.00029923531317792816, "loss": 4.0455, "step": 17370 }, { "epoch": 0.036208333333333335, "grad_norm": 0.923941433429718, "learning_rate": 0.0002992343186637547, "loss": 4.1369, "step": 17380 }, { "epoch": 0.036229166666666666, "grad_norm": 0.7342715263366699, "learning_rate": 0.0002992333235049479, "loss": 4.0837, "step": 17390 }, { "epoch": 0.03625, "grad_norm": 0.9889044165611267, "learning_rate": 0.0002992323277015123, "loss": 3.9174, "step": 17400 }, { "epoch": 0.036270833333333335, "grad_norm": 0.8009507060050964, "learning_rate": 0.00029923133125345214, "loss": 4.1974, "step": 17410 }, { "epoch": 0.036291666666666667, "grad_norm": 0.9379335641860962, "learning_rate": 0.00029923033416077164, "loss": 4.003, "step": 17420 }, { "epoch": 0.0363125, "grad_norm": 0.7982138991355896, "learning_rate": 0.0002992293364234752, "loss": 4.0089, "step": 17430 }, { "epoch": 0.036333333333333336, "grad_norm": 0.8073444962501526, "learning_rate": 0.00029922833804156714, "loss": 4.0755, "step": 17440 }, { "epoch": 0.03635416666666667, "grad_norm": 0.9774671196937561, "learning_rate": 0.00029922733901505165, "loss": 4.0084, "step": 17450 }, { "epoch": 0.036375, "grad_norm": 0.9018422365188599, "learning_rate": 0.00029922633934393315, "loss": 4.1354, "step": 17460 }, { "epoch": 0.036395833333333336, "grad_norm": 0.9321247935295105, "learning_rate": 0.00029922533902821595, "loss": 4.1484, "step": 17470 }, { "epoch": 0.03641666666666667, "grad_norm": 0.8886778950691223, "learning_rate": 0.0002992243380679043, "loss": 3.9415, "step": 17480 }, { "epoch": 0.0364375, "grad_norm": 0.831596851348877, "learning_rate": 0.0002992233364630026, "loss": 4.2244, "step": 17490 }, { "epoch": 0.036458333333333336, "grad_norm": 0.8984707593917847, "learning_rate": 0.0002992223342135152, "loss": 4.1016, "step": 17500 }, { "epoch": 0.03647916666666667, "grad_norm": 0.9435588121414185, "learning_rate": 0.00029922133131944634, "loss": 4.0101, "step": 17510 }, { "epoch": 0.0365, "grad_norm": 1.0250800848007202, "learning_rate": 0.0002992203277808004, "loss": 3.8668, "step": 17520 }, { "epoch": 0.036520833333333336, "grad_norm": 0.8414269685745239, "learning_rate": 0.0002992193235975817, "loss": 3.9304, "step": 17530 }, { "epoch": 0.03654166666666667, "grad_norm": 0.7908039093017578, "learning_rate": 0.0002992183187697946, "loss": 3.9574, "step": 17540 }, { "epoch": 0.0365625, "grad_norm": 0.9662392139434814, "learning_rate": 0.00029921731329744344, "loss": 4.1924, "step": 17550 }, { "epoch": 0.036583333333333336, "grad_norm": 0.7853904962539673, "learning_rate": 0.0002992163071805325, "loss": 4.092, "step": 17560 }, { "epoch": 0.03660416666666667, "grad_norm": 0.8106274604797363, "learning_rate": 0.0002992153004190662, "loss": 4.0854, "step": 17570 }, { "epoch": 0.036625, "grad_norm": 0.9367853403091431, "learning_rate": 0.0002992142930130489, "loss": 4.1014, "step": 17580 }, { "epoch": 0.036645833333333336, "grad_norm": 0.9035178422927856, "learning_rate": 0.000299213284962485, "loss": 3.9992, "step": 17590 }, { "epoch": 0.03666666666666667, "grad_norm": 0.8327311277389526, "learning_rate": 0.0002992122762673786, "loss": 4.0078, "step": 17600 }, { "epoch": 0.0366875, "grad_norm": 0.8424521684646606, "learning_rate": 0.00029921126692773433, "loss": 3.8943, "step": 17610 }, { "epoch": 0.036708333333333336, "grad_norm": 0.8831633925437927, "learning_rate": 0.0002992102569435564, "loss": 4.1153, "step": 17620 }, { "epoch": 0.03672916666666667, "grad_norm": 0.7973224520683289, "learning_rate": 0.00029920924631484926, "loss": 4.0758, "step": 17630 }, { "epoch": 0.03675, "grad_norm": 0.9161110520362854, "learning_rate": 0.00029920823504161716, "loss": 4.1701, "step": 17640 }, { "epoch": 0.036770833333333336, "grad_norm": 0.8322612643241882, "learning_rate": 0.0002992072231238646, "loss": 4.1645, "step": 17650 }, { "epoch": 0.03679166666666667, "grad_norm": 0.8155104517936707, "learning_rate": 0.00029920621056159593, "loss": 3.8653, "step": 17660 }, { "epoch": 0.0368125, "grad_norm": 0.7626095414161682, "learning_rate": 0.00029920519735481547, "loss": 4.1585, "step": 17670 }, { "epoch": 0.036833333333333336, "grad_norm": 0.862581729888916, "learning_rate": 0.0002992041835035276, "loss": 4.0399, "step": 17680 }, { "epoch": 0.03685416666666667, "grad_norm": 0.9299867749214172, "learning_rate": 0.0002992031690077367, "loss": 4.0202, "step": 17690 }, { "epoch": 0.036875, "grad_norm": 0.8643673062324524, "learning_rate": 0.0002992021538674472, "loss": 4.1596, "step": 17700 }, { "epoch": 0.036895833333333336, "grad_norm": 1.0663188695907593, "learning_rate": 0.00029920113808266344, "loss": 3.9553, "step": 17710 }, { "epoch": 0.03691666666666667, "grad_norm": 0.7960526347160339, "learning_rate": 0.00029920012165338984, "loss": 4.0284, "step": 17720 }, { "epoch": 0.0369375, "grad_norm": 0.9164923429489136, "learning_rate": 0.00029919910457963076, "loss": 4.1748, "step": 17730 }, { "epoch": 0.036958333333333336, "grad_norm": 0.8116590976715088, "learning_rate": 0.0002991980868613906, "loss": 4.0241, "step": 17740 }, { "epoch": 0.03697916666666667, "grad_norm": 0.8403971195220947, "learning_rate": 0.00029919706849867376, "loss": 4.0968, "step": 17750 }, { "epoch": 0.037, "grad_norm": 0.8196402788162231, "learning_rate": 0.0002991960494914846, "loss": 4.1031, "step": 17760 }, { "epoch": 0.037020833333333336, "grad_norm": 0.8030466437339783, "learning_rate": 0.00029919502983982764, "loss": 4.0138, "step": 17770 }, { "epoch": 0.03704166666666667, "grad_norm": 0.7459415793418884, "learning_rate": 0.00029919400954370716, "loss": 4.1023, "step": 17780 }, { "epoch": 0.0370625, "grad_norm": 0.8701621294021606, "learning_rate": 0.00029919298860312763, "loss": 4.032, "step": 17790 }, { "epoch": 0.037083333333333336, "grad_norm": 0.8480597138404846, "learning_rate": 0.00029919196701809345, "loss": 3.9828, "step": 17800 }, { "epoch": 0.03710416666666667, "grad_norm": 1.05820631980896, "learning_rate": 0.000299190944788609, "loss": 3.9067, "step": 17810 }, { "epoch": 0.037125, "grad_norm": 1.13596510887146, "learning_rate": 0.00029918992191467876, "loss": 4.155, "step": 17820 }, { "epoch": 0.037145833333333336, "grad_norm": 0.7410834431648254, "learning_rate": 0.0002991888983963071, "loss": 4.1258, "step": 17830 }, { "epoch": 0.03716666666666667, "grad_norm": 0.9526194334030151, "learning_rate": 0.00029918787423349844, "loss": 4.1948, "step": 17840 }, { "epoch": 0.0371875, "grad_norm": 0.7553843855857849, "learning_rate": 0.00029918684942625726, "loss": 3.9481, "step": 17850 }, { "epoch": 0.037208333333333336, "grad_norm": 1.279346227645874, "learning_rate": 0.0002991858239745879, "loss": 3.977, "step": 17860 }, { "epoch": 0.03722916666666667, "grad_norm": 0.9270862340927124, "learning_rate": 0.00029918479787849475, "loss": 4.0444, "step": 17870 }, { "epoch": 0.03725, "grad_norm": 1.1202037334442139, "learning_rate": 0.0002991837711379825, "loss": 3.9636, "step": 17880 }, { "epoch": 0.037270833333333336, "grad_norm": 1.1282846927642822, "learning_rate": 0.0002991827437530553, "loss": 3.9992, "step": 17890 }, { "epoch": 0.03729166666666667, "grad_norm": 0.9895198941230774, "learning_rate": 0.0002991817157237177, "loss": 3.9932, "step": 17900 }, { "epoch": 0.0373125, "grad_norm": 0.8551687002182007, "learning_rate": 0.0002991806870499741, "loss": 3.8968, "step": 17910 }, { "epoch": 0.037333333333333336, "grad_norm": 0.8136470913887024, "learning_rate": 0.0002991796577318291, "loss": 4.143, "step": 17920 }, { "epoch": 0.03735416666666667, "grad_norm": 0.8662888407707214, "learning_rate": 0.00029917862776928695, "loss": 3.9867, "step": 17930 }, { "epoch": 0.037375, "grad_norm": 0.7878057360649109, "learning_rate": 0.0002991775971623522, "loss": 4.0166, "step": 17940 }, { "epoch": 0.037395833333333336, "grad_norm": 0.8428813219070435, "learning_rate": 0.00029917656591102926, "loss": 3.9418, "step": 17950 }, { "epoch": 0.03741666666666667, "grad_norm": 0.9037641882896423, "learning_rate": 0.00029917553401532257, "loss": 3.9226, "step": 17960 }, { "epoch": 0.0374375, "grad_norm": 0.8467386960983276, "learning_rate": 0.0002991745014752367, "loss": 4.1006, "step": 17970 }, { "epoch": 0.03745833333333334, "grad_norm": 0.8506113290786743, "learning_rate": 0.00029917346829077597, "loss": 3.8726, "step": 17980 }, { "epoch": 0.03747916666666667, "grad_norm": 0.9531418681144714, "learning_rate": 0.000299172434461945, "loss": 4.0024, "step": 17990 }, { "epoch": 0.0375, "grad_norm": 0.7978168725967407, "learning_rate": 0.00029917139998874805, "loss": 4.0668, "step": 18000 }, { "epoch": 0.0375, "eval_loss": 4.329977989196777, "eval_runtime": 11.2845, "eval_samples_per_second": 0.886, "eval_steps_per_second": 0.266, "step": 18000 }, { "epoch": 0.03752083333333334, "grad_norm": 0.89188551902771, "learning_rate": 0.0002991703648711897, "loss": 4.0169, "step": 18010 }, { "epoch": 0.03754166666666667, "grad_norm": 0.8431882858276367, "learning_rate": 0.0002991693291092745, "loss": 3.9835, "step": 18020 }, { "epoch": 0.0375625, "grad_norm": 0.762832760810852, "learning_rate": 0.00029916829270300674, "loss": 4.0664, "step": 18030 }, { "epoch": 0.03758333333333334, "grad_norm": 0.9033599495887756, "learning_rate": 0.0002991672556523911, "loss": 4.2116, "step": 18040 }, { "epoch": 0.03760416666666667, "grad_norm": 0.9286917448043823, "learning_rate": 0.0002991662179574319, "loss": 4.0503, "step": 18050 }, { "epoch": 0.037625, "grad_norm": 0.7415966987609863, "learning_rate": 0.00029916517961813373, "loss": 4.1049, "step": 18060 }, { "epoch": 0.03764583333333334, "grad_norm": 0.8961454033851624, "learning_rate": 0.000299164140634501, "loss": 4.0114, "step": 18070 }, { "epoch": 0.03766666666666667, "grad_norm": 0.8220148682594299, "learning_rate": 0.0002991631010065382, "loss": 4.0936, "step": 18080 }, { "epoch": 0.0376875, "grad_norm": 0.9560121893882751, "learning_rate": 0.0002991620607342499, "loss": 3.9289, "step": 18090 }, { "epoch": 0.03770833333333334, "grad_norm": 0.8255181908607483, "learning_rate": 0.0002991610198176405, "loss": 4.0217, "step": 18100 }, { "epoch": 0.03772916666666667, "grad_norm": 0.7874506115913391, "learning_rate": 0.0002991599782567146, "loss": 4.0854, "step": 18110 }, { "epoch": 0.03775, "grad_norm": 0.7824701070785522, "learning_rate": 0.0002991589360514765, "loss": 4.1276, "step": 18120 }, { "epoch": 0.03777083333333333, "grad_norm": 0.8541786670684814, "learning_rate": 0.00029915789320193097, "loss": 4.2043, "step": 18130 }, { "epoch": 0.03779166666666667, "grad_norm": 0.794258713722229, "learning_rate": 0.00029915684970808234, "loss": 4.0339, "step": 18140 }, { "epoch": 0.0378125, "grad_norm": 0.9189763069152832, "learning_rate": 0.00029915580556993514, "loss": 3.9248, "step": 18150 }, { "epoch": 0.03783333333333333, "grad_norm": 0.7932783961296082, "learning_rate": 0.0002991547607874939, "loss": 4.2718, "step": 18160 }, { "epoch": 0.03785416666666667, "grad_norm": 0.8350664973258972, "learning_rate": 0.00029915371536076317, "loss": 4.044, "step": 18170 }, { "epoch": 0.037875, "grad_norm": 0.8246133327484131, "learning_rate": 0.0002991526692897474, "loss": 4.0622, "step": 18180 }, { "epoch": 0.03789583333333333, "grad_norm": 0.8944045305252075, "learning_rate": 0.00029915162257445114, "loss": 3.9538, "step": 18190 }, { "epoch": 0.03791666666666667, "grad_norm": 0.9330810904502869, "learning_rate": 0.0002991505752148789, "loss": 3.8877, "step": 18200 }, { "epoch": 0.0379375, "grad_norm": 0.8224648237228394, "learning_rate": 0.0002991495272110352, "loss": 3.8945, "step": 18210 }, { "epoch": 0.03795833333333333, "grad_norm": 0.8624475002288818, "learning_rate": 0.00029914847856292464, "loss": 4.0377, "step": 18220 }, { "epoch": 0.03797916666666667, "grad_norm": 0.8436950445175171, "learning_rate": 0.00029914742927055166, "loss": 4.0767, "step": 18230 }, { "epoch": 0.038, "grad_norm": 0.7826711535453796, "learning_rate": 0.0002991463793339208, "loss": 4.112, "step": 18240 }, { "epoch": 0.03802083333333333, "grad_norm": 0.7982813119888306, "learning_rate": 0.00029914532875303663, "loss": 4.0583, "step": 18250 }, { "epoch": 0.03804166666666667, "grad_norm": 0.7626778483390808, "learning_rate": 0.0002991442775279037, "loss": 4.0081, "step": 18260 }, { "epoch": 0.0380625, "grad_norm": 0.7969287633895874, "learning_rate": 0.0002991432256585265, "loss": 3.9837, "step": 18270 }, { "epoch": 0.03808333333333333, "grad_norm": 0.8490894436836243, "learning_rate": 0.0002991421731449096, "loss": 4.113, "step": 18280 }, { "epoch": 0.03810416666666667, "grad_norm": 0.8685401082038879, "learning_rate": 0.00029914111998705756, "loss": 4.1729, "step": 18290 }, { "epoch": 0.038125, "grad_norm": 0.8926373720169067, "learning_rate": 0.0002991400661849749, "loss": 4.1568, "step": 18300 }, { "epoch": 0.03814583333333333, "grad_norm": 0.8474584817886353, "learning_rate": 0.0002991390117386662, "loss": 4.0374, "step": 18310 }, { "epoch": 0.03816666666666667, "grad_norm": 0.7464219927787781, "learning_rate": 0.000299137956648136, "loss": 4.0927, "step": 18320 }, { "epoch": 0.0381875, "grad_norm": 1.1224325895309448, "learning_rate": 0.00029913690091338884, "loss": 3.888, "step": 18330 }, { "epoch": 0.03820833333333333, "grad_norm": 0.8654627203941345, "learning_rate": 0.0002991358445344294, "loss": 3.978, "step": 18340 }, { "epoch": 0.03822916666666667, "grad_norm": 0.805236279964447, "learning_rate": 0.000299134787511262, "loss": 4.2926, "step": 18350 }, { "epoch": 0.03825, "grad_norm": 0.8852526545524597, "learning_rate": 0.0002991337298438914, "loss": 4.0587, "step": 18360 }, { "epoch": 0.03827083333333333, "grad_norm": 0.8394462466239929, "learning_rate": 0.0002991326715323222, "loss": 4.1973, "step": 18370 }, { "epoch": 0.03829166666666667, "grad_norm": 0.9310835003852844, "learning_rate": 0.00029913161257655877, "loss": 4.086, "step": 18380 }, { "epoch": 0.0383125, "grad_norm": 0.8572797775268555, "learning_rate": 0.00029913055297660585, "loss": 4.0869, "step": 18390 }, { "epoch": 0.03833333333333333, "grad_norm": 0.8255114555358887, "learning_rate": 0.000299129492732468, "loss": 3.9834, "step": 18400 }, { "epoch": 0.03835416666666667, "grad_norm": 0.7923405766487122, "learning_rate": 0.00029912843184414975, "loss": 4.1786, "step": 18410 }, { "epoch": 0.038375, "grad_norm": 0.9362053871154785, "learning_rate": 0.00029912737031165563, "loss": 4.081, "step": 18420 }, { "epoch": 0.03839583333333333, "grad_norm": 0.7293967008590698, "learning_rate": 0.00029912630813499043, "loss": 4.0674, "step": 18430 }, { "epoch": 0.03841666666666667, "grad_norm": 0.9222938418388367, "learning_rate": 0.00029912524531415855, "loss": 4.2324, "step": 18440 }, { "epoch": 0.0384375, "grad_norm": 1.0506500005722046, "learning_rate": 0.00029912418184916464, "loss": 4.1515, "step": 18450 }, { "epoch": 0.03845833333333333, "grad_norm": 0.9396284222602844, "learning_rate": 0.00029912311774001326, "loss": 4.1479, "step": 18460 }, { "epoch": 0.03847916666666667, "grad_norm": 0.898797333240509, "learning_rate": 0.00029912205298670907, "loss": 4.115, "step": 18470 }, { "epoch": 0.0385, "grad_norm": 0.8962081074714661, "learning_rate": 0.0002991209875892566, "loss": 4.1352, "step": 18480 }, { "epoch": 0.03852083333333333, "grad_norm": 0.9243101477622986, "learning_rate": 0.0002991199215476606, "loss": 3.8898, "step": 18490 }, { "epoch": 0.03854166666666667, "grad_norm": 0.8865892291069031, "learning_rate": 0.00029911885486192546, "loss": 4.1713, "step": 18500 }, { "epoch": 0.0385625, "grad_norm": 0.7877585887908936, "learning_rate": 0.0002991177875320559, "loss": 4.0824, "step": 18510 }, { "epoch": 0.03858333333333333, "grad_norm": 0.9386928677558899, "learning_rate": 0.00029911671955805657, "loss": 4.0002, "step": 18520 }, { "epoch": 0.03860416666666667, "grad_norm": 0.7505200505256653, "learning_rate": 0.000299115650939932, "loss": 4.0505, "step": 18530 }, { "epoch": 0.038625, "grad_norm": 0.9526666402816772, "learning_rate": 0.0002991145816776869, "loss": 3.9049, "step": 18540 }, { "epoch": 0.03864583333333333, "grad_norm": 1.0136090517044067, "learning_rate": 0.0002991135117713257, "loss": 4.0518, "step": 18550 }, { "epoch": 0.03866666666666667, "grad_norm": 0.9006969332695007, "learning_rate": 0.0002991124412208533, "loss": 3.955, "step": 18560 }, { "epoch": 0.0386875, "grad_norm": 0.9038065671920776, "learning_rate": 0.00029911137002627407, "loss": 4.1199, "step": 18570 }, { "epoch": 0.03870833333333333, "grad_norm": 0.8486124873161316, "learning_rate": 0.0002991102981875928, "loss": 4.0811, "step": 18580 }, { "epoch": 0.03872916666666667, "grad_norm": 1.0298998355865479, "learning_rate": 0.00029910922570481404, "loss": 3.9936, "step": 18590 }, { "epoch": 0.03875, "grad_norm": 1.0010906457901, "learning_rate": 0.00029910815257794244, "loss": 4.1464, "step": 18600 }, { "epoch": 0.03877083333333333, "grad_norm": 0.7848183512687683, "learning_rate": 0.00029910707880698265, "loss": 4.0499, "step": 18610 }, { "epoch": 0.03879166666666667, "grad_norm": 0.8498455286026001, "learning_rate": 0.00029910600439193933, "loss": 4.0583, "step": 18620 }, { "epoch": 0.0388125, "grad_norm": 0.9235027432441711, "learning_rate": 0.00029910492933281704, "loss": 3.9502, "step": 18630 }, { "epoch": 0.03883333333333333, "grad_norm": 0.7915307283401489, "learning_rate": 0.0002991038536296205, "loss": 3.9124, "step": 18640 }, { "epoch": 0.03885416666666667, "grad_norm": 0.9006110429763794, "learning_rate": 0.00029910277728235435, "loss": 4.0343, "step": 18650 }, { "epoch": 0.038875, "grad_norm": 0.8040832281112671, "learning_rate": 0.0002991017002910232, "loss": 4.0883, "step": 18660 }, { "epoch": 0.03889583333333333, "grad_norm": 0.8139463067054749, "learning_rate": 0.0002991006226556317, "loss": 3.9423, "step": 18670 }, { "epoch": 0.03891666666666667, "grad_norm": 0.9146645069122314, "learning_rate": 0.0002990995443761846, "loss": 4.0034, "step": 18680 }, { "epoch": 0.0389375, "grad_norm": 0.8637332320213318, "learning_rate": 0.00029909846545268646, "loss": 4.0658, "step": 18690 }, { "epoch": 0.03895833333333333, "grad_norm": 0.795529305934906, "learning_rate": 0.00029909738588514194, "loss": 4.1287, "step": 18700 }, { "epoch": 0.03897916666666667, "grad_norm": 0.7612804770469666, "learning_rate": 0.0002990963056735557, "loss": 4.0551, "step": 18710 }, { "epoch": 0.039, "grad_norm": 0.8011635541915894, "learning_rate": 0.00029909522481793254, "loss": 3.9135, "step": 18720 }, { "epoch": 0.03902083333333333, "grad_norm": 0.8500843048095703, "learning_rate": 0.00029909414331827697, "loss": 4.2049, "step": 18730 }, { "epoch": 0.03904166666666667, "grad_norm": 0.86812424659729, "learning_rate": 0.00029909306117459366, "loss": 4.1068, "step": 18740 }, { "epoch": 0.0390625, "grad_norm": 0.9230269193649292, "learning_rate": 0.0002990919783868874, "loss": 4.0994, "step": 18750 }, { "epoch": 0.03908333333333333, "grad_norm": 0.8421009182929993, "learning_rate": 0.0002990908949551628, "loss": 4.0894, "step": 18760 }, { "epoch": 0.03910416666666667, "grad_norm": 0.8920373320579529, "learning_rate": 0.00029908981087942453, "loss": 4.0574, "step": 18770 }, { "epoch": 0.039125, "grad_norm": 0.7673577070236206, "learning_rate": 0.0002990887261596773, "loss": 4.0279, "step": 18780 }, { "epoch": 0.03914583333333333, "grad_norm": 0.7957242727279663, "learning_rate": 0.0002990876407959258, "loss": 3.988, "step": 18790 }, { "epoch": 0.03916666666666667, "grad_norm": 0.9724499583244324, "learning_rate": 0.0002990865547881747, "loss": 4.226, "step": 18800 }, { "epoch": 0.0391875, "grad_norm": 0.8133620023727417, "learning_rate": 0.00029908546813642864, "loss": 4.0273, "step": 18810 }, { "epoch": 0.03920833333333333, "grad_norm": 0.8466202020645142, "learning_rate": 0.0002990843808406925, "loss": 4.112, "step": 18820 }, { "epoch": 0.03922916666666667, "grad_norm": 0.7579261064529419, "learning_rate": 0.00029908329290097074, "loss": 4.045, "step": 18830 }, { "epoch": 0.03925, "grad_norm": 0.9687149524688721, "learning_rate": 0.0002990822043172682, "loss": 4.051, "step": 18840 }, { "epoch": 0.03927083333333333, "grad_norm": 0.7535285353660583, "learning_rate": 0.00029908111508958953, "loss": 4.1092, "step": 18850 }, { "epoch": 0.03929166666666667, "grad_norm": 0.796410083770752, "learning_rate": 0.00029908002521793946, "loss": 4.045, "step": 18860 }, { "epoch": 0.0393125, "grad_norm": 0.8584465384483337, "learning_rate": 0.0002990789347023227, "loss": 4.0383, "step": 18870 }, { "epoch": 0.03933333333333333, "grad_norm": 0.8105795383453369, "learning_rate": 0.000299077843542744, "loss": 4.0037, "step": 18880 }, { "epoch": 0.03935416666666667, "grad_norm": 0.8511812090873718, "learning_rate": 0.00029907675173920795, "loss": 4.1038, "step": 18890 }, { "epoch": 0.039375, "grad_norm": 0.7357218861579895, "learning_rate": 0.0002990756592917193, "loss": 4.0421, "step": 18900 }, { "epoch": 0.03939583333333333, "grad_norm": 0.8205394148826599, "learning_rate": 0.00029907456620028287, "loss": 4.0321, "step": 18910 }, { "epoch": 0.03941666666666667, "grad_norm": 0.8561420440673828, "learning_rate": 0.00029907347246490337, "loss": 4.1758, "step": 18920 }, { "epoch": 0.0394375, "grad_norm": 0.9624341726303101, "learning_rate": 0.0002990723780855854, "loss": 4.2025, "step": 18930 }, { "epoch": 0.03945833333333333, "grad_norm": 0.9427738785743713, "learning_rate": 0.00029907128306233386, "loss": 4.2542, "step": 18940 }, { "epoch": 0.03947916666666667, "grad_norm": 0.9757403135299683, "learning_rate": 0.0002990701873951533, "loss": 4.1038, "step": 18950 }, { "epoch": 0.0395, "grad_norm": 0.9808940291404724, "learning_rate": 0.00029906909108404857, "loss": 4.0875, "step": 18960 }, { "epoch": 0.03952083333333333, "grad_norm": 1.2218230962753296, "learning_rate": 0.00029906799412902436, "loss": 3.8337, "step": 18970 }, { "epoch": 0.03954166666666667, "grad_norm": 0.9045658111572266, "learning_rate": 0.0002990668965300854, "loss": 3.9948, "step": 18980 }, { "epoch": 0.0395625, "grad_norm": 0.9830717444419861, "learning_rate": 0.0002990657982872365, "loss": 3.9738, "step": 18990 }, { "epoch": 0.03958333333333333, "grad_norm": 0.7774221301078796, "learning_rate": 0.0002990646994004823, "loss": 4.1336, "step": 19000 }, { "epoch": 0.03958333333333333, "eval_loss": 4.341280460357666, "eval_runtime": 10.6438, "eval_samples_per_second": 0.94, "eval_steps_per_second": 0.282, "step": 19000 }, { "epoch": 0.03960416666666667, "grad_norm": 0.9579519033432007, "learning_rate": 0.00029906359986982766, "loss": 4.0295, "step": 19010 }, { "epoch": 0.039625, "grad_norm": 0.8091082572937012, "learning_rate": 0.0002990624996952772, "loss": 3.9964, "step": 19020 }, { "epoch": 0.03964583333333333, "grad_norm": 0.9176852703094482, "learning_rate": 0.0002990613988768358, "loss": 4.0226, "step": 19030 }, { "epoch": 0.03966666666666667, "grad_norm": 0.8329704403877258, "learning_rate": 0.00029906029741450814, "loss": 3.8441, "step": 19040 }, { "epoch": 0.0396875, "grad_norm": 0.9402167797088623, "learning_rate": 0.000299059195308299, "loss": 4.0174, "step": 19050 }, { "epoch": 0.03970833333333333, "grad_norm": 0.7524610161781311, "learning_rate": 0.00029905809255821315, "loss": 3.8213, "step": 19060 }, { "epoch": 0.03972916666666667, "grad_norm": 0.802990734577179, "learning_rate": 0.0002990569891642553, "loss": 4.1643, "step": 19070 }, { "epoch": 0.03975, "grad_norm": 0.7742749452590942, "learning_rate": 0.0002990558851264303, "loss": 3.973, "step": 19080 }, { "epoch": 0.03977083333333333, "grad_norm": 0.8257986307144165, "learning_rate": 0.0002990547804447429, "loss": 3.9735, "step": 19090 }, { "epoch": 0.03979166666666667, "grad_norm": 1.0188935995101929, "learning_rate": 0.00029905367511919777, "loss": 4.119, "step": 19100 }, { "epoch": 0.0398125, "grad_norm": 0.8712319135665894, "learning_rate": 0.00029905256914979984, "loss": 4.0557, "step": 19110 }, { "epoch": 0.03983333333333333, "grad_norm": 0.790169894695282, "learning_rate": 0.00029905146253655376, "loss": 3.9663, "step": 19120 }, { "epoch": 0.03985416666666667, "grad_norm": 0.7941786646842957, "learning_rate": 0.0002990503552794644, "loss": 4.1641, "step": 19130 }, { "epoch": 0.039875, "grad_norm": 0.7915155291557312, "learning_rate": 0.00029904924737853645, "loss": 4.0691, "step": 19140 }, { "epoch": 0.03989583333333333, "grad_norm": 0.8612808585166931, "learning_rate": 0.0002990481388337748, "loss": 4.2411, "step": 19150 }, { "epoch": 0.03991666666666667, "grad_norm": 0.8533260226249695, "learning_rate": 0.0002990470296451842, "loss": 4.0003, "step": 19160 }, { "epoch": 0.0399375, "grad_norm": 0.7836639881134033, "learning_rate": 0.00029904591981276936, "loss": 3.9807, "step": 19170 }, { "epoch": 0.03995833333333333, "grad_norm": 0.8117405772209167, "learning_rate": 0.0002990448093365352, "loss": 4.0027, "step": 19180 }, { "epoch": 0.03997916666666667, "grad_norm": 0.9094319343566895, "learning_rate": 0.00029904369821648645, "loss": 3.9399, "step": 19190 }, { "epoch": 0.04, "grad_norm": 0.8511267304420471, "learning_rate": 0.0002990425864526279, "loss": 3.9751, "step": 19200 }, { "epoch": 0.04002083333333333, "grad_norm": 0.8012973070144653, "learning_rate": 0.00029904147404496436, "loss": 4.2045, "step": 19210 }, { "epoch": 0.04004166666666667, "grad_norm": 0.8121950030326843, "learning_rate": 0.00029904036099350065, "loss": 4.0326, "step": 19220 }, { "epoch": 0.0400625, "grad_norm": 0.9457129836082458, "learning_rate": 0.00029903924729824164, "loss": 3.8929, "step": 19230 }, { "epoch": 0.04008333333333333, "grad_norm": 0.8939108848571777, "learning_rate": 0.000299038132959192, "loss": 4.0577, "step": 19240 }, { "epoch": 0.04010416666666667, "grad_norm": 0.9702565670013428, "learning_rate": 0.00029903701797635667, "loss": 4.0625, "step": 19250 }, { "epoch": 0.040125, "grad_norm": 0.8929636478424072, "learning_rate": 0.00029903590234974035, "loss": 3.8455, "step": 19260 }, { "epoch": 0.04014583333333333, "grad_norm": 0.770983099937439, "learning_rate": 0.000299034786079348, "loss": 3.9727, "step": 19270 }, { "epoch": 0.04016666666666667, "grad_norm": 0.7728239893913269, "learning_rate": 0.0002990336691651843, "loss": 4.1381, "step": 19280 }, { "epoch": 0.0401875, "grad_norm": 0.9467799067497253, "learning_rate": 0.0002990325516072542, "loss": 3.8386, "step": 19290 }, { "epoch": 0.04020833333333333, "grad_norm": 0.7413394451141357, "learning_rate": 0.0002990314334055625, "loss": 4.0526, "step": 19300 }, { "epoch": 0.04022916666666667, "grad_norm": 0.8904475569725037, "learning_rate": 0.0002990303145601139, "loss": 4.0035, "step": 19310 }, { "epoch": 0.04025, "grad_norm": 0.9265841245651245, "learning_rate": 0.0002990291950709134, "loss": 3.9815, "step": 19320 }, { "epoch": 0.04027083333333333, "grad_norm": 0.8558010458946228, "learning_rate": 0.0002990280749379657, "loss": 4.1903, "step": 19330 }, { "epoch": 0.04029166666666667, "grad_norm": 0.854515552520752, "learning_rate": 0.0002990269541612757, "loss": 4.0478, "step": 19340 }, { "epoch": 0.0403125, "grad_norm": 0.7501394152641296, "learning_rate": 0.0002990258327408483, "loss": 3.8788, "step": 19350 }, { "epoch": 0.04033333333333333, "grad_norm": 0.8303591012954712, "learning_rate": 0.0002990247106766883, "loss": 4.1537, "step": 19360 }, { "epoch": 0.04035416666666667, "grad_norm": 0.8489549160003662, "learning_rate": 0.00029902358796880053, "loss": 3.9616, "step": 19370 }, { "epoch": 0.040375, "grad_norm": 0.9887664318084717, "learning_rate": 0.0002990224646171898, "loss": 4.0038, "step": 19380 }, { "epoch": 0.04039583333333333, "grad_norm": 0.9427640438079834, "learning_rate": 0.0002990213406218611, "loss": 4.1949, "step": 19390 }, { "epoch": 0.04041666666666666, "grad_norm": 0.9842920303344727, "learning_rate": 0.00029902021598281913, "loss": 4.0348, "step": 19400 }, { "epoch": 0.0404375, "grad_norm": 0.932799220085144, "learning_rate": 0.00029901909070006885, "loss": 4.0667, "step": 19410 }, { "epoch": 0.04045833333333333, "grad_norm": 0.9740130305290222, "learning_rate": 0.00029901796477361506, "loss": 4.0779, "step": 19420 }, { "epoch": 0.04047916666666666, "grad_norm": 0.8243486881256104, "learning_rate": 0.0002990168382034626, "loss": 4.0661, "step": 19430 }, { "epoch": 0.0405, "grad_norm": 0.8936859965324402, "learning_rate": 0.0002990157109896165, "loss": 4.1681, "step": 19440 }, { "epoch": 0.04052083333333333, "grad_norm": 0.7526562809944153, "learning_rate": 0.0002990145831320814, "loss": 4.0743, "step": 19450 }, { "epoch": 0.04054166666666666, "grad_norm": 0.9612098336219788, "learning_rate": 0.0002990134546308623, "loss": 4.0618, "step": 19460 }, { "epoch": 0.0405625, "grad_norm": 0.8145372271537781, "learning_rate": 0.00029901232548596417, "loss": 4.0131, "step": 19470 }, { "epoch": 0.04058333333333333, "grad_norm": 0.7904540300369263, "learning_rate": 0.00029901119569739163, "loss": 4.029, "step": 19480 }, { "epoch": 0.04060416666666666, "grad_norm": 0.895660936832428, "learning_rate": 0.0002990100652651498, "loss": 4.0449, "step": 19490 }, { "epoch": 0.040625, "grad_norm": 0.774512529373169, "learning_rate": 0.00029900893418924345, "loss": 4.1697, "step": 19500 }, { "epoch": 0.04064583333333333, "grad_norm": 0.7943359017372131, "learning_rate": 0.00029900780246967746, "loss": 4.0913, "step": 19510 }, { "epoch": 0.04066666666666666, "grad_norm": 0.9477747678756714, "learning_rate": 0.0002990066701064568, "loss": 4.1187, "step": 19520 }, { "epoch": 0.0406875, "grad_norm": 0.7964714169502258, "learning_rate": 0.00029900553709958624, "loss": 4.0871, "step": 19530 }, { "epoch": 0.04070833333333333, "grad_norm": 0.9286220669746399, "learning_rate": 0.0002990044034490708, "loss": 3.9705, "step": 19540 }, { "epoch": 0.040729166666666664, "grad_norm": 0.8784612417221069, "learning_rate": 0.00029900326915491526, "loss": 4.2264, "step": 19550 }, { "epoch": 0.04075, "grad_norm": 0.9004016518592834, "learning_rate": 0.0002990021342171246, "loss": 4.134, "step": 19560 }, { "epoch": 0.04077083333333333, "grad_norm": 0.7956963181495667, "learning_rate": 0.0002990009986357037, "loss": 4.0411, "step": 19570 }, { "epoch": 0.040791666666666664, "grad_norm": 0.8759351372718811, "learning_rate": 0.0002989998624106575, "loss": 3.9668, "step": 19580 }, { "epoch": 0.0408125, "grad_norm": 0.7882117033004761, "learning_rate": 0.0002989987255419908, "loss": 3.9748, "step": 19590 }, { "epoch": 0.04083333333333333, "grad_norm": 0.7675451040267944, "learning_rate": 0.00029899758802970865, "loss": 3.9407, "step": 19600 }, { "epoch": 0.040854166666666664, "grad_norm": 0.8273264765739441, "learning_rate": 0.0002989964498738159, "loss": 3.9075, "step": 19610 }, { "epoch": 0.040875, "grad_norm": 0.8595001101493835, "learning_rate": 0.00029899531107431743, "loss": 4.2709, "step": 19620 }, { "epoch": 0.04089583333333333, "grad_norm": 0.7630137205123901, "learning_rate": 0.0002989941716312182, "loss": 4.1199, "step": 19630 }, { "epoch": 0.040916666666666664, "grad_norm": 0.8992254734039307, "learning_rate": 0.00029899303154452307, "loss": 3.9466, "step": 19640 }, { "epoch": 0.0409375, "grad_norm": 0.8261836171150208, "learning_rate": 0.0002989918908142371, "loss": 4.0807, "step": 19650 }, { "epoch": 0.04095833333333333, "grad_norm": 0.8630461096763611, "learning_rate": 0.00029899074944036514, "loss": 4.0508, "step": 19660 }, { "epoch": 0.040979166666666664, "grad_norm": 0.8429964184761047, "learning_rate": 0.00029898960742291204, "loss": 4.0517, "step": 19670 }, { "epoch": 0.041, "grad_norm": 0.842780590057373, "learning_rate": 0.0002989884647618829, "loss": 3.9959, "step": 19680 }, { "epoch": 0.04102083333333333, "grad_norm": 0.8531880974769592, "learning_rate": 0.0002989873214572825, "loss": 4.0766, "step": 19690 }, { "epoch": 0.041041666666666664, "grad_norm": 0.8812277913093567, "learning_rate": 0.00029898617750911586, "loss": 4.0027, "step": 19700 }, { "epoch": 0.0410625, "grad_norm": 0.9288310408592224, "learning_rate": 0.00029898503291738793, "loss": 4.0754, "step": 19710 }, { "epoch": 0.04108333333333333, "grad_norm": 0.7201988101005554, "learning_rate": 0.0002989838876821036, "loss": 3.9664, "step": 19720 }, { "epoch": 0.041104166666666664, "grad_norm": 0.8363280296325684, "learning_rate": 0.0002989827418032679, "loss": 3.9896, "step": 19730 }, { "epoch": 0.041125, "grad_norm": 0.8436617851257324, "learning_rate": 0.0002989815952808857, "loss": 3.961, "step": 19740 }, { "epoch": 0.04114583333333333, "grad_norm": 0.7581911087036133, "learning_rate": 0.0002989804481149619, "loss": 3.973, "step": 19750 }, { "epoch": 0.041166666666666664, "grad_norm": 0.9866726994514465, "learning_rate": 0.0002989793003055016, "loss": 3.9393, "step": 19760 }, { "epoch": 0.0411875, "grad_norm": 0.8931960463523865, "learning_rate": 0.0002989781518525097, "loss": 4.1512, "step": 19770 }, { "epoch": 0.04120833333333333, "grad_norm": 0.8303420543670654, "learning_rate": 0.00029897700275599115, "loss": 3.9041, "step": 19780 }, { "epoch": 0.041229166666666664, "grad_norm": 0.8282143473625183, "learning_rate": 0.00029897585301595094, "loss": 4.0572, "step": 19790 }, { "epoch": 0.04125, "grad_norm": 0.8140398263931274, "learning_rate": 0.00029897470263239397, "loss": 3.8685, "step": 19800 }, { "epoch": 0.04127083333333333, "grad_norm": 0.8276671171188354, "learning_rate": 0.0002989735516053253, "loss": 4.214, "step": 19810 }, { "epoch": 0.041291666666666664, "grad_norm": 0.8132264614105225, "learning_rate": 0.0002989723999347498, "loss": 4.1084, "step": 19820 }, { "epoch": 0.0413125, "grad_norm": 0.8550259470939636, "learning_rate": 0.00029897124762067254, "loss": 3.9829, "step": 19830 }, { "epoch": 0.04133333333333333, "grad_norm": 0.8192998766899109, "learning_rate": 0.00029897009466309845, "loss": 4.0238, "step": 19840 }, { "epoch": 0.041354166666666664, "grad_norm": 0.8596383929252625, "learning_rate": 0.0002989689410620325, "loss": 4.0818, "step": 19850 }, { "epoch": 0.041375, "grad_norm": 0.8116164803504944, "learning_rate": 0.0002989677868174797, "loss": 4.0884, "step": 19860 }, { "epoch": 0.04139583333333333, "grad_norm": 0.7821484804153442, "learning_rate": 0.00029896663192944503, "loss": 4.0213, "step": 19870 }, { "epoch": 0.041416666666666664, "grad_norm": 0.8388898968696594, "learning_rate": 0.00029896547639793347, "loss": 4.1012, "step": 19880 }, { "epoch": 0.0414375, "grad_norm": 0.8078532218933105, "learning_rate": 0.00029896432022295, "loss": 3.987, "step": 19890 }, { "epoch": 0.04145833333333333, "grad_norm": 0.7909790873527527, "learning_rate": 0.0002989631634044997, "loss": 4.0759, "step": 19900 }, { "epoch": 0.041479166666666664, "grad_norm": 0.87013179063797, "learning_rate": 0.0002989620059425874, "loss": 4.0145, "step": 19910 }, { "epoch": 0.0415, "grad_norm": 0.9134252071380615, "learning_rate": 0.00029896084783721826, "loss": 4.2776, "step": 19920 }, { "epoch": 0.04152083333333333, "grad_norm": 0.8537418842315674, "learning_rate": 0.00029895968908839725, "loss": 3.9478, "step": 19930 }, { "epoch": 0.041541666666666664, "grad_norm": 0.7740315198898315, "learning_rate": 0.0002989585296961293, "loss": 3.9771, "step": 19940 }, { "epoch": 0.0415625, "grad_norm": 0.9200629591941833, "learning_rate": 0.0002989573696604194, "loss": 3.8804, "step": 19950 }, { "epoch": 0.04158333333333333, "grad_norm": 0.8819804787635803, "learning_rate": 0.00029895620898127273, "loss": 3.979, "step": 19960 }, { "epoch": 0.041604166666666664, "grad_norm": 0.7973604202270508, "learning_rate": 0.00029895504765869416, "loss": 4.0228, "step": 19970 }, { "epoch": 0.041625, "grad_norm": 0.7860952019691467, "learning_rate": 0.00029895388569268875, "loss": 4.1862, "step": 19980 }, { "epoch": 0.04164583333333333, "grad_norm": 0.7795244455337524, "learning_rate": 0.0002989527230832615, "loss": 4.0954, "step": 19990 }, { "epoch": 0.041666666666666664, "grad_norm": 0.8634036779403687, "learning_rate": 0.0002989515598304175, "loss": 4.0671, "step": 20000 }, { "epoch": 0.041666666666666664, "eval_loss": 4.356691837310791, "eval_runtime": 9.3469, "eval_samples_per_second": 1.07, "eval_steps_per_second": 0.321, "step": 20000 }, { "epoch": 0.0416875, "grad_norm": 0.8759312629699707, "learning_rate": 0.0002989503959341616, "loss": 3.9117, "step": 20010 }, { "epoch": 0.04170833333333333, "grad_norm": 0.7715888023376465, "learning_rate": 0.00029894923139449906, "loss": 4.0521, "step": 20020 }, { "epoch": 0.041729166666666664, "grad_norm": 0.8118507266044617, "learning_rate": 0.00029894806621143477, "loss": 4.0882, "step": 20030 }, { "epoch": 0.04175, "grad_norm": 0.8489455580711365, "learning_rate": 0.00029894690038497374, "loss": 4.0879, "step": 20040 }, { "epoch": 0.04177083333333333, "grad_norm": 0.7553942799568176, "learning_rate": 0.0002989457339151211, "loss": 4.2581, "step": 20050 }, { "epoch": 0.041791666666666664, "grad_norm": 0.7601281404495239, "learning_rate": 0.00029894456680188184, "loss": 4.0657, "step": 20060 }, { "epoch": 0.0418125, "grad_norm": 0.8257625102996826, "learning_rate": 0.000298943399045261, "loss": 4.1645, "step": 20070 }, { "epoch": 0.041833333333333333, "grad_norm": 0.9124462604522705, "learning_rate": 0.00029894223064526364, "loss": 4.0896, "step": 20080 }, { "epoch": 0.041854166666666665, "grad_norm": 0.7645278573036194, "learning_rate": 0.0002989410616018948, "loss": 3.9214, "step": 20090 }, { "epoch": 0.041875, "grad_norm": 0.7650265097618103, "learning_rate": 0.00029893989191515953, "loss": 3.9849, "step": 20100 }, { "epoch": 0.041895833333333334, "grad_norm": 0.8830063343048096, "learning_rate": 0.0002989387215850629, "loss": 4.0202, "step": 20110 }, { "epoch": 0.041916666666666665, "grad_norm": 0.9637686610221863, "learning_rate": 0.00029893755061160995, "loss": 3.9164, "step": 20120 }, { "epoch": 0.0419375, "grad_norm": 0.7511094212532043, "learning_rate": 0.0002989363789948057, "loss": 4.1804, "step": 20130 }, { "epoch": 0.041958333333333334, "grad_norm": 0.8582311272621155, "learning_rate": 0.0002989352067346553, "loss": 3.8717, "step": 20140 }, { "epoch": 0.041979166666666665, "grad_norm": 0.8694915175437927, "learning_rate": 0.0002989340338311637, "loss": 4.1398, "step": 20150 }, { "epoch": 0.042, "grad_norm": 0.9513646960258484, "learning_rate": 0.0002989328602843361, "loss": 4.0545, "step": 20160 }, { "epoch": 0.042020833333333334, "grad_norm": 0.8045638799667358, "learning_rate": 0.00029893168609417735, "loss": 3.9002, "step": 20170 }, { "epoch": 0.042041666666666665, "grad_norm": 0.8433430790901184, "learning_rate": 0.0002989305112606928, "loss": 4.1201, "step": 20180 }, { "epoch": 0.0420625, "grad_norm": 0.9190186858177185, "learning_rate": 0.0002989293357838874, "loss": 3.9669, "step": 20190 }, { "epoch": 0.042083333333333334, "grad_norm": 0.8294636607170105, "learning_rate": 0.0002989281596637661, "loss": 4.0941, "step": 20200 }, { "epoch": 0.042104166666666665, "grad_norm": 0.7841537594795227, "learning_rate": 0.0002989269829003342, "loss": 3.9028, "step": 20210 }, { "epoch": 0.042125, "grad_norm": 0.8012672662734985, "learning_rate": 0.00029892580549359664, "loss": 4.0301, "step": 20220 }, { "epoch": 0.042145833333333334, "grad_norm": 0.7876178026199341, "learning_rate": 0.00029892462744355853, "loss": 4.0458, "step": 20230 }, { "epoch": 0.042166666666666665, "grad_norm": 0.8605347275733948, "learning_rate": 0.00029892344875022506, "loss": 4.1663, "step": 20240 }, { "epoch": 0.0421875, "grad_norm": 0.808997392654419, "learning_rate": 0.0002989222694136012, "loss": 4.1925, "step": 20250 }, { "epoch": 0.042208333333333334, "grad_norm": 0.9098405838012695, "learning_rate": 0.00029892108943369207, "loss": 4.1443, "step": 20260 }, { "epoch": 0.042229166666666665, "grad_norm": 1.0289746522903442, "learning_rate": 0.0002989199088105028, "loss": 4.0824, "step": 20270 }, { "epoch": 0.04225, "grad_norm": 1.152687668800354, "learning_rate": 0.00029891872754403843, "loss": 4.1575, "step": 20280 }, { "epoch": 0.042270833333333334, "grad_norm": 0.9322471618652344, "learning_rate": 0.0002989175456343041, "loss": 3.8919, "step": 20290 }, { "epoch": 0.042291666666666665, "grad_norm": 0.8055235147476196, "learning_rate": 0.00029891636308130497, "loss": 3.9307, "step": 20300 }, { "epoch": 0.0423125, "grad_norm": 0.8612207770347595, "learning_rate": 0.0002989151798850461, "loss": 3.8903, "step": 20310 }, { "epoch": 0.042333333333333334, "grad_norm": 0.8071341514587402, "learning_rate": 0.00029891399604553255, "loss": 4.1545, "step": 20320 }, { "epoch": 0.042354166666666665, "grad_norm": 0.8333863019943237, "learning_rate": 0.00029891281156276954, "loss": 4.1198, "step": 20330 }, { "epoch": 0.042375, "grad_norm": 0.9973903298377991, "learning_rate": 0.0002989116264367621, "loss": 4.0832, "step": 20340 }, { "epoch": 0.042395833333333334, "grad_norm": 0.91508549451828, "learning_rate": 0.00029891044066751533, "loss": 3.9209, "step": 20350 }, { "epoch": 0.042416666666666665, "grad_norm": 0.8464558720588684, "learning_rate": 0.00029890925425503443, "loss": 4.1249, "step": 20360 }, { "epoch": 0.0424375, "grad_norm": 0.9107999205589294, "learning_rate": 0.0002989080671993245, "loss": 3.9123, "step": 20370 }, { "epoch": 0.042458333333333334, "grad_norm": 0.8324167132377625, "learning_rate": 0.0002989068795003907, "loss": 4.1045, "step": 20380 }, { "epoch": 0.042479166666666665, "grad_norm": 1.1924091577529907, "learning_rate": 0.0002989056911582381, "loss": 4.1479, "step": 20390 }, { "epoch": 0.0425, "grad_norm": 0.7891703844070435, "learning_rate": 0.0002989045021728718, "loss": 3.8278, "step": 20400 }, { "epoch": 0.042520833333333334, "grad_norm": 0.9066067337989807, "learning_rate": 0.000298903312544297, "loss": 3.8816, "step": 20410 }, { "epoch": 0.042541666666666665, "grad_norm": 0.7761522531509399, "learning_rate": 0.0002989021222725189, "loss": 4.0225, "step": 20420 }, { "epoch": 0.0425625, "grad_norm": 0.7034361958503723, "learning_rate": 0.0002989009313575426, "loss": 3.9949, "step": 20430 }, { "epoch": 0.042583333333333334, "grad_norm": 0.8663376569747925, "learning_rate": 0.00029889973979937306, "loss": 3.9422, "step": 20440 }, { "epoch": 0.042604166666666665, "grad_norm": 0.8308099508285522, "learning_rate": 0.0002988985475980157, "loss": 4.1418, "step": 20450 }, { "epoch": 0.042625, "grad_norm": 0.8246246576309204, "learning_rate": 0.0002988973547534755, "loss": 4.1612, "step": 20460 }, { "epoch": 0.042645833333333334, "grad_norm": 0.8274480700492859, "learning_rate": 0.00029889616126575774, "loss": 4.0601, "step": 20470 }, { "epoch": 0.042666666666666665, "grad_norm": 0.8237221837043762, "learning_rate": 0.00029889496713486743, "loss": 4.0561, "step": 20480 }, { "epoch": 0.0426875, "grad_norm": 0.8102717399597168, "learning_rate": 0.0002988937723608098, "loss": 4.0598, "step": 20490 }, { "epoch": 0.042708333333333334, "grad_norm": 0.8775338530540466, "learning_rate": 0.00029889257694359005, "loss": 3.978, "step": 20500 }, { "epoch": 0.042729166666666665, "grad_norm": 0.9087735414505005, "learning_rate": 0.0002988913808832133, "loss": 3.9511, "step": 20510 }, { "epoch": 0.04275, "grad_norm": 0.8823198080062866, "learning_rate": 0.00029889018417968464, "loss": 4.1523, "step": 20520 }, { "epoch": 0.042770833333333334, "grad_norm": 0.7123168110847473, "learning_rate": 0.0002988889868330094, "loss": 4.2501, "step": 20530 }, { "epoch": 0.042791666666666665, "grad_norm": 0.838696300983429, "learning_rate": 0.00029888778884319266, "loss": 4.2978, "step": 20540 }, { "epoch": 0.0428125, "grad_norm": 0.8302586674690247, "learning_rate": 0.0002988865902102396, "loss": 4.1594, "step": 20550 }, { "epoch": 0.042833333333333334, "grad_norm": 0.7455853223800659, "learning_rate": 0.0002988853909341554, "loss": 3.9102, "step": 20560 }, { "epoch": 0.042854166666666665, "grad_norm": 0.8502945899963379, "learning_rate": 0.00029888419101494526, "loss": 4.2051, "step": 20570 }, { "epoch": 0.042875, "grad_norm": 0.9518006443977356, "learning_rate": 0.0002988829904526143, "loss": 4.1166, "step": 20580 }, { "epoch": 0.042895833333333334, "grad_norm": 0.9034779667854309, "learning_rate": 0.0002988817892471678, "loss": 4.0879, "step": 20590 }, { "epoch": 0.042916666666666665, "grad_norm": 0.85948246717453, "learning_rate": 0.00029888058739861094, "loss": 4.3566, "step": 20600 }, { "epoch": 0.0429375, "grad_norm": 0.9593669772148132, "learning_rate": 0.0002988793849069488, "loss": 3.9918, "step": 20610 }, { "epoch": 0.042958333333333334, "grad_norm": 0.8105344176292419, "learning_rate": 0.00029887818177218664, "loss": 4.051, "step": 20620 }, { "epoch": 0.042979166666666666, "grad_norm": 0.7919904589653015, "learning_rate": 0.00029887697799432973, "loss": 3.9889, "step": 20630 }, { "epoch": 0.043, "grad_norm": 0.7364378571510315, "learning_rate": 0.0002988757735733831, "loss": 4.1475, "step": 20640 }, { "epoch": 0.043020833333333335, "grad_norm": 0.9468852281570435, "learning_rate": 0.0002988745685093522, "loss": 3.9732, "step": 20650 }, { "epoch": 0.043041666666666666, "grad_norm": 0.7278488278388977, "learning_rate": 0.000298873362802242, "loss": 3.9801, "step": 20660 }, { "epoch": 0.0430625, "grad_norm": 0.8633148670196533, "learning_rate": 0.00029887215645205785, "loss": 3.9939, "step": 20670 }, { "epoch": 0.043083333333333335, "grad_norm": 0.7592607140541077, "learning_rate": 0.00029887094945880483, "loss": 4.1462, "step": 20680 }, { "epoch": 0.043104166666666666, "grad_norm": 0.9357673525810242, "learning_rate": 0.0002988697418224883, "loss": 4.2028, "step": 20690 }, { "epoch": 0.043125, "grad_norm": 0.7456374168395996, "learning_rate": 0.0002988685335431134, "loss": 4.0889, "step": 20700 }, { "epoch": 0.043145833333333335, "grad_norm": 0.8095307350158691, "learning_rate": 0.00029886732462068534, "loss": 4.0449, "step": 20710 }, { "epoch": 0.043166666666666666, "grad_norm": 0.8302525877952576, "learning_rate": 0.0002988661150552094, "loss": 4.1706, "step": 20720 }, { "epoch": 0.0431875, "grad_norm": 0.8823374509811401, "learning_rate": 0.00029886490484669077, "loss": 4.0623, "step": 20730 }, { "epoch": 0.043208333333333335, "grad_norm": 0.8972064852714539, "learning_rate": 0.00029886369399513465, "loss": 3.984, "step": 20740 }, { "epoch": 0.043229166666666666, "grad_norm": 0.7620996832847595, "learning_rate": 0.0002988624825005463, "loss": 4.028, "step": 20750 }, { "epoch": 0.04325, "grad_norm": 0.7509312033653259, "learning_rate": 0.000298861270362931, "loss": 3.9502, "step": 20760 }, { "epoch": 0.043270833333333335, "grad_norm": 1.1475015878677368, "learning_rate": 0.0002988600575822938, "loss": 3.975, "step": 20770 }, { "epoch": 0.043291666666666666, "grad_norm": 0.8252683877944946, "learning_rate": 0.0002988588441586402, "loss": 4.1735, "step": 20780 }, { "epoch": 0.0433125, "grad_norm": 0.8755101561546326, "learning_rate": 0.00029885763009197526, "loss": 4.0033, "step": 20790 }, { "epoch": 0.043333333333333335, "grad_norm": 0.9288033246994019, "learning_rate": 0.0002988564153823043, "loss": 4.0037, "step": 20800 }, { "epoch": 0.043354166666666666, "grad_norm": 0.9187635779380798, "learning_rate": 0.00029885520002963256, "loss": 4.0188, "step": 20810 }, { "epoch": 0.043375, "grad_norm": 0.8449559211730957, "learning_rate": 0.0002988539840339653, "loss": 4.0035, "step": 20820 }, { "epoch": 0.043395833333333335, "grad_norm": 0.9719502925872803, "learning_rate": 0.0002988527673953077, "loss": 3.9277, "step": 20830 }, { "epoch": 0.043416666666666666, "grad_norm": 0.8123107552528381, "learning_rate": 0.00029885155011366506, "loss": 3.9122, "step": 20840 }, { "epoch": 0.0434375, "grad_norm": 0.9114618897438049, "learning_rate": 0.00029885033218904263, "loss": 4.028, "step": 20850 }, { "epoch": 0.043458333333333335, "grad_norm": 0.9195820093154907, "learning_rate": 0.00029884911362144576, "loss": 3.9208, "step": 20860 }, { "epoch": 0.043479166666666666, "grad_norm": 0.8139805793762207, "learning_rate": 0.0002988478944108796, "loss": 4.1397, "step": 20870 }, { "epoch": 0.0435, "grad_norm": 0.8421893119812012, "learning_rate": 0.0002988466745573494, "loss": 4.0376, "step": 20880 }, { "epoch": 0.043520833333333335, "grad_norm": 0.7710242867469788, "learning_rate": 0.00029884545406086053, "loss": 4.1664, "step": 20890 }, { "epoch": 0.043541666666666666, "grad_norm": 0.8128140568733215, "learning_rate": 0.0002988442329214182, "loss": 4.1851, "step": 20900 }, { "epoch": 0.0435625, "grad_norm": 0.9261941313743591, "learning_rate": 0.00029884301113902777, "loss": 4.2067, "step": 20910 }, { "epoch": 0.043583333333333335, "grad_norm": 0.713985800743103, "learning_rate": 0.00029884178871369434, "loss": 4.0594, "step": 20920 }, { "epoch": 0.043604166666666666, "grad_norm": 0.9778813123703003, "learning_rate": 0.0002988405656454234, "loss": 4.0018, "step": 20930 }, { "epoch": 0.043625, "grad_norm": 0.8556178212165833, "learning_rate": 0.00029883934193422005, "loss": 3.9153, "step": 20940 }, { "epoch": 0.043645833333333335, "grad_norm": 0.9584822058677673, "learning_rate": 0.0002988381175800897, "loss": 4.1116, "step": 20950 }, { "epoch": 0.043666666666666666, "grad_norm": 0.8164499402046204, "learning_rate": 0.0002988368925830376, "loss": 4.0733, "step": 20960 }, { "epoch": 0.0436875, "grad_norm": 0.8415399789810181, "learning_rate": 0.00029883566694306903, "loss": 3.8703, "step": 20970 }, { "epoch": 0.043708333333333335, "grad_norm": 0.8571978807449341, "learning_rate": 0.00029883444066018927, "loss": 3.9118, "step": 20980 }, { "epoch": 0.043729166666666666, "grad_norm": 0.9375819563865662, "learning_rate": 0.0002988332137344037, "loss": 4.011, "step": 20990 }, { "epoch": 0.04375, "grad_norm": 0.9054540395736694, "learning_rate": 0.00029883198616571745, "loss": 4.0745, "step": 21000 }, { "epoch": 0.04375, "eval_loss": 4.342305660247803, "eval_runtime": 10.6161, "eval_samples_per_second": 0.942, "eval_steps_per_second": 0.283, "step": 21000 }, { "epoch": 0.043770833333333335, "grad_norm": 0.7840487360954285, "learning_rate": 0.000298830757954136, "loss": 4.0177, "step": 21010 }, { "epoch": 0.043791666666666666, "grad_norm": 0.7767271995544434, "learning_rate": 0.0002988295290996646, "loss": 3.9951, "step": 21020 }, { "epoch": 0.0438125, "grad_norm": 0.8999386429786682, "learning_rate": 0.0002988282996023085, "loss": 3.9783, "step": 21030 }, { "epoch": 0.043833333333333335, "grad_norm": 0.8055039048194885, "learning_rate": 0.00029882706946207313, "loss": 3.9577, "step": 21040 }, { "epoch": 0.043854166666666666, "grad_norm": 0.955872654914856, "learning_rate": 0.0002988258386789637, "loss": 3.9639, "step": 21050 }, { "epoch": 0.043875, "grad_norm": 0.7130734324455261, "learning_rate": 0.00029882460725298547, "loss": 4.2128, "step": 21060 }, { "epoch": 0.043895833333333335, "grad_norm": 0.8525375127792358, "learning_rate": 0.00029882337518414393, "loss": 4.1003, "step": 21070 }, { "epoch": 0.043916666666666666, "grad_norm": 0.7908002734184265, "learning_rate": 0.00029882214247244434, "loss": 3.9476, "step": 21080 }, { "epoch": 0.0439375, "grad_norm": 0.9101952910423279, "learning_rate": 0.00029882090911789196, "loss": 4.1166, "step": 21090 }, { "epoch": 0.043958333333333335, "grad_norm": 0.8621652722358704, "learning_rate": 0.0002988196751204922, "loss": 4.1249, "step": 21100 }, { "epoch": 0.043979166666666666, "grad_norm": 0.842359721660614, "learning_rate": 0.0002988184404802503, "loss": 3.887, "step": 21110 }, { "epoch": 0.044, "grad_norm": 0.9741432070732117, "learning_rate": 0.0002988172051971717, "loss": 4.1093, "step": 21120 }, { "epoch": 0.044020833333333335, "grad_norm": 0.7646159529685974, "learning_rate": 0.0002988159692712616, "loss": 3.9678, "step": 21130 }, { "epoch": 0.044041666666666666, "grad_norm": 0.8408020734786987, "learning_rate": 0.00029881473270252544, "loss": 3.903, "step": 21140 }, { "epoch": 0.0440625, "grad_norm": 0.8076792359352112, "learning_rate": 0.00029881349549096855, "loss": 4.2073, "step": 21150 }, { "epoch": 0.044083333333333335, "grad_norm": 0.8714789748191833, "learning_rate": 0.0002988122576365963, "loss": 4.0777, "step": 21160 }, { "epoch": 0.044104166666666667, "grad_norm": 0.7896570563316345, "learning_rate": 0.00029881101913941397, "loss": 4.0486, "step": 21170 }, { "epoch": 0.044125, "grad_norm": 0.9539129734039307, "learning_rate": 0.00029880977999942695, "loss": 3.9694, "step": 21180 }, { "epoch": 0.044145833333333336, "grad_norm": 0.8589633107185364, "learning_rate": 0.0002988085402166406, "loss": 4.1517, "step": 21190 }, { "epoch": 0.04416666666666667, "grad_norm": 0.7775989770889282, "learning_rate": 0.0002988072997910602, "loss": 3.8292, "step": 21200 }, { "epoch": 0.0441875, "grad_norm": 0.7837172150611877, "learning_rate": 0.0002988060587226912, "loss": 3.9982, "step": 21210 }, { "epoch": 0.044208333333333336, "grad_norm": 0.812075674533844, "learning_rate": 0.00029880481701153894, "loss": 4.0384, "step": 21220 }, { "epoch": 0.04422916666666667, "grad_norm": 0.7884976863861084, "learning_rate": 0.00029880357465760876, "loss": 4.0503, "step": 21230 }, { "epoch": 0.04425, "grad_norm": 0.8431472182273865, "learning_rate": 0.000298802331660906, "loss": 4.0609, "step": 21240 }, { "epoch": 0.044270833333333336, "grad_norm": 0.8969181776046753, "learning_rate": 0.00029880108802143613, "loss": 3.9494, "step": 21250 }, { "epoch": 0.04429166666666667, "grad_norm": 0.8280304670333862, "learning_rate": 0.00029879984373920446, "loss": 3.8908, "step": 21260 }, { "epoch": 0.0443125, "grad_norm": 1.0088303089141846, "learning_rate": 0.0002987985988142163, "loss": 4.0184, "step": 21270 }, { "epoch": 0.044333333333333336, "grad_norm": 0.8146201372146606, "learning_rate": 0.00029879735324647716, "loss": 4.0107, "step": 21280 }, { "epoch": 0.04435416666666667, "grad_norm": 0.7911062836647034, "learning_rate": 0.0002987961070359923, "loss": 4.1728, "step": 21290 }, { "epoch": 0.044375, "grad_norm": 0.8497121930122375, "learning_rate": 0.0002987948601827672, "loss": 3.9123, "step": 21300 }, { "epoch": 0.044395833333333336, "grad_norm": 0.9167283177375793, "learning_rate": 0.00029879361268680716, "loss": 3.9619, "step": 21310 }, { "epoch": 0.04441666666666667, "grad_norm": 0.8920363783836365, "learning_rate": 0.00029879236454811764, "loss": 3.9886, "step": 21320 }, { "epoch": 0.0444375, "grad_norm": 0.835915207862854, "learning_rate": 0.000298791115766704, "loss": 4.0911, "step": 21330 }, { "epoch": 0.044458333333333336, "grad_norm": 0.8288701772689819, "learning_rate": 0.00029878986634257167, "loss": 3.8817, "step": 21340 }, { "epoch": 0.04447916666666667, "grad_norm": 0.8506772518157959, "learning_rate": 0.00029878861627572595, "loss": 3.9851, "step": 21350 }, { "epoch": 0.0445, "grad_norm": 0.7778975367546082, "learning_rate": 0.0002987873655661723, "loss": 4.0973, "step": 21360 }, { "epoch": 0.044520833333333336, "grad_norm": 0.8713276982307434, "learning_rate": 0.00029878611421391615, "loss": 3.9076, "step": 21370 }, { "epoch": 0.04454166666666667, "grad_norm": 0.8287427425384521, "learning_rate": 0.0002987848622189629, "loss": 4.108, "step": 21380 }, { "epoch": 0.0445625, "grad_norm": 0.7868844866752625, "learning_rate": 0.0002987836095813179, "loss": 3.8827, "step": 21390 }, { "epoch": 0.044583333333333336, "grad_norm": 0.8835132718086243, "learning_rate": 0.0002987823563009866, "loss": 4.1014, "step": 21400 }, { "epoch": 0.04460416666666667, "grad_norm": 0.7861273288726807, "learning_rate": 0.00029878110237797445, "loss": 3.9649, "step": 21410 }, { "epoch": 0.044625, "grad_norm": 1.045042634010315, "learning_rate": 0.0002987798478122868, "loss": 3.9185, "step": 21420 }, { "epoch": 0.044645833333333336, "grad_norm": 0.8592798113822937, "learning_rate": 0.00029877859260392907, "loss": 4.2066, "step": 21430 }, { "epoch": 0.04466666666666667, "grad_norm": 0.9575827717781067, "learning_rate": 0.00029877733675290677, "loss": 3.9745, "step": 21440 }, { "epoch": 0.0446875, "grad_norm": 1.0012986660003662, "learning_rate": 0.00029877608025922526, "loss": 4.1846, "step": 21450 }, { "epoch": 0.044708333333333336, "grad_norm": 0.861296534538269, "learning_rate": 0.00029877482312288997, "loss": 4.0348, "step": 21460 }, { "epoch": 0.04472916666666667, "grad_norm": 0.8247374296188354, "learning_rate": 0.0002987735653439063, "loss": 4.0714, "step": 21470 }, { "epoch": 0.04475, "grad_norm": 0.8407560586929321, "learning_rate": 0.00029877230692227974, "loss": 4.002, "step": 21480 }, { "epoch": 0.044770833333333336, "grad_norm": 0.8621786832809448, "learning_rate": 0.00029877104785801565, "loss": 4.0648, "step": 21490 }, { "epoch": 0.04479166666666667, "grad_norm": 0.9582839608192444, "learning_rate": 0.0002987697881511196, "loss": 3.9656, "step": 21500 }, { "epoch": 0.0448125, "grad_norm": 0.8821082711219788, "learning_rate": 0.0002987685278015969, "loss": 4.046, "step": 21510 }, { "epoch": 0.044833333333333336, "grad_norm": 0.8624160885810852, "learning_rate": 0.0002987672668094531, "loss": 4.1448, "step": 21520 }, { "epoch": 0.04485416666666667, "grad_norm": 0.762911319732666, "learning_rate": 0.0002987660051746936, "loss": 4.0884, "step": 21530 }, { "epoch": 0.044875, "grad_norm": 0.7878764271736145, "learning_rate": 0.0002987647428973237, "loss": 4.0743, "step": 21540 }, { "epoch": 0.044895833333333336, "grad_norm": 0.8286069631576538, "learning_rate": 0.0002987634799773491, "loss": 3.9454, "step": 21550 }, { "epoch": 0.04491666666666667, "grad_norm": 0.8537937998771667, "learning_rate": 0.0002987622164147752, "loss": 3.9981, "step": 21560 }, { "epoch": 0.0449375, "grad_norm": 0.7299149632453918, "learning_rate": 0.00029876095220960735, "loss": 3.992, "step": 21570 }, { "epoch": 0.044958333333333336, "grad_norm": 0.868556797504425, "learning_rate": 0.0002987596873618511, "loss": 4.0636, "step": 21580 }, { "epoch": 0.04497916666666667, "grad_norm": 0.9318055510520935, "learning_rate": 0.00029875842187151183, "loss": 4.0708, "step": 21590 }, { "epoch": 0.045, "grad_norm": 0.8826606869697571, "learning_rate": 0.0002987571557385951, "loss": 4.2334, "step": 21600 }, { "epoch": 0.045020833333333336, "grad_norm": 0.7222569584846497, "learning_rate": 0.00029875588896310636, "loss": 3.9474, "step": 21610 }, { "epoch": 0.04504166666666667, "grad_norm": 0.8353235125541687, "learning_rate": 0.00029875462154505103, "loss": 3.9243, "step": 21620 }, { "epoch": 0.0450625, "grad_norm": 0.8069102764129639, "learning_rate": 0.0002987533534844346, "loss": 4.0081, "step": 21630 }, { "epoch": 0.045083333333333336, "grad_norm": 0.8081286549568176, "learning_rate": 0.0002987520847812626, "loss": 3.8208, "step": 21640 }, { "epoch": 0.04510416666666667, "grad_norm": 0.9237086176872253, "learning_rate": 0.00029875081543554046, "loss": 3.9938, "step": 21650 }, { "epoch": 0.045125, "grad_norm": 0.7181043028831482, "learning_rate": 0.0002987495454472737, "loss": 4.2054, "step": 21660 }, { "epoch": 0.045145833333333336, "grad_norm": 0.7970734238624573, "learning_rate": 0.00029874827481646775, "loss": 3.9812, "step": 21670 }, { "epoch": 0.04516666666666667, "grad_norm": 0.9189584851264954, "learning_rate": 0.0002987470035431281, "loss": 3.8936, "step": 21680 }, { "epoch": 0.0451875, "grad_norm": 0.7783712148666382, "learning_rate": 0.0002987457316272603, "loss": 4.0323, "step": 21690 }, { "epoch": 0.045208333333333336, "grad_norm": 0.8427685499191284, "learning_rate": 0.00029874445906886987, "loss": 4.0199, "step": 21700 }, { "epoch": 0.04522916666666667, "grad_norm": 0.6924123167991638, "learning_rate": 0.0002987431858679622, "loss": 4.0269, "step": 21710 }, { "epoch": 0.04525, "grad_norm": 0.7433684468269348, "learning_rate": 0.00029874191202454285, "loss": 4.0587, "step": 21720 }, { "epoch": 0.04527083333333334, "grad_norm": 0.8644247651100159, "learning_rate": 0.00029874063753861736, "loss": 3.9536, "step": 21730 }, { "epoch": 0.04529166666666667, "grad_norm": 0.7696301937103271, "learning_rate": 0.0002987393624101911, "loss": 3.9833, "step": 21740 }, { "epoch": 0.0453125, "grad_norm": 0.8788250088691711, "learning_rate": 0.00029873808663926976, "loss": 3.957, "step": 21750 }, { "epoch": 0.04533333333333334, "grad_norm": 0.8382790684700012, "learning_rate": 0.0002987368102258587, "loss": 4.0449, "step": 21760 }, { "epoch": 0.04535416666666667, "grad_norm": 0.9234817028045654, "learning_rate": 0.00029873553316996353, "loss": 4.1019, "step": 21770 }, { "epoch": 0.045375, "grad_norm": 0.9328406453132629, "learning_rate": 0.00029873425547158973, "loss": 3.9747, "step": 21780 }, { "epoch": 0.04539583333333334, "grad_norm": 0.7501475811004639, "learning_rate": 0.0002987329771307428, "loss": 3.9689, "step": 21790 }, { "epoch": 0.04541666666666667, "grad_norm": 0.8602458238601685, "learning_rate": 0.00029873169814742827, "loss": 3.9403, "step": 21800 }, { "epoch": 0.0454375, "grad_norm": 0.8079740405082703, "learning_rate": 0.0002987304185216517, "loss": 3.9825, "step": 21810 }, { "epoch": 0.04545833333333334, "grad_norm": 0.8885995149612427, "learning_rate": 0.0002987291382534186, "loss": 4.0956, "step": 21820 }, { "epoch": 0.04547916666666667, "grad_norm": 0.9286413192749023, "learning_rate": 0.0002987278573427345, "loss": 3.9514, "step": 21830 }, { "epoch": 0.0455, "grad_norm": 0.826884925365448, "learning_rate": 0.0002987265757896049, "loss": 4.0596, "step": 21840 }, { "epoch": 0.04552083333333334, "grad_norm": 0.7914295196533203, "learning_rate": 0.0002987252935940354, "loss": 4.011, "step": 21850 }, { "epoch": 0.04554166666666667, "grad_norm": 0.9241766333580017, "learning_rate": 0.0002987240107560314, "loss": 3.9946, "step": 21860 }, { "epoch": 0.0455625, "grad_norm": 0.9710869193077087, "learning_rate": 0.00029872272727559865, "loss": 3.811, "step": 21870 }, { "epoch": 0.04558333333333333, "grad_norm": 1.0117418766021729, "learning_rate": 0.00029872144315274253, "loss": 4.0161, "step": 21880 }, { "epoch": 0.04560416666666667, "grad_norm": 0.7901581525802612, "learning_rate": 0.0002987201583874687, "loss": 3.8874, "step": 21890 }, { "epoch": 0.045625, "grad_norm": 0.9436231255531311, "learning_rate": 0.00029871887297978266, "loss": 3.9467, "step": 21900 }, { "epoch": 0.04564583333333333, "grad_norm": 0.7543326616287231, "learning_rate": 0.0002987175869296899, "loss": 4.1383, "step": 21910 }, { "epoch": 0.04566666666666667, "grad_norm": 0.8146910071372986, "learning_rate": 0.00029871630023719603, "loss": 3.7994, "step": 21920 }, { "epoch": 0.0456875, "grad_norm": 0.8492389917373657, "learning_rate": 0.0002987150129023066, "loss": 4.0704, "step": 21930 }, { "epoch": 0.04570833333333333, "grad_norm": 0.7508938312530518, "learning_rate": 0.0002987137249250272, "loss": 3.9807, "step": 21940 }, { "epoch": 0.04572916666666667, "grad_norm": 0.9773673415184021, "learning_rate": 0.0002987124363053634, "loss": 4.1246, "step": 21950 }, { "epoch": 0.04575, "grad_norm": 0.8136064410209656, "learning_rate": 0.0002987111470433207, "loss": 4.0942, "step": 21960 }, { "epoch": 0.04577083333333333, "grad_norm": 0.8137964606285095, "learning_rate": 0.00029870985713890475, "loss": 3.846, "step": 21970 }, { "epoch": 0.04579166666666667, "grad_norm": 0.8571567535400391, "learning_rate": 0.00029870856659212105, "loss": 4.0758, "step": 21980 }, { "epoch": 0.0458125, "grad_norm": 0.7699553370475769, "learning_rate": 0.0002987072754029752, "loss": 3.9059, "step": 21990 }, { "epoch": 0.04583333333333333, "grad_norm": 0.7438395619392395, "learning_rate": 0.0002987059835714728, "loss": 3.8593, "step": 22000 }, { "epoch": 0.04583333333333333, "eval_loss": 4.354062080383301, "eval_runtime": 11.5051, "eval_samples_per_second": 0.869, "eval_steps_per_second": 0.261, "step": 22000 }, { "epoch": 0.04585416666666667, "grad_norm": 0.963277280330658, "learning_rate": 0.0002987046910976194, "loss": 4.0335, "step": 22010 }, { "epoch": 0.045875, "grad_norm": 0.8337883949279785, "learning_rate": 0.00029870339798142065, "loss": 4.0478, "step": 22020 }, { "epoch": 0.04589583333333333, "grad_norm": 0.942034900188446, "learning_rate": 0.00029870210422288203, "loss": 4.0527, "step": 22030 }, { "epoch": 0.04591666666666667, "grad_norm": 0.7627479434013367, "learning_rate": 0.00029870080982200914, "loss": 4.0365, "step": 22040 }, { "epoch": 0.0459375, "grad_norm": 0.9044426083564758, "learning_rate": 0.00029869951477880767, "loss": 4.0874, "step": 22050 }, { "epoch": 0.04595833333333333, "grad_norm": 0.762162446975708, "learning_rate": 0.00029869821909328314, "loss": 4.1664, "step": 22060 }, { "epoch": 0.04597916666666667, "grad_norm": 0.9194058775901794, "learning_rate": 0.0002986969227654412, "loss": 4.1284, "step": 22070 }, { "epoch": 0.046, "grad_norm": 0.8108769655227661, "learning_rate": 0.00029869562579528736, "loss": 4.2683, "step": 22080 }, { "epoch": 0.04602083333333333, "grad_norm": 0.8059133291244507, "learning_rate": 0.0002986943281828273, "loss": 3.9431, "step": 22090 }, { "epoch": 0.04604166666666667, "grad_norm": 0.8922027349472046, "learning_rate": 0.0002986930299280666, "loss": 3.9547, "step": 22100 }, { "epoch": 0.0460625, "grad_norm": 0.9259348511695862, "learning_rate": 0.00029869173103101086, "loss": 4.0867, "step": 22110 }, { "epoch": 0.04608333333333333, "grad_norm": 0.8041831851005554, "learning_rate": 0.0002986904314916657, "loss": 4.1057, "step": 22120 }, { "epoch": 0.04610416666666667, "grad_norm": 0.7673734426498413, "learning_rate": 0.0002986891313100367, "loss": 3.9661, "step": 22130 }, { "epoch": 0.046125, "grad_norm": 0.8898199796676636, "learning_rate": 0.0002986878304861296, "loss": 4.1018, "step": 22140 }, { "epoch": 0.04614583333333333, "grad_norm": 0.7537437677383423, "learning_rate": 0.0002986865290199498, "loss": 4.0202, "step": 22150 }, { "epoch": 0.04616666666666667, "grad_norm": 0.8874825239181519, "learning_rate": 0.00029868522691150313, "loss": 4.0891, "step": 22160 }, { "epoch": 0.0461875, "grad_norm": 1.0299723148345947, "learning_rate": 0.0002986839241607951, "loss": 4.1572, "step": 22170 }, { "epoch": 0.04620833333333333, "grad_norm": 1.2870489358901978, "learning_rate": 0.0002986826207678314, "loss": 3.9314, "step": 22180 }, { "epoch": 0.04622916666666667, "grad_norm": 2.1369118690490723, "learning_rate": 0.00029868131673261764, "loss": 4.1211, "step": 22190 }, { "epoch": 0.04625, "grad_norm": 0.7322140336036682, "learning_rate": 0.0002986800120551594, "loss": 4.1071, "step": 22200 }, { "epoch": 0.04627083333333333, "grad_norm": 0.9373006224632263, "learning_rate": 0.0002986787067354624, "loss": 4.0729, "step": 22210 }, { "epoch": 0.04629166666666667, "grad_norm": 0.8496093153953552, "learning_rate": 0.0002986774007735322, "loss": 4.0306, "step": 22220 }, { "epoch": 0.0463125, "grad_norm": 0.9111897945404053, "learning_rate": 0.0002986760941693745, "loss": 4.1942, "step": 22230 }, { "epoch": 0.04633333333333333, "grad_norm": 0.839640736579895, "learning_rate": 0.0002986747869229949, "loss": 3.7773, "step": 22240 }, { "epoch": 0.04635416666666667, "grad_norm": 0.9309871196746826, "learning_rate": 0.0002986734790343991, "loss": 4.0495, "step": 22250 }, { "epoch": 0.046375, "grad_norm": 0.7932628393173218, "learning_rate": 0.00029867217050359273, "loss": 3.8967, "step": 22260 }, { "epoch": 0.04639583333333333, "grad_norm": 0.9826204180717468, "learning_rate": 0.0002986708613305814, "loss": 4.0896, "step": 22270 }, { "epoch": 0.04641666666666667, "grad_norm": 0.8916264772415161, "learning_rate": 0.0002986695515153708, "loss": 3.9854, "step": 22280 }, { "epoch": 0.0464375, "grad_norm": 0.7940315008163452, "learning_rate": 0.00029866824105796665, "loss": 3.9841, "step": 22290 }, { "epoch": 0.04645833333333333, "grad_norm": 0.7411952018737793, "learning_rate": 0.00029866692995837447, "loss": 4.0936, "step": 22300 }, { "epoch": 0.04647916666666667, "grad_norm": 0.8142653107643127, "learning_rate": 0.0002986656182166, "loss": 4.1644, "step": 22310 }, { "epoch": 0.0465, "grad_norm": 0.8728663921356201, "learning_rate": 0.00029866430583264895, "loss": 3.9703, "step": 22320 }, { "epoch": 0.04652083333333333, "grad_norm": 0.7799032330513, "learning_rate": 0.0002986629928065269, "loss": 4.1193, "step": 22330 }, { "epoch": 0.04654166666666667, "grad_norm": 0.7886219620704651, "learning_rate": 0.00029866167913823955, "loss": 3.9689, "step": 22340 }, { "epoch": 0.0465625, "grad_norm": 0.9437947869300842, "learning_rate": 0.00029866036482779267, "loss": 4.0851, "step": 22350 }, { "epoch": 0.04658333333333333, "grad_norm": 0.7859421968460083, "learning_rate": 0.0002986590498751918, "loss": 3.987, "step": 22360 }, { "epoch": 0.04660416666666667, "grad_norm": 0.9420626759529114, "learning_rate": 0.0002986577342804427, "loss": 3.8112, "step": 22370 }, { "epoch": 0.046625, "grad_norm": 0.7825009226799011, "learning_rate": 0.000298656418043551, "loss": 4.1615, "step": 22380 }, { "epoch": 0.04664583333333333, "grad_norm": 0.8822476267814636, "learning_rate": 0.00029865510116452244, "loss": 3.85, "step": 22390 }, { "epoch": 0.04666666666666667, "grad_norm": 0.7992731928825378, "learning_rate": 0.0002986537836433627, "loss": 3.9237, "step": 22400 }, { "epoch": 0.0466875, "grad_norm": 0.8337991833686829, "learning_rate": 0.00029865246548007744, "loss": 3.93, "step": 22410 }, { "epoch": 0.04670833333333333, "grad_norm": 0.7592121362686157, "learning_rate": 0.0002986511466746724, "loss": 4.2034, "step": 22420 }, { "epoch": 0.04672916666666667, "grad_norm": 0.8443527817726135, "learning_rate": 0.0002986498272271532, "loss": 4.1472, "step": 22430 }, { "epoch": 0.04675, "grad_norm": 0.8086874485015869, "learning_rate": 0.0002986485071375256, "loss": 3.8892, "step": 22440 }, { "epoch": 0.04677083333333333, "grad_norm": 0.9691826701164246, "learning_rate": 0.0002986471864057953, "loss": 4.0856, "step": 22450 }, { "epoch": 0.04679166666666667, "grad_norm": 0.8090049624443054, "learning_rate": 0.00029864586503196793, "loss": 3.9837, "step": 22460 }, { "epoch": 0.0468125, "grad_norm": 0.8533264994621277, "learning_rate": 0.0002986445430160493, "loss": 3.805, "step": 22470 }, { "epoch": 0.04683333333333333, "grad_norm": 0.933143138885498, "learning_rate": 0.00029864322035804515, "loss": 4.0314, "step": 22480 }, { "epoch": 0.04685416666666667, "grad_norm": 0.9897992610931396, "learning_rate": 0.00029864189705796105, "loss": 3.9058, "step": 22490 }, { "epoch": 0.046875, "grad_norm": 0.837530255317688, "learning_rate": 0.0002986405731158028, "loss": 4.2135, "step": 22500 }, { "epoch": 0.04689583333333333, "grad_norm": 0.8330625295639038, "learning_rate": 0.0002986392485315762, "loss": 3.9353, "step": 22510 }, { "epoch": 0.04691666666666667, "grad_norm": 0.9670344591140747, "learning_rate": 0.00029863792330528675, "loss": 4.0792, "step": 22520 }, { "epoch": 0.0469375, "grad_norm": 0.7565240859985352, "learning_rate": 0.0002986365974369403, "loss": 4.0004, "step": 22530 }, { "epoch": 0.04695833333333333, "grad_norm": 0.8141567707061768, "learning_rate": 0.0002986352709265427, "loss": 4.0345, "step": 22540 }, { "epoch": 0.04697916666666667, "grad_norm": 0.8310573697090149, "learning_rate": 0.00029863394377409953, "loss": 3.9254, "step": 22550 }, { "epoch": 0.047, "grad_norm": 0.8589280247688293, "learning_rate": 0.0002986326159796165, "loss": 4.0716, "step": 22560 }, { "epoch": 0.04702083333333333, "grad_norm": 0.7215357422828674, "learning_rate": 0.00029863128754309946, "loss": 3.9456, "step": 22570 }, { "epoch": 0.04704166666666667, "grad_norm": 0.7969028949737549, "learning_rate": 0.00029862995846455405, "loss": 4.0897, "step": 22580 }, { "epoch": 0.0470625, "grad_norm": 0.7791271805763245, "learning_rate": 0.0002986286287439861, "loss": 3.9209, "step": 22590 }, { "epoch": 0.04708333333333333, "grad_norm": 0.9344449043273926, "learning_rate": 0.0002986272983814013, "loss": 3.8205, "step": 22600 }, { "epoch": 0.04710416666666667, "grad_norm": 0.7766220569610596, "learning_rate": 0.00029862596737680535, "loss": 3.9536, "step": 22610 }, { "epoch": 0.047125, "grad_norm": 0.8056253790855408, "learning_rate": 0.00029862463573020404, "loss": 4.075, "step": 22620 }, { "epoch": 0.04714583333333333, "grad_norm": 0.9218420386314392, "learning_rate": 0.0002986233034416032, "loss": 3.9197, "step": 22630 }, { "epoch": 0.04716666666666667, "grad_norm": 0.778448224067688, "learning_rate": 0.00029862197051100847, "loss": 4.0624, "step": 22640 }, { "epoch": 0.0471875, "grad_norm": 0.7777163982391357, "learning_rate": 0.00029862063693842565, "loss": 4.1116, "step": 22650 }, { "epoch": 0.04720833333333333, "grad_norm": 0.8576770424842834, "learning_rate": 0.00029861930272386054, "loss": 3.9981, "step": 22660 }, { "epoch": 0.04722916666666667, "grad_norm": 0.7913747429847717, "learning_rate": 0.0002986179678673189, "loss": 4.1004, "step": 22670 }, { "epoch": 0.04725, "grad_norm": 0.7739566564559937, "learning_rate": 0.00029861663236880644, "loss": 3.9592, "step": 22680 }, { "epoch": 0.04727083333333333, "grad_norm": 0.7838767170906067, "learning_rate": 0.0002986152962283289, "loss": 3.9783, "step": 22690 }, { "epoch": 0.04729166666666667, "grad_norm": 1.0018246173858643, "learning_rate": 0.00029861395944589213, "loss": 3.9618, "step": 22700 }, { "epoch": 0.0473125, "grad_norm": 0.8772920966148376, "learning_rate": 0.0002986126220215019, "loss": 3.9055, "step": 22710 }, { "epoch": 0.04733333333333333, "grad_norm": 0.8416135907173157, "learning_rate": 0.00029861128395516397, "loss": 3.9989, "step": 22720 }, { "epoch": 0.04735416666666667, "grad_norm": 0.8006986975669861, "learning_rate": 0.00029860994524688416, "loss": 4.0264, "step": 22730 }, { "epoch": 0.047375, "grad_norm": 0.9206904768943787, "learning_rate": 0.00029860860589666814, "loss": 4.0113, "step": 22740 }, { "epoch": 0.04739583333333333, "grad_norm": 0.7833201885223389, "learning_rate": 0.00029860726590452176, "loss": 4.0429, "step": 22750 }, { "epoch": 0.04741666666666667, "grad_norm": 0.8064197897911072, "learning_rate": 0.0002986059252704509, "loss": 4.1145, "step": 22760 }, { "epoch": 0.0474375, "grad_norm": 0.8648513555526733, "learning_rate": 0.0002986045839944612, "loss": 4.1137, "step": 22770 }, { "epoch": 0.04745833333333333, "grad_norm": 0.7918399572372437, "learning_rate": 0.0002986032420765585, "loss": 4.1543, "step": 22780 }, { "epoch": 0.04747916666666667, "grad_norm": 0.8101834058761597, "learning_rate": 0.00029860189951674864, "loss": 3.9161, "step": 22790 }, { "epoch": 0.0475, "grad_norm": 0.819925844669342, "learning_rate": 0.00029860055631503743, "loss": 3.7748, "step": 22800 }, { "epoch": 0.04752083333333333, "grad_norm": 0.9304993152618408, "learning_rate": 0.00029859921247143056, "loss": 4.0368, "step": 22810 }, { "epoch": 0.04754166666666667, "grad_norm": 0.7387692928314209, "learning_rate": 0.00029859786798593394, "loss": 4.0492, "step": 22820 }, { "epoch": 0.0475625, "grad_norm": 0.8166192173957825, "learning_rate": 0.0002985965228585534, "loss": 4.2042, "step": 22830 }, { "epoch": 0.04758333333333333, "grad_norm": 0.7961153984069824, "learning_rate": 0.00029859517708929464, "loss": 4.0143, "step": 22840 }, { "epoch": 0.04760416666666667, "grad_norm": 0.9300776720046997, "learning_rate": 0.0002985938306781636, "loss": 4.1284, "step": 22850 }, { "epoch": 0.047625, "grad_norm": 0.6692639589309692, "learning_rate": 0.000298592483625166, "loss": 4.1159, "step": 22860 }, { "epoch": 0.04764583333333333, "grad_norm": 0.7543424963951111, "learning_rate": 0.00029859113593030766, "loss": 4.2312, "step": 22870 }, { "epoch": 0.04766666666666667, "grad_norm": 0.8469621539115906, "learning_rate": 0.00029858978759359444, "loss": 3.9753, "step": 22880 }, { "epoch": 0.0476875, "grad_norm": 0.7444190979003906, "learning_rate": 0.0002985884386150321, "loss": 3.8403, "step": 22890 }, { "epoch": 0.04770833333333333, "grad_norm": 0.8989748358726501, "learning_rate": 0.00029858708899462667, "loss": 4.1799, "step": 22900 }, { "epoch": 0.04772916666666667, "grad_norm": 0.8425635099411011, "learning_rate": 0.00029858573873238367, "loss": 3.9979, "step": 22910 }, { "epoch": 0.04775, "grad_norm": 0.8152500987052917, "learning_rate": 0.0002985843878283092, "loss": 4.218, "step": 22920 }, { "epoch": 0.04777083333333333, "grad_norm": 0.7674303650856018, "learning_rate": 0.000298583036282409, "loss": 3.9885, "step": 22930 }, { "epoch": 0.04779166666666667, "grad_norm": 0.9175886511802673, "learning_rate": 0.0002985816840946888, "loss": 4.0797, "step": 22940 }, { "epoch": 0.0478125, "grad_norm": 0.7852349877357483, "learning_rate": 0.0002985803312651546, "loss": 3.985, "step": 22950 }, { "epoch": 0.04783333333333333, "grad_norm": 0.8315421938896179, "learning_rate": 0.00029857897779381215, "loss": 3.946, "step": 22960 }, { "epoch": 0.04785416666666667, "grad_norm": 0.9046752452850342, "learning_rate": 0.00029857762368066734, "loss": 4.089, "step": 22970 }, { "epoch": 0.047875, "grad_norm": 0.8425107002258301, "learning_rate": 0.000298576268925726, "loss": 3.9325, "step": 22980 }, { "epoch": 0.04789583333333333, "grad_norm": 0.7931081056594849, "learning_rate": 0.000298574913528994, "loss": 3.9356, "step": 22990 }, { "epoch": 0.04791666666666667, "grad_norm": 0.8432623744010925, "learning_rate": 0.0002985735574904772, "loss": 4.0354, "step": 23000 }, { "epoch": 0.04791666666666667, "eval_loss": 4.345559120178223, "eval_runtime": 10.2992, "eval_samples_per_second": 0.971, "eval_steps_per_second": 0.291, "step": 23000 }, { "epoch": 0.0479375, "grad_norm": 0.8986987471580505, "learning_rate": 0.0002985722008101814, "loss": 4.1672, "step": 23010 }, { "epoch": 0.04795833333333333, "grad_norm": 0.7821569442749023, "learning_rate": 0.00029857084348811254, "loss": 4.1932, "step": 23020 }, { "epoch": 0.04797916666666667, "grad_norm": 0.7799119353294373, "learning_rate": 0.00029856948552427643, "loss": 3.9748, "step": 23030 }, { "epoch": 0.048, "grad_norm": 0.6990039348602295, "learning_rate": 0.00029856812691867894, "loss": 4.0561, "step": 23040 }, { "epoch": 0.04802083333333333, "grad_norm": 0.7636101841926575, "learning_rate": 0.0002985667676713259, "loss": 3.9505, "step": 23050 }, { "epoch": 0.04804166666666667, "grad_norm": 0.7896153330802917, "learning_rate": 0.00029856540778222334, "loss": 4.0456, "step": 23060 }, { "epoch": 0.0480625, "grad_norm": 0.8444091081619263, "learning_rate": 0.000298564047251377, "loss": 4.0778, "step": 23070 }, { "epoch": 0.04808333333333333, "grad_norm": 0.8280452489852905, "learning_rate": 0.0002985626860787928, "loss": 4.0967, "step": 23080 }, { "epoch": 0.04810416666666667, "grad_norm": 0.7722503542900085, "learning_rate": 0.0002985613242644765, "loss": 3.9439, "step": 23090 }, { "epoch": 0.048125, "grad_norm": 0.7447543144226074, "learning_rate": 0.00029855996180843417, "loss": 3.877, "step": 23100 }, { "epoch": 0.04814583333333333, "grad_norm": 0.836034893989563, "learning_rate": 0.00029855859871067157, "loss": 3.9852, "step": 23110 }, { "epoch": 0.04816666666666667, "grad_norm": 0.7539575099945068, "learning_rate": 0.0002985572349711946, "loss": 4.1457, "step": 23120 }, { "epoch": 0.0481875, "grad_norm": 0.9515137076377869, "learning_rate": 0.00029855587059000925, "loss": 4.2138, "step": 23130 }, { "epoch": 0.04820833333333333, "grad_norm": 0.7746474146842957, "learning_rate": 0.0002985545055671213, "loss": 3.869, "step": 23140 }, { "epoch": 0.04822916666666666, "grad_norm": 0.9983747005462646, "learning_rate": 0.0002985531399025367, "loss": 3.8766, "step": 23150 }, { "epoch": 0.04825, "grad_norm": 0.8665918111801147, "learning_rate": 0.0002985517735962613, "loss": 4.001, "step": 23160 }, { "epoch": 0.04827083333333333, "grad_norm": 0.895491361618042, "learning_rate": 0.0002985504066483011, "loss": 3.9846, "step": 23170 }, { "epoch": 0.04829166666666666, "grad_norm": 0.7675134539604187, "learning_rate": 0.0002985490390586619, "loss": 4.0145, "step": 23180 }, { "epoch": 0.0483125, "grad_norm": 0.7956461310386658, "learning_rate": 0.0002985476708273497, "loss": 3.9626, "step": 23190 }, { "epoch": 0.04833333333333333, "grad_norm": 0.7424895763397217, "learning_rate": 0.00029854630195437026, "loss": 4.1756, "step": 23200 }, { "epoch": 0.04835416666666666, "grad_norm": 0.8789083957672119, "learning_rate": 0.00029854493243972974, "loss": 4.1089, "step": 23210 }, { "epoch": 0.048375, "grad_norm": 0.9808844923973083, "learning_rate": 0.0002985435622834338, "loss": 4.1352, "step": 23220 }, { "epoch": 0.04839583333333333, "grad_norm": 0.840724527835846, "learning_rate": 0.0002985421914854885, "loss": 3.8581, "step": 23230 }, { "epoch": 0.04841666666666666, "grad_norm": 0.7633494138717651, "learning_rate": 0.0002985408200458997, "loss": 3.9884, "step": 23240 }, { "epoch": 0.0484375, "grad_norm": 0.8793787956237793, "learning_rate": 0.0002985394479646734, "loss": 4.1357, "step": 23250 }, { "epoch": 0.04845833333333333, "grad_norm": 0.8369579315185547, "learning_rate": 0.0002985380752418155, "loss": 4.0, "step": 23260 }, { "epoch": 0.04847916666666666, "grad_norm": 0.8232877254486084, "learning_rate": 0.0002985367018773318, "loss": 4.1381, "step": 23270 }, { "epoch": 0.0485, "grad_norm": 0.7644029855728149, "learning_rate": 0.0002985353278712285, "loss": 4.0884, "step": 23280 }, { "epoch": 0.04852083333333333, "grad_norm": 0.779992938041687, "learning_rate": 0.00029853395322351127, "loss": 4.0118, "step": 23290 }, { "epoch": 0.048541666666666664, "grad_norm": 0.8719344735145569, "learning_rate": 0.0002985325779341862, "loss": 3.9963, "step": 23300 }, { "epoch": 0.0485625, "grad_norm": 0.8808066248893738, "learning_rate": 0.0002985312020032591, "loss": 3.9822, "step": 23310 }, { "epoch": 0.04858333333333333, "grad_norm": 0.7952739000320435, "learning_rate": 0.0002985298254307361, "loss": 4.135, "step": 23320 }, { "epoch": 0.048604166666666664, "grad_norm": 0.8016321063041687, "learning_rate": 0.000298528448216623, "loss": 4.0967, "step": 23330 }, { "epoch": 0.048625, "grad_norm": 0.8336403965950012, "learning_rate": 0.00029852707036092584, "loss": 4.0093, "step": 23340 }, { "epoch": 0.04864583333333333, "grad_norm": 0.9109510183334351, "learning_rate": 0.00029852569186365047, "loss": 4.1692, "step": 23350 }, { "epoch": 0.048666666666666664, "grad_norm": 0.9067474007606506, "learning_rate": 0.00029852431272480297, "loss": 4.0933, "step": 23360 }, { "epoch": 0.0486875, "grad_norm": 0.8083096146583557, "learning_rate": 0.0002985229329443892, "loss": 4.1891, "step": 23370 }, { "epoch": 0.04870833333333333, "grad_norm": 0.941169261932373, "learning_rate": 0.0002985215525224151, "loss": 4.0323, "step": 23380 }, { "epoch": 0.048729166666666664, "grad_norm": 0.8773019909858704, "learning_rate": 0.00029852017145888673, "loss": 4.0611, "step": 23390 }, { "epoch": 0.04875, "grad_norm": 0.7840174436569214, "learning_rate": 0.00029851878975381, "loss": 4.0132, "step": 23400 }, { "epoch": 0.04877083333333333, "grad_norm": 0.8746412992477417, "learning_rate": 0.00029851740740719087, "loss": 4.0547, "step": 23410 }, { "epoch": 0.048791666666666664, "grad_norm": 0.957899808883667, "learning_rate": 0.00029851602441903534, "loss": 3.9956, "step": 23420 }, { "epoch": 0.0488125, "grad_norm": 0.8321362137794495, "learning_rate": 0.00029851464078934937, "loss": 4.0338, "step": 23430 }, { "epoch": 0.04883333333333333, "grad_norm": 0.9092917442321777, "learning_rate": 0.00029851325651813896, "loss": 3.9863, "step": 23440 }, { "epoch": 0.048854166666666664, "grad_norm": 0.7861893177032471, "learning_rate": 0.00029851187160541003, "loss": 4.0301, "step": 23450 }, { "epoch": 0.048875, "grad_norm": 0.8398141860961914, "learning_rate": 0.0002985104860511686, "loss": 4.027, "step": 23460 }, { "epoch": 0.04889583333333333, "grad_norm": 0.7907713055610657, "learning_rate": 0.00029850909985542067, "loss": 4.0736, "step": 23470 }, { "epoch": 0.048916666666666664, "grad_norm": 0.9949638843536377, "learning_rate": 0.0002985077130181722, "loss": 3.9623, "step": 23480 }, { "epoch": 0.0489375, "grad_norm": 0.8502593636512756, "learning_rate": 0.0002985063255394292, "loss": 3.9878, "step": 23490 }, { "epoch": 0.04895833333333333, "grad_norm": 0.8614035248756409, "learning_rate": 0.0002985049374191977, "loss": 4.1044, "step": 23500 }, { "epoch": 0.048979166666666664, "grad_norm": 0.8500977754592896, "learning_rate": 0.0002985035486574836, "loss": 4.0118, "step": 23510 }, { "epoch": 0.049, "grad_norm": 0.9270911812782288, "learning_rate": 0.000298502159254293, "loss": 3.9884, "step": 23520 }, { "epoch": 0.04902083333333333, "grad_norm": 0.7390990853309631, "learning_rate": 0.0002985007692096318, "loss": 4.1772, "step": 23530 }, { "epoch": 0.049041666666666664, "grad_norm": 0.8720413446426392, "learning_rate": 0.0002984993785235061, "loss": 4.1545, "step": 23540 }, { "epoch": 0.0490625, "grad_norm": 0.8146336674690247, "learning_rate": 0.0002984979871959218, "loss": 4.0268, "step": 23550 }, { "epoch": 0.04908333333333333, "grad_norm": 0.8770825862884521, "learning_rate": 0.000298496595226885, "loss": 3.949, "step": 23560 }, { "epoch": 0.049104166666666664, "grad_norm": 0.9566527605056763, "learning_rate": 0.00029849520261640176, "loss": 4.0052, "step": 23570 }, { "epoch": 0.049125, "grad_norm": 0.9146139621734619, "learning_rate": 0.00029849380936447793, "loss": 4.042, "step": 23580 }, { "epoch": 0.04914583333333333, "grad_norm": 0.7903580665588379, "learning_rate": 0.00029849241547111967, "loss": 3.9194, "step": 23590 }, { "epoch": 0.049166666666666664, "grad_norm": 0.8264316916465759, "learning_rate": 0.0002984910209363329, "loss": 4.0075, "step": 23600 }, { "epoch": 0.0491875, "grad_norm": 0.7081221342086792, "learning_rate": 0.00029848962576012377, "loss": 4.0911, "step": 23610 }, { "epoch": 0.04920833333333333, "grad_norm": 0.8810615539550781, "learning_rate": 0.0002984882299424982, "loss": 4.0778, "step": 23620 }, { "epoch": 0.049229166666666664, "grad_norm": 0.9713292121887207, "learning_rate": 0.0002984868334834623, "loss": 4.0909, "step": 23630 }, { "epoch": 0.04925, "grad_norm": 0.9011144042015076, "learning_rate": 0.000298485436383022, "loss": 4.0532, "step": 23640 }, { "epoch": 0.04927083333333333, "grad_norm": 0.7226399183273315, "learning_rate": 0.00029848403864118336, "loss": 4.0379, "step": 23650 }, { "epoch": 0.049291666666666664, "grad_norm": 0.8149161338806152, "learning_rate": 0.0002984826402579525, "loss": 4.0274, "step": 23660 }, { "epoch": 0.0493125, "grad_norm": 0.8129730820655823, "learning_rate": 0.0002984812412333354, "loss": 4.0539, "step": 23670 }, { "epoch": 0.04933333333333333, "grad_norm": 1.073933482170105, "learning_rate": 0.0002984798415673381, "loss": 3.9665, "step": 23680 }, { "epoch": 0.049354166666666664, "grad_norm": 0.7957851886749268, "learning_rate": 0.0002984784412599667, "loss": 3.9831, "step": 23690 }, { "epoch": 0.049375, "grad_norm": 0.7592307925224304, "learning_rate": 0.00029847704031122713, "loss": 4.1233, "step": 23700 }, { "epoch": 0.04939583333333333, "grad_norm": 0.782427191734314, "learning_rate": 0.00029847563872112555, "loss": 3.9348, "step": 23710 }, { "epoch": 0.049416666666666664, "grad_norm": 0.7728231549263, "learning_rate": 0.00029847423648966803, "loss": 3.8702, "step": 23720 }, { "epoch": 0.0494375, "grad_norm": 0.7528290748596191, "learning_rate": 0.0002984728336168605, "loss": 4.0914, "step": 23730 }, { "epoch": 0.04945833333333333, "grad_norm": 0.7910967469215393, "learning_rate": 0.0002984714301027091, "loss": 4.001, "step": 23740 }, { "epoch": 0.049479166666666664, "grad_norm": 0.8371394276618958, "learning_rate": 0.00029847002594721997, "loss": 4.1024, "step": 23750 }, { "epoch": 0.0495, "grad_norm": 0.8186953663825989, "learning_rate": 0.00029846862115039905, "loss": 4.0757, "step": 23760 }, { "epoch": 0.04952083333333333, "grad_norm": 0.92894047498703, "learning_rate": 0.00029846721571225244, "loss": 4.0526, "step": 23770 }, { "epoch": 0.049541666666666664, "grad_norm": 0.8800164461135864, "learning_rate": 0.00029846580963278625, "loss": 3.7911, "step": 23780 }, { "epoch": 0.0495625, "grad_norm": 0.8590853214263916, "learning_rate": 0.0002984644029120065, "loss": 4.0327, "step": 23790 }, { "epoch": 0.04958333333333333, "grad_norm": 0.7221733927726746, "learning_rate": 0.00029846299554991935, "loss": 3.9983, "step": 23800 }, { "epoch": 0.049604166666666664, "grad_norm": 0.7771899104118347, "learning_rate": 0.00029846158754653077, "loss": 3.87, "step": 23810 }, { "epoch": 0.049625, "grad_norm": 0.7342985272407532, "learning_rate": 0.0002984601789018469, "loss": 4.0121, "step": 23820 }, { "epoch": 0.049645833333333333, "grad_norm": 0.853218138217926, "learning_rate": 0.0002984587696158739, "loss": 4.0565, "step": 23830 }, { "epoch": 0.049666666666666665, "grad_norm": 0.8374419808387756, "learning_rate": 0.00029845735968861767, "loss": 3.8785, "step": 23840 }, { "epoch": 0.0496875, "grad_norm": 0.851003110408783, "learning_rate": 0.00029845594912008443, "loss": 4.1569, "step": 23850 }, { "epoch": 0.049708333333333334, "grad_norm": 0.833723783493042, "learning_rate": 0.0002984545379102803, "loss": 4.055, "step": 23860 }, { "epoch": 0.049729166666666665, "grad_norm": 0.8583168387413025, "learning_rate": 0.0002984531260592113, "loss": 3.9413, "step": 23870 }, { "epoch": 0.04975, "grad_norm": 0.7722224593162537, "learning_rate": 0.0002984517135668836, "loss": 4.149, "step": 23880 }, { "epoch": 0.049770833333333334, "grad_norm": 0.8198390603065491, "learning_rate": 0.0002984503004333032, "loss": 4.0969, "step": 23890 }, { "epoch": 0.049791666666666665, "grad_norm": 0.8864487409591675, "learning_rate": 0.0002984488866584763, "loss": 4.1366, "step": 23900 }, { "epoch": 0.0498125, "grad_norm": 0.6893771886825562, "learning_rate": 0.000298447472242409, "loss": 4.0697, "step": 23910 }, { "epoch": 0.049833333333333334, "grad_norm": 0.737511157989502, "learning_rate": 0.0002984460571851073, "loss": 3.9544, "step": 23920 }, { "epoch": 0.049854166666666665, "grad_norm": 1.0342742204666138, "learning_rate": 0.00029844464148657743, "loss": 4.0968, "step": 23930 }, { "epoch": 0.049875, "grad_norm": 0.8139572739601135, "learning_rate": 0.00029844322514682546, "loss": 3.8609, "step": 23940 }, { "epoch": 0.049895833333333334, "grad_norm": 0.7324793338775635, "learning_rate": 0.0002984418081658575, "loss": 3.9894, "step": 23950 }, { "epoch": 0.049916666666666665, "grad_norm": 0.7340117692947388, "learning_rate": 0.0002984403905436797, "loss": 3.98, "step": 23960 }, { "epoch": 0.0499375, "grad_norm": 0.851635217666626, "learning_rate": 0.0002984389722802982, "loss": 3.9136, "step": 23970 }, { "epoch": 0.049958333333333334, "grad_norm": 0.7983063459396362, "learning_rate": 0.0002984375533757191, "loss": 4.0232, "step": 23980 }, { "epoch": 0.049979166666666665, "grad_norm": 0.853800892829895, "learning_rate": 0.0002984361338299485, "loss": 3.8672, "step": 23990 }, { "epoch": 0.05, "grad_norm": 0.8548151254653931, "learning_rate": 0.00029843471364299256, "loss": 4.0783, "step": 24000 }, { "epoch": 0.05, "eval_loss": 4.347347736358643, "eval_runtime": 11.4296, "eval_samples_per_second": 0.875, "eval_steps_per_second": 0.262, "step": 24000 }, { "epoch": 0.050020833333333334, "grad_norm": 0.8277662396430969, "learning_rate": 0.0002984332928148574, "loss": 3.9539, "step": 24010 }, { "epoch": 0.050041666666666665, "grad_norm": 0.8331337571144104, "learning_rate": 0.00029843187134554914, "loss": 3.9732, "step": 24020 }, { "epoch": 0.0500625, "grad_norm": 0.9000012874603271, "learning_rate": 0.000298430449235074, "loss": 3.9963, "step": 24030 }, { "epoch": 0.050083333333333334, "grad_norm": 0.9151877760887146, "learning_rate": 0.00029842902648343807, "loss": 3.9517, "step": 24040 }, { "epoch": 0.050104166666666665, "grad_norm": 0.8493151068687439, "learning_rate": 0.0002984276030906475, "loss": 4.093, "step": 24050 }, { "epoch": 0.050125, "grad_norm": 0.7760912775993347, "learning_rate": 0.0002984261790567084, "loss": 4.055, "step": 24060 }, { "epoch": 0.050145833333333334, "grad_norm": 0.864129364490509, "learning_rate": 0.000298424754381627, "loss": 3.9772, "step": 24070 }, { "epoch": 0.050166666666666665, "grad_norm": 0.9417356848716736, "learning_rate": 0.00029842332906540933, "loss": 3.9935, "step": 24080 }, { "epoch": 0.0501875, "grad_norm": 0.8644965887069702, "learning_rate": 0.00029842190310806174, "loss": 3.932, "step": 24090 }, { "epoch": 0.050208333333333334, "grad_norm": 0.8468145728111267, "learning_rate": 0.0002984204765095902, "loss": 4.0962, "step": 24100 }, { "epoch": 0.050229166666666665, "grad_norm": 0.95412677526474, "learning_rate": 0.00029841904927000097, "loss": 4.073, "step": 24110 }, { "epoch": 0.05025, "grad_norm": 0.8298219442367554, "learning_rate": 0.0002984176213893002, "loss": 4.1402, "step": 24120 }, { "epoch": 0.050270833333333334, "grad_norm": 0.9508038759231567, "learning_rate": 0.0002984161928674941, "loss": 3.9665, "step": 24130 }, { "epoch": 0.050291666666666665, "grad_norm": 0.7885833382606506, "learning_rate": 0.00029841476370458876, "loss": 4.0473, "step": 24140 }, { "epoch": 0.0503125, "grad_norm": 0.9281105995178223, "learning_rate": 0.00029841333390059037, "loss": 4.0735, "step": 24150 }, { "epoch": 0.050333333333333334, "grad_norm": 0.9810423254966736, "learning_rate": 0.0002984119034555051, "loss": 4.1767, "step": 24160 }, { "epoch": 0.050354166666666665, "grad_norm": 0.8207609057426453, "learning_rate": 0.0002984104723693392, "loss": 4.0661, "step": 24170 }, { "epoch": 0.050375, "grad_norm": 0.8254885673522949, "learning_rate": 0.00029840904064209876, "loss": 3.9213, "step": 24180 }, { "epoch": 0.050395833333333334, "grad_norm": 1.1959748268127441, "learning_rate": 0.00029840760827379005, "loss": 3.8813, "step": 24190 }, { "epoch": 0.050416666666666665, "grad_norm": 0.8329674005508423, "learning_rate": 0.0002984061752644192, "loss": 4.0065, "step": 24200 }, { "epoch": 0.0504375, "grad_norm": 0.7591705918312073, "learning_rate": 0.00029840474161399244, "loss": 4.0899, "step": 24210 }, { "epoch": 0.050458333333333334, "grad_norm": 0.8808771967887878, "learning_rate": 0.0002984033073225159, "loss": 3.8932, "step": 24220 }, { "epoch": 0.050479166666666665, "grad_norm": 0.7809692025184631, "learning_rate": 0.00029840187238999586, "loss": 4.1626, "step": 24230 }, { "epoch": 0.0505, "grad_norm": 0.8034283518791199, "learning_rate": 0.0002984004368164384, "loss": 4.0652, "step": 24240 }, { "epoch": 0.050520833333333334, "grad_norm": 0.6930572390556335, "learning_rate": 0.00029839900060184987, "loss": 4.0517, "step": 24250 }, { "epoch": 0.050541666666666665, "grad_norm": 0.9040699601173401, "learning_rate": 0.0002983975637462364, "loss": 4.0113, "step": 24260 }, { "epoch": 0.0505625, "grad_norm": 0.8656926155090332, "learning_rate": 0.0002983961262496041, "loss": 4.0329, "step": 24270 }, { "epoch": 0.050583333333333334, "grad_norm": 0.967914879322052, "learning_rate": 0.00029839468811195934, "loss": 3.8955, "step": 24280 }, { "epoch": 0.050604166666666665, "grad_norm": 0.8455100655555725, "learning_rate": 0.00029839324933330833, "loss": 3.9037, "step": 24290 }, { "epoch": 0.050625, "grad_norm": 0.7704584002494812, "learning_rate": 0.0002983918099136571, "loss": 4.0779, "step": 24300 }, { "epoch": 0.050645833333333334, "grad_norm": 0.7977133989334106, "learning_rate": 0.00029839036985301203, "loss": 4.0039, "step": 24310 }, { "epoch": 0.050666666666666665, "grad_norm": 0.7024787664413452, "learning_rate": 0.00029838892915137933, "loss": 4.1259, "step": 24320 }, { "epoch": 0.0506875, "grad_norm": 0.9227488040924072, "learning_rate": 0.00029838748780876517, "loss": 4.1485, "step": 24330 }, { "epoch": 0.050708333333333334, "grad_norm": 0.872511088848114, "learning_rate": 0.0002983860458251758, "loss": 4.0785, "step": 24340 }, { "epoch": 0.050729166666666665, "grad_norm": 0.7802706956863403, "learning_rate": 0.00029838460320061745, "loss": 4.0116, "step": 24350 }, { "epoch": 0.05075, "grad_norm": 0.8472303748130798, "learning_rate": 0.00029838315993509635, "loss": 4.1154, "step": 24360 }, { "epoch": 0.050770833333333334, "grad_norm": 0.7653231620788574, "learning_rate": 0.00029838171602861874, "loss": 4.0464, "step": 24370 }, { "epoch": 0.050791666666666666, "grad_norm": 0.8424580693244934, "learning_rate": 0.0002983802714811908, "loss": 3.9846, "step": 24380 }, { "epoch": 0.0508125, "grad_norm": 0.7617825269699097, "learning_rate": 0.0002983788262928189, "loss": 4.0596, "step": 24390 }, { "epoch": 0.050833333333333335, "grad_norm": 0.8510026335716248, "learning_rate": 0.0002983773804635092, "loss": 3.9542, "step": 24400 }, { "epoch": 0.050854166666666666, "grad_norm": 0.8444216251373291, "learning_rate": 0.00029837593399326785, "loss": 4.0048, "step": 24410 }, { "epoch": 0.050875, "grad_norm": 0.863207221031189, "learning_rate": 0.00029837448688210127, "loss": 4.0538, "step": 24420 }, { "epoch": 0.050895833333333335, "grad_norm": 0.8117720484733582, "learning_rate": 0.00029837303913001563, "loss": 4.1629, "step": 24430 }, { "epoch": 0.050916666666666666, "grad_norm": 0.7415464520454407, "learning_rate": 0.0002983715907370172, "loss": 4.0591, "step": 24440 }, { "epoch": 0.0509375, "grad_norm": 0.8261129260063171, "learning_rate": 0.0002983701417031122, "loss": 3.9611, "step": 24450 }, { "epoch": 0.050958333333333335, "grad_norm": 0.7381312847137451, "learning_rate": 0.0002983686920283069, "loss": 3.969, "step": 24460 }, { "epoch": 0.050979166666666666, "grad_norm": 0.8820986151695251, "learning_rate": 0.0002983672417126077, "loss": 4.1006, "step": 24470 }, { "epoch": 0.051, "grad_norm": 0.9130018949508667, "learning_rate": 0.0002983657907560206, "loss": 3.9329, "step": 24480 }, { "epoch": 0.051020833333333335, "grad_norm": 0.8240141272544861, "learning_rate": 0.00029836433915855206, "loss": 4.1243, "step": 24490 }, { "epoch": 0.051041666666666666, "grad_norm": 0.8886264562606812, "learning_rate": 0.0002983628869202083, "loss": 3.8389, "step": 24500 }, { "epoch": 0.0510625, "grad_norm": 0.906816840171814, "learning_rate": 0.00029836143404099566, "loss": 4.1605, "step": 24510 }, { "epoch": 0.051083333333333335, "grad_norm": 0.8155732154846191, "learning_rate": 0.00029835998052092026, "loss": 4.0416, "step": 24520 }, { "epoch": 0.051104166666666666, "grad_norm": 0.8686359524726868, "learning_rate": 0.00029835852635998845, "loss": 3.9916, "step": 24530 }, { "epoch": 0.051125, "grad_norm": 0.8684254288673401, "learning_rate": 0.00029835707155820664, "loss": 3.9057, "step": 24540 }, { "epoch": 0.051145833333333335, "grad_norm": 0.7405751943588257, "learning_rate": 0.00029835561611558096, "loss": 3.9584, "step": 24550 }, { "epoch": 0.051166666666666666, "grad_norm": 0.7128321528434753, "learning_rate": 0.0002983541600321177, "loss": 4.0761, "step": 24560 }, { "epoch": 0.0511875, "grad_norm": 0.8397940993309021, "learning_rate": 0.0002983527033078232, "loss": 4.1326, "step": 24570 }, { "epoch": 0.051208333333333335, "grad_norm": 0.7793668508529663, "learning_rate": 0.0002983512459427038, "loss": 4.0901, "step": 24580 }, { "epoch": 0.051229166666666666, "grad_norm": 0.8340938687324524, "learning_rate": 0.0002983497879367657, "loss": 4.0293, "step": 24590 }, { "epoch": 0.05125, "grad_norm": 0.7802310585975647, "learning_rate": 0.0002983483292900152, "loss": 3.8209, "step": 24600 }, { "epoch": 0.051270833333333335, "grad_norm": 0.7505518794059753, "learning_rate": 0.0002983468700024587, "loss": 4.028, "step": 24610 }, { "epoch": 0.051291666666666666, "grad_norm": 0.8410331010818481, "learning_rate": 0.0002983454100741024, "loss": 4.0063, "step": 24620 }, { "epoch": 0.0513125, "grad_norm": 0.8373920321464539, "learning_rate": 0.0002983439495049527, "loss": 4.1231, "step": 24630 }, { "epoch": 0.051333333333333335, "grad_norm": 0.8215093612670898, "learning_rate": 0.0002983424882950158, "loss": 4.0855, "step": 24640 }, { "epoch": 0.051354166666666666, "grad_norm": 0.8255186080932617, "learning_rate": 0.0002983410264442981, "loss": 3.9579, "step": 24650 }, { "epoch": 0.051375, "grad_norm": 0.8137394785881042, "learning_rate": 0.00029833956395280585, "loss": 4.2709, "step": 24660 }, { "epoch": 0.051395833333333335, "grad_norm": 0.9061751365661621, "learning_rate": 0.0002983381008205455, "loss": 3.8865, "step": 24670 }, { "epoch": 0.051416666666666666, "grad_norm": 0.8042217493057251, "learning_rate": 0.00029833663704752314, "loss": 3.9136, "step": 24680 }, { "epoch": 0.0514375, "grad_norm": 0.8291239738464355, "learning_rate": 0.0002983351726337453, "loss": 4.0106, "step": 24690 }, { "epoch": 0.051458333333333335, "grad_norm": 0.7796221971511841, "learning_rate": 0.0002983337075792182, "loss": 3.9272, "step": 24700 }, { "epoch": 0.051479166666666666, "grad_norm": 0.810979962348938, "learning_rate": 0.00029833224188394815, "loss": 4.1116, "step": 24710 }, { "epoch": 0.0515, "grad_norm": 0.9180625081062317, "learning_rate": 0.00029833077554794165, "loss": 4.0781, "step": 24720 }, { "epoch": 0.051520833333333335, "grad_norm": 0.8540144562721252, "learning_rate": 0.00029832930857120484, "loss": 3.9997, "step": 24730 }, { "epoch": 0.051541666666666666, "grad_norm": 0.856884777545929, "learning_rate": 0.0002983278409537441, "loss": 3.9783, "step": 24740 }, { "epoch": 0.0515625, "grad_norm": 0.8272156119346619, "learning_rate": 0.0002983263726955659, "loss": 3.9733, "step": 24750 }, { "epoch": 0.051583333333333335, "grad_norm": 0.877055823802948, "learning_rate": 0.0002983249037966764, "loss": 4.0, "step": 24760 }, { "epoch": 0.051604166666666666, "grad_norm": 0.7884106040000916, "learning_rate": 0.00029832343425708203, "loss": 4.3885, "step": 24770 }, { "epoch": 0.051625, "grad_norm": 0.7568530440330505, "learning_rate": 0.00029832196407678915, "loss": 4.2284, "step": 24780 }, { "epoch": 0.051645833333333335, "grad_norm": 1.0403521060943604, "learning_rate": 0.00029832049325580407, "loss": 4.0581, "step": 24790 }, { "epoch": 0.051666666666666666, "grad_norm": 0.7303665280342102, "learning_rate": 0.00029831902179413324, "loss": 3.9523, "step": 24800 }, { "epoch": 0.0516875, "grad_norm": 0.8102442622184753, "learning_rate": 0.0002983175496917829, "loss": 4.2264, "step": 24810 }, { "epoch": 0.051708333333333335, "grad_norm": 0.8393380641937256, "learning_rate": 0.00029831607694875945, "loss": 4.0427, "step": 24820 }, { "epoch": 0.051729166666666666, "grad_norm": 0.8443405628204346, "learning_rate": 0.0002983146035650692, "loss": 4.0817, "step": 24830 }, { "epoch": 0.05175, "grad_norm": 0.7182561755180359, "learning_rate": 0.0002983131295407187, "loss": 4.141, "step": 24840 }, { "epoch": 0.051770833333333335, "grad_norm": 0.8440575003623962, "learning_rate": 0.0002983116548757141, "loss": 3.8603, "step": 24850 }, { "epoch": 0.051791666666666666, "grad_norm": 0.8431190252304077, "learning_rate": 0.00029831017957006187, "loss": 4.0168, "step": 24860 }, { "epoch": 0.0518125, "grad_norm": 0.6841872930526733, "learning_rate": 0.00029830870362376836, "loss": 4.0044, "step": 24870 }, { "epoch": 0.051833333333333335, "grad_norm": 0.8726463913917542, "learning_rate": 0.00029830722703683995, "loss": 4.1405, "step": 24880 }, { "epoch": 0.051854166666666666, "grad_norm": 0.9809200763702393, "learning_rate": 0.00029830574980928303, "loss": 4.082, "step": 24890 }, { "epoch": 0.051875, "grad_norm": 0.786038875579834, "learning_rate": 0.000298304271941104, "loss": 3.9916, "step": 24900 }, { "epoch": 0.051895833333333335, "grad_norm": 0.8995456695556641, "learning_rate": 0.00029830279343230924, "loss": 4.1122, "step": 24910 }, { "epoch": 0.051916666666666667, "grad_norm": 0.9543859958648682, "learning_rate": 0.00029830131428290504, "loss": 4.0918, "step": 24920 }, { "epoch": 0.0519375, "grad_norm": 0.7774547934532166, "learning_rate": 0.00029829983449289793, "loss": 4.0482, "step": 24930 }, { "epoch": 0.051958333333333336, "grad_norm": 0.8629083037376404, "learning_rate": 0.00029829835406229414, "loss": 4.0204, "step": 24940 }, { "epoch": 0.05197916666666667, "grad_norm": 0.9175631403923035, "learning_rate": 0.0002982968729911003, "loss": 4.0845, "step": 24950 }, { "epoch": 0.052, "grad_norm": 0.7594811320304871, "learning_rate": 0.00029829539127932254, "loss": 3.9998, "step": 24960 }, { "epoch": 0.052020833333333336, "grad_norm": 0.6801733374595642, "learning_rate": 0.0002982939089269675, "loss": 4.0655, "step": 24970 }, { "epoch": 0.05204166666666667, "grad_norm": 0.7805155515670776, "learning_rate": 0.00029829242593404137, "loss": 4.161, "step": 24980 }, { "epoch": 0.0520625, "grad_norm": 0.7797288298606873, "learning_rate": 0.00029829094230055073, "loss": 4.0497, "step": 24990 }, { "epoch": 0.052083333333333336, "grad_norm": 0.7731020450592041, "learning_rate": 0.0002982894580265019, "loss": 4.0063, "step": 25000 }, { "epoch": 0.052083333333333336, "eval_loss": 4.336343765258789, "eval_runtime": 10.9593, "eval_samples_per_second": 0.912, "eval_steps_per_second": 0.274, "step": 25000 }, { "epoch": 0.05210416666666667, "grad_norm": 0.8679764270782471, "learning_rate": 0.0002982879731119013, "loss": 3.9288, "step": 25010 }, { "epoch": 0.052125, "grad_norm": 0.9660125374794006, "learning_rate": 0.0002982864875567553, "loss": 4.0654, "step": 25020 }, { "epoch": 0.052145833333333336, "grad_norm": 0.8176667094230652, "learning_rate": 0.00029828500136107046, "loss": 3.8819, "step": 25030 }, { "epoch": 0.05216666666666667, "grad_norm": 0.9000110626220703, "learning_rate": 0.00029828351452485305, "loss": 4.068, "step": 25040 }, { "epoch": 0.0521875, "grad_norm": 0.8695964813232422, "learning_rate": 0.0002982820270481096, "loss": 3.9395, "step": 25050 }, { "epoch": 0.052208333333333336, "grad_norm": 0.8436212539672852, "learning_rate": 0.00029828053893084645, "loss": 3.9008, "step": 25060 }, { "epoch": 0.05222916666666667, "grad_norm": 0.9326121807098389, "learning_rate": 0.00029827905017307005, "loss": 4.1116, "step": 25070 }, { "epoch": 0.05225, "grad_norm": 0.8112564086914062, "learning_rate": 0.0002982775607747869, "loss": 4.0608, "step": 25080 }, { "epoch": 0.052270833333333336, "grad_norm": 0.7582147121429443, "learning_rate": 0.00029827607073600336, "loss": 3.951, "step": 25090 }, { "epoch": 0.05229166666666667, "grad_norm": 1.0393558740615845, "learning_rate": 0.00029827458005672586, "loss": 3.9703, "step": 25100 }, { "epoch": 0.0523125, "grad_norm": 0.8984432220458984, "learning_rate": 0.0002982730887369609, "loss": 3.8697, "step": 25110 }, { "epoch": 0.052333333333333336, "grad_norm": 0.8416324257850647, "learning_rate": 0.00029827159677671487, "loss": 4.0942, "step": 25120 }, { "epoch": 0.05235416666666667, "grad_norm": 0.883117139339447, "learning_rate": 0.0002982701041759942, "loss": 4.0695, "step": 25130 }, { "epoch": 0.052375, "grad_norm": 0.9035819172859192, "learning_rate": 0.00029826861093480543, "loss": 3.8093, "step": 25140 }, { "epoch": 0.052395833333333336, "grad_norm": 0.8934262990951538, "learning_rate": 0.00029826711705315494, "loss": 3.8761, "step": 25150 }, { "epoch": 0.05241666666666667, "grad_norm": 0.7317814826965332, "learning_rate": 0.00029826562253104915, "loss": 3.9768, "step": 25160 }, { "epoch": 0.0524375, "grad_norm": 0.8332627415657043, "learning_rate": 0.0002982641273684946, "loss": 3.9911, "step": 25170 }, { "epoch": 0.052458333333333336, "grad_norm": 0.8975181579589844, "learning_rate": 0.0002982626315654977, "loss": 4.1191, "step": 25180 }, { "epoch": 0.05247916666666667, "grad_norm": 0.7242105007171631, "learning_rate": 0.00029826113512206493, "loss": 4.1464, "step": 25190 }, { "epoch": 0.0525, "grad_norm": 0.9058417081832886, "learning_rate": 0.0002982596380382027, "loss": 4.1535, "step": 25200 }, { "epoch": 0.052520833333333336, "grad_norm": 0.8835211992263794, "learning_rate": 0.0002982581403139175, "loss": 4.1697, "step": 25210 }, { "epoch": 0.05254166666666667, "grad_norm": 0.7679778337478638, "learning_rate": 0.00029825664194921584, "loss": 4.1739, "step": 25220 }, { "epoch": 0.0525625, "grad_norm": 0.7050166130065918, "learning_rate": 0.00029825514294410424, "loss": 3.9807, "step": 25230 }, { "epoch": 0.052583333333333336, "grad_norm": 0.8627490401268005, "learning_rate": 0.00029825364329858905, "loss": 3.9646, "step": 25240 }, { "epoch": 0.05260416666666667, "grad_norm": 0.7679743766784668, "learning_rate": 0.00029825214301267683, "loss": 4.1079, "step": 25250 }, { "epoch": 0.052625, "grad_norm": 0.693442165851593, "learning_rate": 0.000298250642086374, "loss": 3.8797, "step": 25260 }, { "epoch": 0.052645833333333336, "grad_norm": 0.7887197732925415, "learning_rate": 0.00029824914051968703, "loss": 4.01, "step": 25270 }, { "epoch": 0.05266666666666667, "grad_norm": 0.7396295070648193, "learning_rate": 0.00029824763831262256, "loss": 4.0108, "step": 25280 }, { "epoch": 0.0526875, "grad_norm": 0.9091010689735413, "learning_rate": 0.0002982461354651869, "loss": 3.9888, "step": 25290 }, { "epoch": 0.052708333333333336, "grad_norm": 0.7854157090187073, "learning_rate": 0.00029824463197738663, "loss": 4.0078, "step": 25300 }, { "epoch": 0.05272916666666667, "grad_norm": 0.7814156413078308, "learning_rate": 0.0002982431278492283, "loss": 4.0492, "step": 25310 }, { "epoch": 0.05275, "grad_norm": 0.9090737104415894, "learning_rate": 0.00029824162308071824, "loss": 3.853, "step": 25320 }, { "epoch": 0.052770833333333336, "grad_norm": 0.8163498640060425, "learning_rate": 0.0002982401176718631, "loss": 3.9872, "step": 25330 }, { "epoch": 0.05279166666666667, "grad_norm": 0.8593524694442749, "learning_rate": 0.00029823861162266927, "loss": 3.9036, "step": 25340 }, { "epoch": 0.0528125, "grad_norm": 0.7348817586898804, "learning_rate": 0.00029823710493314336, "loss": 4.0633, "step": 25350 }, { "epoch": 0.052833333333333336, "grad_norm": 0.8376555442810059, "learning_rate": 0.0002982355976032919, "loss": 4.2846, "step": 25360 }, { "epoch": 0.05285416666666667, "grad_norm": 0.9028012752532959, "learning_rate": 0.0002982340896331212, "loss": 4.0197, "step": 25370 }, { "epoch": 0.052875, "grad_norm": 0.7531469464302063, "learning_rate": 0.000298232581022638, "loss": 4.0577, "step": 25380 }, { "epoch": 0.052895833333333336, "grad_norm": 0.7810875773429871, "learning_rate": 0.0002982310717718487, "loss": 4.1812, "step": 25390 }, { "epoch": 0.05291666666666667, "grad_norm": 0.9420462846755981, "learning_rate": 0.0002982295618807598, "loss": 4.0903, "step": 25400 }, { "epoch": 0.0529375, "grad_norm": 0.8849202394485474, "learning_rate": 0.0002982280513493779, "loss": 4.0536, "step": 25410 }, { "epoch": 0.052958333333333336, "grad_norm": 0.7876471281051636, "learning_rate": 0.00029822654017770954, "loss": 4.1859, "step": 25420 }, { "epoch": 0.05297916666666667, "grad_norm": 0.6946332454681396, "learning_rate": 0.00029822502836576113, "loss": 4.0652, "step": 25430 }, { "epoch": 0.053, "grad_norm": 0.766572892665863, "learning_rate": 0.0002982235159135393, "loss": 4.0054, "step": 25440 }, { "epoch": 0.053020833333333336, "grad_norm": 0.7415236234664917, "learning_rate": 0.0002982220028210506, "loss": 3.9045, "step": 25450 }, { "epoch": 0.05304166666666667, "grad_norm": 0.8876575231552124, "learning_rate": 0.0002982204890883014, "loss": 4.091, "step": 25460 }, { "epoch": 0.0530625, "grad_norm": 0.7859832644462585, "learning_rate": 0.00029821897471529843, "loss": 4.0758, "step": 25470 }, { "epoch": 0.05308333333333334, "grad_norm": 0.8452519178390503, "learning_rate": 0.00029821745970204816, "loss": 4.0975, "step": 25480 }, { "epoch": 0.05310416666666667, "grad_norm": 0.8111564517021179, "learning_rate": 0.0002982159440485571, "loss": 4.1749, "step": 25490 }, { "epoch": 0.053125, "grad_norm": 0.7085198163986206, "learning_rate": 0.00029821442775483187, "loss": 4.0537, "step": 25500 }, { "epoch": 0.05314583333333334, "grad_norm": 0.9012235999107361, "learning_rate": 0.00029821291082087896, "loss": 4.176, "step": 25510 }, { "epoch": 0.05316666666666667, "grad_norm": 0.8650346994400024, "learning_rate": 0.000298211393246705, "loss": 3.9709, "step": 25520 }, { "epoch": 0.0531875, "grad_norm": 0.7626082897186279, "learning_rate": 0.0002982098750323164, "loss": 3.9534, "step": 25530 }, { "epoch": 0.05320833333333334, "grad_norm": 0.7616943120956421, "learning_rate": 0.00029820835617771986, "loss": 3.9295, "step": 25540 }, { "epoch": 0.05322916666666667, "grad_norm": 0.8339295387268066, "learning_rate": 0.0002982068366829218, "loss": 4.0818, "step": 25550 }, { "epoch": 0.05325, "grad_norm": 0.7236396670341492, "learning_rate": 0.000298205316547929, "loss": 4.1177, "step": 25560 }, { "epoch": 0.05327083333333334, "grad_norm": 0.7763800621032715, "learning_rate": 0.0002982037957727478, "loss": 4.0758, "step": 25570 }, { "epoch": 0.05329166666666667, "grad_norm": 0.9085537195205688, "learning_rate": 0.0002982022743573849, "loss": 4.014, "step": 25580 }, { "epoch": 0.0533125, "grad_norm": 0.8715782761573792, "learning_rate": 0.00029820075230184683, "loss": 4.1275, "step": 25590 }, { "epoch": 0.05333333333333334, "grad_norm": 0.8721398711204529, "learning_rate": 0.0002981992296061402, "loss": 4.0606, "step": 25600 }, { "epoch": 0.05335416666666667, "grad_norm": 0.7593717575073242, "learning_rate": 0.00029819770627027153, "loss": 3.9948, "step": 25610 }, { "epoch": 0.053375, "grad_norm": 0.7327515482902527, "learning_rate": 0.00029819618229424744, "loss": 4.123, "step": 25620 }, { "epoch": 0.05339583333333333, "grad_norm": 0.7870599627494812, "learning_rate": 0.0002981946576780745, "loss": 4.1349, "step": 25630 }, { "epoch": 0.05341666666666667, "grad_norm": 0.751373291015625, "learning_rate": 0.0002981931324217593, "loss": 4.174, "step": 25640 }, { "epoch": 0.0534375, "grad_norm": 0.9155678749084473, "learning_rate": 0.0002981916065253084, "loss": 4.1807, "step": 25650 }, { "epoch": 0.05345833333333333, "grad_norm": 0.8148955702781677, "learning_rate": 0.0002981900799887284, "loss": 4.0155, "step": 25660 }, { "epoch": 0.05347916666666667, "grad_norm": 0.9303485155105591, "learning_rate": 0.000298188552812026, "loss": 3.9967, "step": 25670 }, { "epoch": 0.0535, "grad_norm": 0.8783281445503235, "learning_rate": 0.00029818702499520767, "loss": 4.0327, "step": 25680 }, { "epoch": 0.05352083333333333, "grad_norm": 0.8327281475067139, "learning_rate": 0.00029818549653828, "loss": 3.8982, "step": 25690 }, { "epoch": 0.05354166666666667, "grad_norm": 0.8736926317214966, "learning_rate": 0.0002981839674412497, "loss": 4.2395, "step": 25700 }, { "epoch": 0.0535625, "grad_norm": 0.8507968187332153, "learning_rate": 0.00029818243770412324, "loss": 4.0424, "step": 25710 }, { "epoch": 0.05358333333333333, "grad_norm": 0.923012375831604, "learning_rate": 0.0002981809073269074, "loss": 4.1088, "step": 25720 }, { "epoch": 0.05360416666666667, "grad_norm": 0.8640167713165283, "learning_rate": 0.0002981793763096086, "loss": 3.9143, "step": 25730 }, { "epoch": 0.053625, "grad_norm": 0.7366524934768677, "learning_rate": 0.00029817784465223363, "loss": 4.1999, "step": 25740 }, { "epoch": 0.05364583333333333, "grad_norm": 0.7925456762313843, "learning_rate": 0.00029817631235478905, "loss": 4.1754, "step": 25750 }, { "epoch": 0.05366666666666667, "grad_norm": 0.7976001501083374, "learning_rate": 0.0002981747794172814, "loss": 3.9346, "step": 25760 }, { "epoch": 0.0536875, "grad_norm": 0.8176832795143127, "learning_rate": 0.00029817324583971734, "loss": 3.8272, "step": 25770 }, { "epoch": 0.05370833333333333, "grad_norm": 0.9460039138793945, "learning_rate": 0.0002981717116221035, "loss": 4.0609, "step": 25780 }, { "epoch": 0.05372916666666667, "grad_norm": 0.8226052522659302, "learning_rate": 0.00029817017676444656, "loss": 4.213, "step": 25790 }, { "epoch": 0.05375, "grad_norm": 0.7489712834358215, "learning_rate": 0.00029816864126675305, "loss": 4.0105, "step": 25800 }, { "epoch": 0.05377083333333333, "grad_norm": 0.821898877620697, "learning_rate": 0.00029816710512902973, "loss": 4.1611, "step": 25810 }, { "epoch": 0.05379166666666667, "grad_norm": 0.8764083385467529, "learning_rate": 0.0002981655683512831, "loss": 3.9773, "step": 25820 }, { "epoch": 0.0538125, "grad_norm": 0.9119960069656372, "learning_rate": 0.00029816403093351987, "loss": 4.3071, "step": 25830 }, { "epoch": 0.05383333333333333, "grad_norm": 0.8117544054985046, "learning_rate": 0.00029816249287574676, "loss": 3.9691, "step": 25840 }, { "epoch": 0.05385416666666667, "grad_norm": 0.8214718103408813, "learning_rate": 0.0002981609541779702, "loss": 3.9859, "step": 25850 }, { "epoch": 0.053875, "grad_norm": 0.8828718662261963, "learning_rate": 0.00029815941484019707, "loss": 4.1477, "step": 25860 }, { "epoch": 0.05389583333333333, "grad_norm": 0.7494086623191833, "learning_rate": 0.00029815787486243387, "loss": 4.0238, "step": 25870 }, { "epoch": 0.05391666666666667, "grad_norm": 0.7445788979530334, "learning_rate": 0.00029815633424468726, "loss": 3.9501, "step": 25880 }, { "epoch": 0.0539375, "grad_norm": 0.8191030621528625, "learning_rate": 0.000298154792986964, "loss": 3.8307, "step": 25890 }, { "epoch": 0.05395833333333333, "grad_norm": 0.800342321395874, "learning_rate": 0.00029815325108927063, "loss": 4.002, "step": 25900 }, { "epoch": 0.05397916666666667, "grad_norm": 0.8192203044891357, "learning_rate": 0.0002981517085516139, "loss": 3.8703, "step": 25910 }, { "epoch": 0.054, "grad_norm": 0.793821394443512, "learning_rate": 0.00029815016537400037, "loss": 4.1342, "step": 25920 }, { "epoch": 0.05402083333333333, "grad_norm": 0.7684448957443237, "learning_rate": 0.00029814862155643683, "loss": 4.0141, "step": 25930 }, { "epoch": 0.05404166666666667, "grad_norm": 2.2807905673980713, "learning_rate": 0.00029814707709892985, "loss": 4.0951, "step": 25940 }, { "epoch": 0.0540625, "grad_norm": 0.9063512682914734, "learning_rate": 0.00029814553200148614, "loss": 3.9841, "step": 25950 }, { "epoch": 0.05408333333333333, "grad_norm": 0.9260051250457764, "learning_rate": 0.0002981439862641124, "loss": 4.1763, "step": 25960 }, { "epoch": 0.05410416666666667, "grad_norm": 0.7608188390731812, "learning_rate": 0.0002981424398868152, "loss": 3.8682, "step": 25970 }, { "epoch": 0.054125, "grad_norm": 0.8798760771751404, "learning_rate": 0.00029814089286960135, "loss": 4.0684, "step": 25980 }, { "epoch": 0.05414583333333333, "grad_norm": 0.9029885530471802, "learning_rate": 0.0002981393452124775, "loss": 3.8543, "step": 25990 }, { "epoch": 0.05416666666666667, "grad_norm": 0.8066505193710327, "learning_rate": 0.0002981377969154503, "loss": 4.0914, "step": 26000 }, { "epoch": 0.05416666666666667, "eval_loss": 4.327880859375, "eval_runtime": 9.9548, "eval_samples_per_second": 1.005, "eval_steps_per_second": 0.301, "step": 26000 }, { "epoch": 0.0541875, "grad_norm": 0.8141273856163025, "learning_rate": 0.00029813624797852645, "loss": 4.0672, "step": 26010 }, { "epoch": 0.05420833333333333, "grad_norm": 0.987872838973999, "learning_rate": 0.0002981346984017127, "loss": 4.019, "step": 26020 }, { "epoch": 0.05422916666666667, "grad_norm": 0.7986794710159302, "learning_rate": 0.0002981331481850156, "loss": 4.0217, "step": 26030 }, { "epoch": 0.05425, "grad_norm": 0.8378542065620422, "learning_rate": 0.000298131597328442, "loss": 4.0203, "step": 26040 }, { "epoch": 0.05427083333333333, "grad_norm": 0.7954228520393372, "learning_rate": 0.00029813004583199854, "loss": 4.042, "step": 26050 }, { "epoch": 0.05429166666666667, "grad_norm": 0.8431785702705383, "learning_rate": 0.00029812849369569185, "loss": 4.1244, "step": 26060 }, { "epoch": 0.0543125, "grad_norm": 0.9173063039779663, "learning_rate": 0.0002981269409195287, "loss": 4.029, "step": 26070 }, { "epoch": 0.05433333333333333, "grad_norm": 0.9336336255073547, "learning_rate": 0.00029812538750351587, "loss": 4.2161, "step": 26080 }, { "epoch": 0.05435416666666667, "grad_norm": 0.7570144534111023, "learning_rate": 0.00029812383344765997, "loss": 4.1046, "step": 26090 }, { "epoch": 0.054375, "grad_norm": 0.7910475134849548, "learning_rate": 0.0002981222787519677, "loss": 3.9664, "step": 26100 }, { "epoch": 0.05439583333333333, "grad_norm": 0.8541643023490906, "learning_rate": 0.00029812072341644586, "loss": 4.1627, "step": 26110 }, { "epoch": 0.05441666666666667, "grad_norm": 1.0798332691192627, "learning_rate": 0.00029811916744110114, "loss": 4.0423, "step": 26120 }, { "epoch": 0.0544375, "grad_norm": 0.8847834467887878, "learning_rate": 0.0002981176108259402, "loss": 4.0959, "step": 26130 }, { "epoch": 0.05445833333333333, "grad_norm": 0.8834118843078613, "learning_rate": 0.00029811605357096983, "loss": 4.1612, "step": 26140 }, { "epoch": 0.05447916666666667, "grad_norm": 0.7863786220550537, "learning_rate": 0.00029811449567619674, "loss": 4.1921, "step": 26150 }, { "epoch": 0.0545, "grad_norm": 0.7746523022651672, "learning_rate": 0.00029811293714162765, "loss": 4.0166, "step": 26160 }, { "epoch": 0.05452083333333333, "grad_norm": 0.9141077399253845, "learning_rate": 0.0002981113779672693, "loss": 3.9987, "step": 26170 }, { "epoch": 0.05454166666666667, "grad_norm": 0.8758476376533508, "learning_rate": 0.00029810981815312843, "loss": 4.0979, "step": 26180 }, { "epoch": 0.0545625, "grad_norm": 0.8166067004203796, "learning_rate": 0.0002981082576992118, "loss": 4.1661, "step": 26190 }, { "epoch": 0.05458333333333333, "grad_norm": 0.9543054699897766, "learning_rate": 0.00029810669660552605, "loss": 3.9377, "step": 26200 }, { "epoch": 0.05460416666666667, "grad_norm": 0.8993768692016602, "learning_rate": 0.00029810513487207803, "loss": 4.1213, "step": 26210 }, { "epoch": 0.054625, "grad_norm": 0.8368244767189026, "learning_rate": 0.00029810357249887445, "loss": 4.0153, "step": 26220 }, { "epoch": 0.05464583333333333, "grad_norm": 0.7785241603851318, "learning_rate": 0.0002981020094859221, "loss": 4.0867, "step": 26230 }, { "epoch": 0.05466666666666667, "grad_norm": 0.8933708071708679, "learning_rate": 0.00029810044583322763, "loss": 4.0624, "step": 26240 }, { "epoch": 0.0546875, "grad_norm": 0.8962421417236328, "learning_rate": 0.0002980988815407979, "loss": 3.9639, "step": 26250 }, { "epoch": 0.05470833333333333, "grad_norm": 0.684798538684845, "learning_rate": 0.0002980973166086396, "loss": 4.1126, "step": 26260 }, { "epoch": 0.05472916666666667, "grad_norm": 0.9264472723007202, "learning_rate": 0.00029809575103675954, "loss": 3.862, "step": 26270 }, { "epoch": 0.05475, "grad_norm": 0.843055248260498, "learning_rate": 0.00029809418482516445, "loss": 4.1021, "step": 26280 }, { "epoch": 0.05477083333333333, "grad_norm": 0.8278912305831909, "learning_rate": 0.00029809261797386107, "loss": 4.0889, "step": 26290 }, { "epoch": 0.05479166666666667, "grad_norm": 0.6960598230361938, "learning_rate": 0.00029809105048285623, "loss": 4.0218, "step": 26300 }, { "epoch": 0.0548125, "grad_norm": 0.9725921750068665, "learning_rate": 0.00029808948235215667, "loss": 4.1104, "step": 26310 }, { "epoch": 0.05483333333333333, "grad_norm": 0.8458218574523926, "learning_rate": 0.00029808791358176915, "loss": 3.9462, "step": 26320 }, { "epoch": 0.05485416666666667, "grad_norm": 0.8072821497917175, "learning_rate": 0.00029808634417170045, "loss": 3.8956, "step": 26330 }, { "epoch": 0.054875, "grad_norm": 0.8500383496284485, "learning_rate": 0.00029808477412195735, "loss": 4.0255, "step": 26340 }, { "epoch": 0.05489583333333333, "grad_norm": 0.8301315903663635, "learning_rate": 0.00029808320343254667, "loss": 4.1327, "step": 26350 }, { "epoch": 0.05491666666666667, "grad_norm": 0.8975498676300049, "learning_rate": 0.00029808163210347515, "loss": 3.9418, "step": 26360 }, { "epoch": 0.0549375, "grad_norm": 0.7640777230262756, "learning_rate": 0.00029808006013474966, "loss": 4.0775, "step": 26370 }, { "epoch": 0.05495833333333333, "grad_norm": 0.967329740524292, "learning_rate": 0.00029807848752637687, "loss": 3.8917, "step": 26380 }, { "epoch": 0.05497916666666667, "grad_norm": 0.9528917670249939, "learning_rate": 0.00029807691427836356, "loss": 4.3266, "step": 26390 }, { "epoch": 0.055, "grad_norm": 0.7159419655799866, "learning_rate": 0.0002980753403907167, "loss": 4.1829, "step": 26400 }, { "epoch": 0.05502083333333333, "grad_norm": 0.9421341419219971, "learning_rate": 0.0002980737658634429, "loss": 4.3492, "step": 26410 }, { "epoch": 0.05504166666666667, "grad_norm": 0.7884871363639832, "learning_rate": 0.00029807219069654913, "loss": 4.0769, "step": 26420 }, { "epoch": 0.0550625, "grad_norm": 0.836663544178009, "learning_rate": 0.0002980706148900421, "loss": 4.0898, "step": 26430 }, { "epoch": 0.05508333333333333, "grad_norm": 0.8299884796142578, "learning_rate": 0.0002980690384439286, "loss": 4.2722, "step": 26440 }, { "epoch": 0.05510416666666667, "grad_norm": 0.827055811882019, "learning_rate": 0.0002980674613582154, "loss": 4.1584, "step": 26450 }, { "epoch": 0.055125, "grad_norm": 0.798271894454956, "learning_rate": 0.00029806588363290944, "loss": 4.1217, "step": 26460 }, { "epoch": 0.05514583333333333, "grad_norm": 0.7749260067939758, "learning_rate": 0.0002980643052680174, "loss": 4.0913, "step": 26470 }, { "epoch": 0.05516666666666667, "grad_norm": 0.8462902903556824, "learning_rate": 0.00029806272626354624, "loss": 3.9218, "step": 26480 }, { "epoch": 0.0551875, "grad_norm": 0.7688209414482117, "learning_rate": 0.00029806114661950274, "loss": 3.876, "step": 26490 }, { "epoch": 0.05520833333333333, "grad_norm": 0.7899056077003479, "learning_rate": 0.00029805956633589364, "loss": 4.1518, "step": 26500 }, { "epoch": 0.05522916666666667, "grad_norm": 0.7763992547988892, "learning_rate": 0.0002980579854127259, "loss": 4.1465, "step": 26510 }, { "epoch": 0.05525, "grad_norm": 0.7726714611053467, "learning_rate": 0.0002980564038500061, "loss": 4.07, "step": 26520 }, { "epoch": 0.05527083333333333, "grad_norm": 0.8705474734306335, "learning_rate": 0.0002980548216477414, "loss": 3.9944, "step": 26530 }, { "epoch": 0.05529166666666667, "grad_norm": 0.939509391784668, "learning_rate": 0.00029805323880593835, "loss": 4.1509, "step": 26540 }, { "epoch": 0.0553125, "grad_norm": 1.152762532234192, "learning_rate": 0.000298051655324604, "loss": 3.9186, "step": 26550 }, { "epoch": 0.05533333333333333, "grad_norm": 0.9585802555084229, "learning_rate": 0.0002980500712037451, "loss": 4.1011, "step": 26560 }, { "epoch": 0.05535416666666667, "grad_norm": 0.9303189516067505, "learning_rate": 0.00029804848644336847, "loss": 4.0939, "step": 26570 }, { "epoch": 0.055375, "grad_norm": 0.9007387161254883, "learning_rate": 0.000298046901043481, "loss": 4.162, "step": 26580 }, { "epoch": 0.05539583333333333, "grad_norm": 0.9668160676956177, "learning_rate": 0.0002980453150040895, "loss": 4.1048, "step": 26590 }, { "epoch": 0.05541666666666667, "grad_norm": 1.0031564235687256, "learning_rate": 0.00029804372832520083, "loss": 4.1194, "step": 26600 }, { "epoch": 0.0554375, "grad_norm": 0.7170320153236389, "learning_rate": 0.0002980421410068218, "loss": 3.9291, "step": 26610 }, { "epoch": 0.05545833333333333, "grad_norm": 0.9012174010276794, "learning_rate": 0.0002980405530489594, "loss": 4.0613, "step": 26620 }, { "epoch": 0.05547916666666667, "grad_norm": 0.8920809030532837, "learning_rate": 0.00029803896445162044, "loss": 3.9663, "step": 26630 }, { "epoch": 0.0555, "grad_norm": 0.8539957404136658, "learning_rate": 0.0002980373752148117, "loss": 4.1443, "step": 26640 }, { "epoch": 0.05552083333333333, "grad_norm": 0.7610334157943726, "learning_rate": 0.00029803578533854006, "loss": 4.0156, "step": 26650 }, { "epoch": 0.05554166666666667, "grad_norm": 0.8605121970176697, "learning_rate": 0.0002980341948228125, "loss": 4.0721, "step": 26660 }, { "epoch": 0.0555625, "grad_norm": 0.9511190056800842, "learning_rate": 0.00029803260366763573, "loss": 4.0147, "step": 26670 }, { "epoch": 0.05558333333333333, "grad_norm": 0.8601688742637634, "learning_rate": 0.0002980310118730168, "loss": 3.9876, "step": 26680 }, { "epoch": 0.05560416666666667, "grad_norm": 0.8312391042709351, "learning_rate": 0.00029802941943896246, "loss": 4.1528, "step": 26690 }, { "epoch": 0.055625, "grad_norm": 0.877134382724762, "learning_rate": 0.0002980278263654796, "loss": 4.0018, "step": 26700 }, { "epoch": 0.05564583333333333, "grad_norm": 0.7916426658630371, "learning_rate": 0.0002980262326525751, "loss": 4.0851, "step": 26710 }, { "epoch": 0.05566666666666667, "grad_norm": 1.0125732421875, "learning_rate": 0.00029802463830025594, "loss": 4.079, "step": 26720 }, { "epoch": 0.0556875, "grad_norm": 0.8588639497756958, "learning_rate": 0.0002980230433085289, "loss": 4.0211, "step": 26730 }, { "epoch": 0.05570833333333333, "grad_norm": 0.712783932685852, "learning_rate": 0.0002980214476774009, "loss": 3.9905, "step": 26740 }, { "epoch": 0.05572916666666667, "grad_norm": 0.8296897411346436, "learning_rate": 0.00029801985140687887, "loss": 3.9402, "step": 26750 }, { "epoch": 0.05575, "grad_norm": 0.8519870638847351, "learning_rate": 0.0002980182544969696, "loss": 3.9881, "step": 26760 }, { "epoch": 0.05577083333333333, "grad_norm": 0.775160551071167, "learning_rate": 0.0002980166569476801, "loss": 3.8696, "step": 26770 }, { "epoch": 0.05579166666666667, "grad_norm": 0.8488153219223022, "learning_rate": 0.00029801505875901724, "loss": 4.1092, "step": 26780 }, { "epoch": 0.0558125, "grad_norm": 0.8470948934555054, "learning_rate": 0.0002980134599309879, "loss": 3.9841, "step": 26790 }, { "epoch": 0.05583333333333333, "grad_norm": 0.8169370889663696, "learning_rate": 0.000298011860463599, "loss": 4.0456, "step": 26800 }, { "epoch": 0.05585416666666667, "grad_norm": 0.8172879815101624, "learning_rate": 0.00029801026035685747, "loss": 4.162, "step": 26810 }, { "epoch": 0.055875, "grad_norm": 0.8793221712112427, "learning_rate": 0.0002980086596107702, "loss": 3.8978, "step": 26820 }, { "epoch": 0.05589583333333333, "grad_norm": 0.7493585348129272, "learning_rate": 0.0002980070582253441, "loss": 4.1169, "step": 26830 }, { "epoch": 0.05591666666666667, "grad_norm": 0.7737422585487366, "learning_rate": 0.00029800545620058605, "loss": 4.1433, "step": 26840 }, { "epoch": 0.0559375, "grad_norm": 0.8545136451721191, "learning_rate": 0.0002980038535365031, "loss": 4.0284, "step": 26850 }, { "epoch": 0.05595833333333333, "grad_norm": 0.7985082268714905, "learning_rate": 0.00029800225023310205, "loss": 4.2711, "step": 26860 }, { "epoch": 0.05597916666666667, "grad_norm": 1.006777048110962, "learning_rate": 0.00029800064629038984, "loss": 4.1632, "step": 26870 }, { "epoch": 0.056, "grad_norm": 0.8652099370956421, "learning_rate": 0.0002979990417083734, "loss": 3.9666, "step": 26880 }, { "epoch": 0.05602083333333333, "grad_norm": 0.8486884832382202, "learning_rate": 0.00029799743648705975, "loss": 3.9628, "step": 26890 }, { "epoch": 0.05604166666666666, "grad_norm": 0.7718522548675537, "learning_rate": 0.0002979958306264557, "loss": 4.1106, "step": 26900 }, { "epoch": 0.0560625, "grad_norm": 0.7484955191612244, "learning_rate": 0.0002979942241265683, "loss": 3.9871, "step": 26910 }, { "epoch": 0.05608333333333333, "grad_norm": 0.8751292824745178, "learning_rate": 0.0002979926169874044, "loss": 3.9829, "step": 26920 }, { "epoch": 0.05610416666666666, "grad_norm": 0.8743491768836975, "learning_rate": 0.00029799100920897093, "loss": 4.0426, "step": 26930 }, { "epoch": 0.056125, "grad_norm": 0.7279717326164246, "learning_rate": 0.000297989400791275, "loss": 4.3661, "step": 26940 }, { "epoch": 0.05614583333333333, "grad_norm": 0.9955036044120789, "learning_rate": 0.0002979877917343233, "loss": 4.0641, "step": 26950 }, { "epoch": 0.05616666666666666, "grad_norm": 0.9362075328826904, "learning_rate": 0.000297986182038123, "loss": 4.0888, "step": 26960 }, { "epoch": 0.0561875, "grad_norm": 0.8330509066581726, "learning_rate": 0.0002979845717026809, "loss": 4.0181, "step": 26970 }, { "epoch": 0.05620833333333333, "grad_norm": 0.8496983051300049, "learning_rate": 0.0002979829607280041, "loss": 3.9437, "step": 26980 }, { "epoch": 0.05622916666666666, "grad_norm": 0.8705129623413086, "learning_rate": 0.00029798134911409945, "loss": 4.0155, "step": 26990 }, { "epoch": 0.05625, "grad_norm": 0.8399545550346375, "learning_rate": 0.00029797973686097396, "loss": 4.1028, "step": 27000 }, { "epoch": 0.05625, "eval_loss": 4.34025764465332, "eval_runtime": 8.7535, "eval_samples_per_second": 1.142, "eval_steps_per_second": 0.343, "step": 27000 }, { "epoch": 0.05627083333333333, "grad_norm": 0.7662619352340698, "learning_rate": 0.0002979781239686346, "loss": 3.9422, "step": 27010 }, { "epoch": 0.05629166666666666, "grad_norm": 0.8046996593475342, "learning_rate": 0.00029797651043708825, "loss": 3.939, "step": 27020 }, { "epoch": 0.0563125, "grad_norm": 0.7235816717147827, "learning_rate": 0.000297974896266342, "loss": 3.8503, "step": 27030 }, { "epoch": 0.05633333333333333, "grad_norm": 0.7669816613197327, "learning_rate": 0.00029797328145640277, "loss": 3.9678, "step": 27040 }, { "epoch": 0.056354166666666664, "grad_norm": 0.9331650733947754, "learning_rate": 0.00029797166600727755, "loss": 3.9661, "step": 27050 }, { "epoch": 0.056375, "grad_norm": 0.8737671971321106, "learning_rate": 0.00029797004991897325, "loss": 4.083, "step": 27060 }, { "epoch": 0.05639583333333333, "grad_norm": 0.8824302554130554, "learning_rate": 0.0002979684331914969, "loss": 3.9502, "step": 27070 }, { "epoch": 0.056416666666666664, "grad_norm": 0.8021812438964844, "learning_rate": 0.0002979668158248556, "loss": 4.0736, "step": 27080 }, { "epoch": 0.0564375, "grad_norm": 0.8866938352584839, "learning_rate": 0.0002979651978190561, "loss": 4.099, "step": 27090 }, { "epoch": 0.05645833333333333, "grad_norm": 1.1149288415908813, "learning_rate": 0.0002979635791741056, "loss": 4.0386, "step": 27100 }, { "epoch": 0.056479166666666664, "grad_norm": 0.8148994445800781, "learning_rate": 0.00029796195989001097, "loss": 3.997, "step": 27110 }, { "epoch": 0.0565, "grad_norm": 0.9753552079200745, "learning_rate": 0.00029796033996677923, "loss": 3.9277, "step": 27120 }, { "epoch": 0.05652083333333333, "grad_norm": 0.7911841869354248, "learning_rate": 0.0002979587194044174, "loss": 4.129, "step": 27130 }, { "epoch": 0.056541666666666664, "grad_norm": 0.9248166680335999, "learning_rate": 0.00029795709820293245, "loss": 4.0083, "step": 27140 }, { "epoch": 0.0565625, "grad_norm": 0.8655888438224792, "learning_rate": 0.0002979554763623314, "loss": 4.0271, "step": 27150 }, { "epoch": 0.05658333333333333, "grad_norm": 0.818027138710022, "learning_rate": 0.0002979538538826213, "loss": 4.028, "step": 27160 }, { "epoch": 0.056604166666666664, "grad_norm": 0.7877675890922546, "learning_rate": 0.0002979522307638091, "loss": 4.0262, "step": 27170 }, { "epoch": 0.056625, "grad_norm": 0.8260944485664368, "learning_rate": 0.0002979506070059018, "loss": 3.796, "step": 27180 }, { "epoch": 0.05664583333333333, "grad_norm": 0.8311991095542908, "learning_rate": 0.0002979489826089065, "loss": 3.8647, "step": 27190 }, { "epoch": 0.056666666666666664, "grad_norm": 0.8984955549240112, "learning_rate": 0.0002979473575728301, "loss": 4.0896, "step": 27200 }, { "epoch": 0.0566875, "grad_norm": 0.7244242429733276, "learning_rate": 0.0002979457318976797, "loss": 3.9002, "step": 27210 }, { "epoch": 0.05670833333333333, "grad_norm": 0.9853846430778503, "learning_rate": 0.0002979441055834623, "loss": 3.9856, "step": 27220 }, { "epoch": 0.056729166666666664, "grad_norm": 0.8580873012542725, "learning_rate": 0.0002979424786301849, "loss": 4.0081, "step": 27230 }, { "epoch": 0.05675, "grad_norm": 0.8319786787033081, "learning_rate": 0.00029794085103785456, "loss": 4.0757, "step": 27240 }, { "epoch": 0.05677083333333333, "grad_norm": 0.8109108805656433, "learning_rate": 0.00029793922280647834, "loss": 4.1142, "step": 27250 }, { "epoch": 0.056791666666666664, "grad_norm": 0.8998830914497375, "learning_rate": 0.00029793759393606316, "loss": 4.0393, "step": 27260 }, { "epoch": 0.0568125, "grad_norm": 0.900560200214386, "learning_rate": 0.0002979359644266162, "loss": 4.0735, "step": 27270 }, { "epoch": 0.05683333333333333, "grad_norm": 0.7826215028762817, "learning_rate": 0.0002979343342781444, "loss": 4.1502, "step": 27280 }, { "epoch": 0.056854166666666664, "grad_norm": 0.9946727156639099, "learning_rate": 0.00029793270349065483, "loss": 4.1398, "step": 27290 }, { "epoch": 0.056875, "grad_norm": 0.7540108561515808, "learning_rate": 0.0002979310720641546, "loss": 4.0657, "step": 27300 }, { "epoch": 0.05689583333333333, "grad_norm": 0.8192663788795471, "learning_rate": 0.00029792943999865063, "loss": 4.0565, "step": 27310 }, { "epoch": 0.056916666666666664, "grad_norm": 0.8690114617347717, "learning_rate": 0.00029792780729415006, "loss": 3.9907, "step": 27320 }, { "epoch": 0.0569375, "grad_norm": 0.7957090139389038, "learning_rate": 0.00029792617395065987, "loss": 3.9551, "step": 27330 }, { "epoch": 0.05695833333333333, "grad_norm": 0.8989977836608887, "learning_rate": 0.0002979245399681872, "loss": 3.7973, "step": 27340 }, { "epoch": 0.056979166666666664, "grad_norm": 0.756544291973114, "learning_rate": 0.00029792290534673904, "loss": 3.9086, "step": 27350 }, { "epoch": 0.057, "grad_norm": 0.765736997127533, "learning_rate": 0.00029792127008632254, "loss": 4.0317, "step": 27360 }, { "epoch": 0.05702083333333333, "grad_norm": 0.7790989279747009, "learning_rate": 0.00029791963418694466, "loss": 4.0469, "step": 27370 }, { "epoch": 0.057041666666666664, "grad_norm": 0.9195044040679932, "learning_rate": 0.0002979179976486125, "loss": 4.0934, "step": 27380 }, { "epoch": 0.0570625, "grad_norm": 0.776422917842865, "learning_rate": 0.00029791636047133313, "loss": 3.9163, "step": 27390 }, { "epoch": 0.05708333333333333, "grad_norm": 0.6974582672119141, "learning_rate": 0.00029791472265511374, "loss": 4.0636, "step": 27400 }, { "epoch": 0.057104166666666664, "grad_norm": 0.8672731518745422, "learning_rate": 0.00029791308419996115, "loss": 3.9009, "step": 27410 }, { "epoch": 0.057125, "grad_norm": 0.7101858854293823, "learning_rate": 0.0002979114451058827, "loss": 4.1968, "step": 27420 }, { "epoch": 0.05714583333333333, "grad_norm": 0.7952308654785156, "learning_rate": 0.0002979098053728853, "loss": 4.1748, "step": 27430 }, { "epoch": 0.057166666666666664, "grad_norm": 0.8893304467201233, "learning_rate": 0.0002979081650009761, "loss": 4.0173, "step": 27440 }, { "epoch": 0.0571875, "grad_norm": 0.7687021493911743, "learning_rate": 0.00029790652399016215, "loss": 4.025, "step": 27450 }, { "epoch": 0.05720833333333333, "grad_norm": 0.8946152925491333, "learning_rate": 0.0002979048823404506, "loss": 4.0742, "step": 27460 }, { "epoch": 0.057229166666666664, "grad_norm": 0.85627681016922, "learning_rate": 0.0002979032400518485, "loss": 4.0041, "step": 27470 }, { "epoch": 0.05725, "grad_norm": 0.7949414253234863, "learning_rate": 0.0002979015971243629, "loss": 4.0341, "step": 27480 }, { "epoch": 0.05727083333333333, "grad_norm": 0.8534319400787354, "learning_rate": 0.00029789995355800097, "loss": 4.159, "step": 27490 }, { "epoch": 0.057291666666666664, "grad_norm": 0.8384714722633362, "learning_rate": 0.0002978983093527698, "loss": 3.859, "step": 27500 }, { "epoch": 0.0573125, "grad_norm": 0.8197859525680542, "learning_rate": 0.00029789666450867646, "loss": 4.117, "step": 27510 }, { "epoch": 0.05733333333333333, "grad_norm": 1.0367538928985596, "learning_rate": 0.0002978950190257281, "loss": 4.1616, "step": 27520 }, { "epoch": 0.057354166666666664, "grad_norm": 0.99312424659729, "learning_rate": 0.0002978933729039318, "loss": 4.169, "step": 27530 }, { "epoch": 0.057375, "grad_norm": 0.8041914701461792, "learning_rate": 0.0002978917261432946, "loss": 4.0776, "step": 27540 }, { "epoch": 0.05739583333333333, "grad_norm": 0.8126703500747681, "learning_rate": 0.0002978900787438237, "loss": 4.0802, "step": 27550 }, { "epoch": 0.057416666666666664, "grad_norm": 0.9069227576255798, "learning_rate": 0.00029788843070552626, "loss": 3.9387, "step": 27560 }, { "epoch": 0.0574375, "grad_norm": 0.887240469455719, "learning_rate": 0.0002978867820284093, "loss": 3.9194, "step": 27570 }, { "epoch": 0.057458333333333333, "grad_norm": 0.9570077061653137, "learning_rate": 0.00029788513271247996, "loss": 4.0781, "step": 27580 }, { "epoch": 0.057479166666666665, "grad_norm": 0.8808181881904602, "learning_rate": 0.0002978834827577454, "loss": 4.1384, "step": 27590 }, { "epoch": 0.0575, "grad_norm": 0.8422778844833374, "learning_rate": 0.00029788183216421276, "loss": 4.1494, "step": 27600 }, { "epoch": 0.057520833333333334, "grad_norm": 0.6994836330413818, "learning_rate": 0.00029788018093188914, "loss": 4.1421, "step": 27610 }, { "epoch": 0.057541666666666665, "grad_norm": 0.8527041077613831, "learning_rate": 0.00029787852906078163, "loss": 4.1566, "step": 27620 }, { "epoch": 0.0575625, "grad_norm": 0.7462884783744812, "learning_rate": 0.00029787687655089744, "loss": 4.0049, "step": 27630 }, { "epoch": 0.057583333333333334, "grad_norm": 0.813798725605011, "learning_rate": 0.00029787522340224366, "loss": 4.0982, "step": 27640 }, { "epoch": 0.057604166666666665, "grad_norm": 0.8344324231147766, "learning_rate": 0.00029787356961482746, "loss": 4.0809, "step": 27650 }, { "epoch": 0.057625, "grad_norm": 1.0217283964157104, "learning_rate": 0.00029787191518865593, "loss": 3.9823, "step": 27660 }, { "epoch": 0.057645833333333334, "grad_norm": 0.9248143434524536, "learning_rate": 0.00029787026012373635, "loss": 3.8954, "step": 27670 }, { "epoch": 0.057666666666666665, "grad_norm": 0.7930680513381958, "learning_rate": 0.00029786860442007574, "loss": 4.1168, "step": 27680 }, { "epoch": 0.0576875, "grad_norm": 0.8671926856040955, "learning_rate": 0.00029786694807768123, "loss": 3.9908, "step": 27690 }, { "epoch": 0.057708333333333334, "grad_norm": 0.7984269857406616, "learning_rate": 0.0002978652910965601, "loss": 4.062, "step": 27700 }, { "epoch": 0.057729166666666665, "grad_norm": 1.006212830543518, "learning_rate": 0.00029786363347671937, "loss": 3.9895, "step": 27710 }, { "epoch": 0.05775, "grad_norm": 0.8185776472091675, "learning_rate": 0.0002978619752181663, "loss": 4.1555, "step": 27720 }, { "epoch": 0.057770833333333334, "grad_norm": 0.7997540235519409, "learning_rate": 0.00029786031632090805, "loss": 4.0457, "step": 27730 }, { "epoch": 0.057791666666666665, "grad_norm": 0.9799068570137024, "learning_rate": 0.0002978586567849518, "loss": 4.0002, "step": 27740 }, { "epoch": 0.0578125, "grad_norm": 0.7385460734367371, "learning_rate": 0.0002978569966103046, "loss": 4.0234, "step": 27750 }, { "epoch": 0.057833333333333334, "grad_norm": 0.8779273629188538, "learning_rate": 0.00029785533579697375, "loss": 4.0522, "step": 27760 }, { "epoch": 0.057854166666666665, "grad_norm": 0.914624035358429, "learning_rate": 0.00029785367434496636, "loss": 4.1752, "step": 27770 }, { "epoch": 0.057875, "grad_norm": 0.8123421669006348, "learning_rate": 0.00029785201225428963, "loss": 4.1883, "step": 27780 }, { "epoch": 0.057895833333333334, "grad_norm": 0.8019118905067444, "learning_rate": 0.0002978503495249507, "loss": 4.1303, "step": 27790 }, { "epoch": 0.057916666666666665, "grad_norm": 0.8312571048736572, "learning_rate": 0.0002978486861569568, "loss": 4.1969, "step": 27800 }, { "epoch": 0.0579375, "grad_norm": 0.8312780261039734, "learning_rate": 0.0002978470221503151, "loss": 4.1649, "step": 27810 }, { "epoch": 0.057958333333333334, "grad_norm": 0.9603740572929382, "learning_rate": 0.0002978453575050328, "loss": 3.848, "step": 27820 }, { "epoch": 0.057979166666666665, "grad_norm": 0.7763473391532898, "learning_rate": 0.00029784369222111707, "loss": 4.1055, "step": 27830 }, { "epoch": 0.058, "grad_norm": 0.8713984489440918, "learning_rate": 0.0002978420262985751, "loss": 4.0039, "step": 27840 }, { "epoch": 0.058020833333333334, "grad_norm": 0.7909165024757385, "learning_rate": 0.00029784035973741413, "loss": 4.0107, "step": 27850 }, { "epoch": 0.058041666666666665, "grad_norm": 0.8102976083755493, "learning_rate": 0.0002978386925376413, "loss": 3.9948, "step": 27860 }, { "epoch": 0.0580625, "grad_norm": 0.7579713463783264, "learning_rate": 0.0002978370246992638, "loss": 4.0644, "step": 27870 }, { "epoch": 0.058083333333333334, "grad_norm": 0.8094449043273926, "learning_rate": 0.0002978353562222889, "loss": 4.0242, "step": 27880 }, { "epoch": 0.058104166666666665, "grad_norm": 0.8413870930671692, "learning_rate": 0.0002978336871067238, "loss": 4.1037, "step": 27890 }, { "epoch": 0.058125, "grad_norm": 0.9004387855529785, "learning_rate": 0.0002978320173525757, "loss": 3.9812, "step": 27900 }, { "epoch": 0.058145833333333334, "grad_norm": 0.8963835835456848, "learning_rate": 0.0002978303469598517, "loss": 4.0219, "step": 27910 }, { "epoch": 0.058166666666666665, "grad_norm": 0.7338860630989075, "learning_rate": 0.00029782867592855925, "loss": 4.0023, "step": 27920 }, { "epoch": 0.0581875, "grad_norm": 0.8324993848800659, "learning_rate": 0.0002978270042587054, "loss": 4.0042, "step": 27930 }, { "epoch": 0.058208333333333334, "grad_norm": 0.9510817527770996, "learning_rate": 0.00029782533195029737, "loss": 3.8577, "step": 27940 }, { "epoch": 0.058229166666666665, "grad_norm": 0.8871030211448669, "learning_rate": 0.0002978236590033424, "loss": 3.9181, "step": 27950 }, { "epoch": 0.05825, "grad_norm": 0.7444835901260376, "learning_rate": 0.0002978219854178478, "loss": 3.8736, "step": 27960 }, { "epoch": 0.058270833333333334, "grad_norm": 0.8341856598854065, "learning_rate": 0.0002978203111938207, "loss": 4.0376, "step": 27970 }, { "epoch": 0.058291666666666665, "grad_norm": 0.9582986235618591, "learning_rate": 0.00029781863633126837, "loss": 4.0826, "step": 27980 }, { "epoch": 0.0583125, "grad_norm": 0.7271352410316467, "learning_rate": 0.00029781696083019797, "loss": 4.0753, "step": 27990 }, { "epoch": 0.058333333333333334, "grad_norm": 0.7385260462760925, "learning_rate": 0.00029781528469061694, "loss": 3.9719, "step": 28000 }, { "epoch": 0.058333333333333334, "eval_loss": 4.3337297439575195, "eval_runtime": 9.7426, "eval_samples_per_second": 1.026, "eval_steps_per_second": 0.308, "step": 28000 }, { "epoch": 0.058354166666666665, "grad_norm": 0.9821462631225586, "learning_rate": 0.0002978136079125323, "loss": 3.8396, "step": 28010 }, { "epoch": 0.058375, "grad_norm": 0.8511221408843994, "learning_rate": 0.00029781193049595143, "loss": 4.1699, "step": 28020 }, { "epoch": 0.058395833333333334, "grad_norm": 0.8254387974739075, "learning_rate": 0.0002978102524408815, "loss": 4.082, "step": 28030 }, { "epoch": 0.058416666666666665, "grad_norm": 0.783639132976532, "learning_rate": 0.0002978085737473298, "loss": 3.9503, "step": 28040 }, { "epoch": 0.0584375, "grad_norm": 1.0915508270263672, "learning_rate": 0.00029780689441530355, "loss": 3.9063, "step": 28050 }, { "epoch": 0.058458333333333334, "grad_norm": 0.9193095564842224, "learning_rate": 0.00029780521444481, "loss": 4.0717, "step": 28060 }, { "epoch": 0.058479166666666665, "grad_norm": 0.9121372103691101, "learning_rate": 0.0002978035338358565, "loss": 3.9815, "step": 28070 }, { "epoch": 0.0585, "grad_norm": 0.787655234336853, "learning_rate": 0.0002978018525884502, "loss": 4.1139, "step": 28080 }, { "epoch": 0.058520833333333334, "grad_norm": 0.8940716981887817, "learning_rate": 0.0002978001707025984, "loss": 4.1568, "step": 28090 }, { "epoch": 0.058541666666666665, "grad_norm": 0.8758763670921326, "learning_rate": 0.0002977984881783084, "loss": 3.9863, "step": 28100 }, { "epoch": 0.0585625, "grad_norm": 0.7488703727722168, "learning_rate": 0.00029779680501558736, "loss": 3.8419, "step": 28110 }, { "epoch": 0.058583333333333334, "grad_norm": 0.771414041519165, "learning_rate": 0.0002977951212144427, "loss": 4.028, "step": 28120 }, { "epoch": 0.058604166666666666, "grad_norm": 1.0134316682815552, "learning_rate": 0.0002977934367748816, "loss": 3.9775, "step": 28130 }, { "epoch": 0.058625, "grad_norm": 0.8183576464653015, "learning_rate": 0.0002977917516969113, "loss": 4.0934, "step": 28140 }, { "epoch": 0.058645833333333335, "grad_norm": 0.8778153657913208, "learning_rate": 0.0002977900659805392, "loss": 4.0242, "step": 28150 }, { "epoch": 0.058666666666666666, "grad_norm": 1.1029689311981201, "learning_rate": 0.0002977883796257725, "loss": 4.0612, "step": 28160 }, { "epoch": 0.0586875, "grad_norm": 0.7578759789466858, "learning_rate": 0.00029778669263261844, "loss": 4.0755, "step": 28170 }, { "epoch": 0.058708333333333335, "grad_norm": 0.8067404627799988, "learning_rate": 0.0002977850050010844, "loss": 4.0353, "step": 28180 }, { "epoch": 0.058729166666666666, "grad_norm": 0.7950558066368103, "learning_rate": 0.00029778331673117767, "loss": 4.0281, "step": 28190 }, { "epoch": 0.05875, "grad_norm": 0.7035298347473145, "learning_rate": 0.0002977816278229055, "loss": 3.901, "step": 28200 }, { "epoch": 0.058770833333333335, "grad_norm": 0.8084566593170166, "learning_rate": 0.00029777993827627517, "loss": 4.137, "step": 28210 }, { "epoch": 0.058791666666666666, "grad_norm": 0.8556565642356873, "learning_rate": 0.000297778248091294, "loss": 4.2009, "step": 28220 }, { "epoch": 0.0588125, "grad_norm": 0.7428489923477173, "learning_rate": 0.0002977765572679693, "loss": 4.113, "step": 28230 }, { "epoch": 0.058833333333333335, "grad_norm": 0.7887394428253174, "learning_rate": 0.0002977748658063084, "loss": 4.0304, "step": 28240 }, { "epoch": 0.058854166666666666, "grad_norm": 0.8271185159683228, "learning_rate": 0.0002977731737063185, "loss": 4.0396, "step": 28250 }, { "epoch": 0.058875, "grad_norm": 0.7731518745422363, "learning_rate": 0.00029777148096800707, "loss": 4.0463, "step": 28260 }, { "epoch": 0.058895833333333335, "grad_norm": 0.8690152764320374, "learning_rate": 0.00029776978759138125, "loss": 4.0801, "step": 28270 }, { "epoch": 0.058916666666666666, "grad_norm": 0.8408668041229248, "learning_rate": 0.0002977680935764485, "loss": 4.0922, "step": 28280 }, { "epoch": 0.0589375, "grad_norm": 0.8092278838157654, "learning_rate": 0.00029776639892321606, "loss": 4.1257, "step": 28290 }, { "epoch": 0.058958333333333335, "grad_norm": 0.8814899325370789, "learning_rate": 0.0002977647036316913, "loss": 3.9045, "step": 28300 }, { "epoch": 0.058979166666666666, "grad_norm": 4.785010814666748, "learning_rate": 0.00029776300770188144, "loss": 3.9294, "step": 28310 }, { "epoch": 0.059, "grad_norm": 0.7081260681152344, "learning_rate": 0.00029776131113379387, "loss": 4.0657, "step": 28320 }, { "epoch": 0.059020833333333335, "grad_norm": 0.7731541395187378, "learning_rate": 0.000297759613927436, "loss": 4.0361, "step": 28330 }, { "epoch": 0.059041666666666666, "grad_norm": 0.7795857787132263, "learning_rate": 0.000297757916082815, "loss": 4.0586, "step": 28340 }, { "epoch": 0.0590625, "grad_norm": 0.8129675984382629, "learning_rate": 0.0002977562175999384, "loss": 4.0363, "step": 28350 }, { "epoch": 0.059083333333333335, "grad_norm": 0.8184221386909485, "learning_rate": 0.00029775451847881333, "loss": 3.9616, "step": 28360 }, { "epoch": 0.059104166666666666, "grad_norm": 0.8976306319236755, "learning_rate": 0.00029775281871944725, "loss": 3.937, "step": 28370 }, { "epoch": 0.059125, "grad_norm": 0.7422711253166199, "learning_rate": 0.0002977511183218475, "loss": 4.097, "step": 28380 }, { "epoch": 0.059145833333333335, "grad_norm": 0.8507609963417053, "learning_rate": 0.00029774941728602137, "loss": 3.9694, "step": 28390 }, { "epoch": 0.059166666666666666, "grad_norm": 0.7471102476119995, "learning_rate": 0.00029774771561197626, "loss": 4.0232, "step": 28400 }, { "epoch": 0.0591875, "grad_norm": 0.8396421670913696, "learning_rate": 0.0002977460132997195, "loss": 3.911, "step": 28410 }, { "epoch": 0.059208333333333335, "grad_norm": 0.8948994278907776, "learning_rate": 0.00029774431034925846, "loss": 4.3207, "step": 28420 }, { "epoch": 0.059229166666666666, "grad_norm": 0.649896502494812, "learning_rate": 0.00029774260676060046, "loss": 4.1688, "step": 28430 }, { "epoch": 0.05925, "grad_norm": 0.8756998777389526, "learning_rate": 0.00029774090253375287, "loss": 3.9492, "step": 28440 }, { "epoch": 0.059270833333333335, "grad_norm": 1.0259588956832886, "learning_rate": 0.00029773919766872307, "loss": 3.9834, "step": 28450 }, { "epoch": 0.059291666666666666, "grad_norm": 1.091251015663147, "learning_rate": 0.0002977374921655184, "loss": 4.0844, "step": 28460 }, { "epoch": 0.0593125, "grad_norm": 0.8668212294578552, "learning_rate": 0.0002977357860241463, "loss": 4.1526, "step": 28470 }, { "epoch": 0.059333333333333335, "grad_norm": 0.8509314656257629, "learning_rate": 0.00029773407924461404, "loss": 3.9016, "step": 28480 }, { "epoch": 0.059354166666666666, "grad_norm": 0.8672800660133362, "learning_rate": 0.00029773237182692904, "loss": 4.1919, "step": 28490 }, { "epoch": 0.059375, "grad_norm": 0.8291724324226379, "learning_rate": 0.0002977306637710987, "loss": 3.9928, "step": 28500 }, { "epoch": 0.059395833333333335, "grad_norm": 0.7973001599311829, "learning_rate": 0.0002977289550771303, "loss": 4.2397, "step": 28510 }, { "epoch": 0.059416666666666666, "grad_norm": 0.8378255367279053, "learning_rate": 0.00029772724574503133, "loss": 4.1656, "step": 28520 }, { "epoch": 0.0594375, "grad_norm": 0.7942454218864441, "learning_rate": 0.00029772553577480916, "loss": 4.1935, "step": 28530 }, { "epoch": 0.059458333333333335, "grad_norm": 0.8349277377128601, "learning_rate": 0.0002977238251664711, "loss": 3.9162, "step": 28540 }, { "epoch": 0.059479166666666666, "grad_norm": 0.7770869731903076, "learning_rate": 0.0002977221139200246, "loss": 4.2089, "step": 28550 }, { "epoch": 0.0595, "grad_norm": 0.7684369683265686, "learning_rate": 0.0002977204020354771, "loss": 4.018, "step": 28560 }, { "epoch": 0.059520833333333335, "grad_norm": 0.7355980277061462, "learning_rate": 0.00029771868951283586, "loss": 4.0613, "step": 28570 }, { "epoch": 0.059541666666666666, "grad_norm": 0.7931314706802368, "learning_rate": 0.0002977169763521084, "loss": 4.1778, "step": 28580 }, { "epoch": 0.0595625, "grad_norm": 0.8197821378707886, "learning_rate": 0.000297715262553302, "loss": 4.0474, "step": 28590 }, { "epoch": 0.059583333333333335, "grad_norm": 0.9635288119316101, "learning_rate": 0.00029771354811642417, "loss": 4.0023, "step": 28600 }, { "epoch": 0.059604166666666666, "grad_norm": 0.8888946771621704, "learning_rate": 0.0002977118330414823, "loss": 4.0462, "step": 28610 }, { "epoch": 0.059625, "grad_norm": 0.7992176413536072, "learning_rate": 0.0002977101173284838, "loss": 3.917, "step": 28620 }, { "epoch": 0.059645833333333335, "grad_norm": 0.7799692749977112, "learning_rate": 0.000297708400977436, "loss": 4.0065, "step": 28630 }, { "epoch": 0.059666666666666666, "grad_norm": 0.8649428486824036, "learning_rate": 0.00029770668398834644, "loss": 4.1142, "step": 28640 }, { "epoch": 0.0596875, "grad_norm": 0.7527645230293274, "learning_rate": 0.0002977049663612224, "loss": 4.0586, "step": 28650 }, { "epoch": 0.059708333333333335, "grad_norm": 0.8963967561721802, "learning_rate": 0.0002977032480960715, "loss": 4.1482, "step": 28660 }, { "epoch": 0.059729166666666667, "grad_norm": 0.773729145526886, "learning_rate": 0.0002977015291929009, "loss": 3.9072, "step": 28670 }, { "epoch": 0.05975, "grad_norm": 0.8178229331970215, "learning_rate": 0.00029769980965171824, "loss": 3.8887, "step": 28680 }, { "epoch": 0.059770833333333336, "grad_norm": 0.8257982730865479, "learning_rate": 0.0002976980894725308, "loss": 3.9644, "step": 28690 }, { "epoch": 0.05979166666666667, "grad_norm": 0.686358630657196, "learning_rate": 0.0002976963686553461, "loss": 4.1402, "step": 28700 }, { "epoch": 0.0598125, "grad_norm": 0.7905331254005432, "learning_rate": 0.0002976946472001716, "loss": 4.0758, "step": 28710 }, { "epoch": 0.059833333333333336, "grad_norm": 0.7291516661643982, "learning_rate": 0.0002976929251070146, "loss": 4.0882, "step": 28720 }, { "epoch": 0.05985416666666667, "grad_norm": 0.8644330501556396, "learning_rate": 0.0002976912023758827, "loss": 4.0914, "step": 28730 }, { "epoch": 0.059875, "grad_norm": 0.8880428075790405, "learning_rate": 0.0002976894790067832, "loss": 3.9662, "step": 28740 }, { "epoch": 0.059895833333333336, "grad_norm": 0.8069501519203186, "learning_rate": 0.00029768775499972364, "loss": 3.9497, "step": 28750 }, { "epoch": 0.05991666666666667, "grad_norm": 0.8965879678726196, "learning_rate": 0.0002976860303547114, "loss": 3.895, "step": 28760 }, { "epoch": 0.0599375, "grad_norm": 0.9722900986671448, "learning_rate": 0.00029768430507175404, "loss": 4.2203, "step": 28770 }, { "epoch": 0.059958333333333336, "grad_norm": 0.9029613137245178, "learning_rate": 0.0002976825791508589, "loss": 3.9507, "step": 28780 }, { "epoch": 0.05997916666666667, "grad_norm": 0.9038407802581787, "learning_rate": 0.00029768085259203347, "loss": 4.0853, "step": 28790 }, { "epoch": 0.06, "grad_norm": 0.8156259059906006, "learning_rate": 0.00029767912539528527, "loss": 4.147, "step": 28800 }, { "epoch": 0.060020833333333336, "grad_norm": 0.7823668122291565, "learning_rate": 0.0002976773975606216, "loss": 3.7448, "step": 28810 }, { "epoch": 0.06004166666666667, "grad_norm": 0.7521113753318787, "learning_rate": 0.0002976756690880501, "loss": 4.2022, "step": 28820 }, { "epoch": 0.0600625, "grad_norm": 0.7777439951896667, "learning_rate": 0.0002976739399775782, "loss": 3.8334, "step": 28830 }, { "epoch": 0.060083333333333336, "grad_norm": 0.7256953716278076, "learning_rate": 0.00029767221022921323, "loss": 4.0322, "step": 28840 }, { "epoch": 0.06010416666666667, "grad_norm": 0.839480996131897, "learning_rate": 0.0002976704798429629, "loss": 4.0847, "step": 28850 }, { "epoch": 0.060125, "grad_norm": 0.788024365901947, "learning_rate": 0.0002976687488188344, "loss": 4.1183, "step": 28860 }, { "epoch": 0.060145833333333336, "grad_norm": 0.8533191084861755, "learning_rate": 0.0002976670171568354, "loss": 3.9709, "step": 28870 }, { "epoch": 0.06016666666666667, "grad_norm": 0.7956870198249817, "learning_rate": 0.0002976652848569734, "loss": 3.9244, "step": 28880 }, { "epoch": 0.0601875, "grad_norm": 0.8222197890281677, "learning_rate": 0.0002976635519192557, "loss": 4.0253, "step": 28890 }, { "epoch": 0.060208333333333336, "grad_norm": 0.9385104775428772, "learning_rate": 0.0002976618183436901, "loss": 3.9232, "step": 28900 }, { "epoch": 0.06022916666666667, "grad_norm": 0.7920111417770386, "learning_rate": 0.0002976600841302837, "loss": 3.9925, "step": 28910 }, { "epoch": 0.06025, "grad_norm": 0.791247546672821, "learning_rate": 0.0002976583492790443, "loss": 4.037, "step": 28920 }, { "epoch": 0.060270833333333336, "grad_norm": 0.7524693012237549, "learning_rate": 0.0002976566137899792, "loss": 4.0421, "step": 28930 }, { "epoch": 0.06029166666666667, "grad_norm": 0.8059237599372864, "learning_rate": 0.00029765487766309607, "loss": 4.1032, "step": 28940 }, { "epoch": 0.0603125, "grad_norm": 0.731202244758606, "learning_rate": 0.00029765314089840226, "loss": 4.2398, "step": 28950 }, { "epoch": 0.060333333333333336, "grad_norm": 0.8298438787460327, "learning_rate": 0.00029765140349590527, "loss": 4.0979, "step": 28960 }, { "epoch": 0.06035416666666667, "grad_norm": 0.8490571975708008, "learning_rate": 0.00029764966545561274, "loss": 4.0255, "step": 28970 }, { "epoch": 0.060375, "grad_norm": 0.7874022722244263, "learning_rate": 0.00029764792677753206, "loss": 4.1048, "step": 28980 }, { "epoch": 0.060395833333333336, "grad_norm": 0.7926114201545715, "learning_rate": 0.0002976461874616708, "loss": 3.9858, "step": 28990 }, { "epoch": 0.06041666666666667, "grad_norm": 0.8511772751808167, "learning_rate": 0.00029764444750803644, "loss": 3.9235, "step": 29000 }, { "epoch": 0.06041666666666667, "eval_loss": 4.322887420654297, "eval_runtime": 11.8134, "eval_samples_per_second": 0.846, "eval_steps_per_second": 0.254, "step": 29000 }, { "epoch": 0.0604375, "grad_norm": 0.7601058483123779, "learning_rate": 0.00029764270691663654, "loss": 4.1378, "step": 29010 }, { "epoch": 0.060458333333333336, "grad_norm": 0.8406563401222229, "learning_rate": 0.00029764096568747855, "loss": 4.1004, "step": 29020 }, { "epoch": 0.06047916666666667, "grad_norm": 0.7866235971450806, "learning_rate": 0.00029763922382057003, "loss": 3.9188, "step": 29030 }, { "epoch": 0.0605, "grad_norm": 0.7315018773078918, "learning_rate": 0.00029763748131591855, "loss": 4.1622, "step": 29040 }, { "epoch": 0.060520833333333336, "grad_norm": 0.8574497699737549, "learning_rate": 0.00029763573817353156, "loss": 3.9901, "step": 29050 }, { "epoch": 0.06054166666666667, "grad_norm": 0.7249524593353271, "learning_rate": 0.0002976339943934166, "loss": 3.8701, "step": 29060 }, { "epoch": 0.0605625, "grad_norm": 0.8211441040039062, "learning_rate": 0.00029763224997558124, "loss": 3.8699, "step": 29070 }, { "epoch": 0.060583333333333336, "grad_norm": 0.9947181344032288, "learning_rate": 0.00029763050492003293, "loss": 4.1574, "step": 29080 }, { "epoch": 0.06060416666666667, "grad_norm": 0.8259121179580688, "learning_rate": 0.0002976287592267794, "loss": 4.1622, "step": 29090 }, { "epoch": 0.060625, "grad_norm": 0.8960739970207214, "learning_rate": 0.000297627012895828, "loss": 4.2004, "step": 29100 }, { "epoch": 0.060645833333333336, "grad_norm": 0.7725949883460999, "learning_rate": 0.00029762526592718634, "loss": 4.1912, "step": 29110 }, { "epoch": 0.06066666666666667, "grad_norm": 0.8095203638076782, "learning_rate": 0.00029762351832086193, "loss": 3.8589, "step": 29120 }, { "epoch": 0.0606875, "grad_norm": 0.8058037161827087, "learning_rate": 0.00029762177007686244, "loss": 4.1732, "step": 29130 }, { "epoch": 0.060708333333333336, "grad_norm": 0.7959723472595215, "learning_rate": 0.00029762002119519524, "loss": 4.0271, "step": 29140 }, { "epoch": 0.06072916666666667, "grad_norm": 0.8201887011528015, "learning_rate": 0.00029761827167586804, "loss": 3.8185, "step": 29150 }, { "epoch": 0.06075, "grad_norm": 0.8226702213287354, "learning_rate": 0.00029761652151888835, "loss": 4.0489, "step": 29160 }, { "epoch": 0.060770833333333336, "grad_norm": 0.9228971004486084, "learning_rate": 0.0002976147707242637, "loss": 4.0783, "step": 29170 }, { "epoch": 0.06079166666666667, "grad_norm": 0.8470959663391113, "learning_rate": 0.00029761301929200166, "loss": 3.7855, "step": 29180 }, { "epoch": 0.0608125, "grad_norm": 0.892784059047699, "learning_rate": 0.0002976112672221098, "loss": 4.0425, "step": 29190 }, { "epoch": 0.060833333333333336, "grad_norm": 0.7882646322250366, "learning_rate": 0.0002976095145145957, "loss": 4.171, "step": 29200 }, { "epoch": 0.06085416666666667, "grad_norm": 0.9007334113121033, "learning_rate": 0.00029760776116946695, "loss": 4.0816, "step": 29210 }, { "epoch": 0.060875, "grad_norm": 0.7402275800704956, "learning_rate": 0.00029760600718673104, "loss": 4.1153, "step": 29220 }, { "epoch": 0.06089583333333334, "grad_norm": 0.7783899903297424, "learning_rate": 0.0002976042525663957, "loss": 3.9135, "step": 29230 }, { "epoch": 0.06091666666666667, "grad_norm": 0.7397148609161377, "learning_rate": 0.00029760249730846833, "loss": 4.1428, "step": 29240 }, { "epoch": 0.0609375, "grad_norm": 0.8965991139411926, "learning_rate": 0.0002976007414129566, "loss": 3.8902, "step": 29250 }, { "epoch": 0.06095833333333334, "grad_norm": 0.8673374056816101, "learning_rate": 0.00029759898487986814, "loss": 4.1646, "step": 29260 }, { "epoch": 0.06097916666666667, "grad_norm": 0.7434284090995789, "learning_rate": 0.00029759722770921046, "loss": 4.0116, "step": 29270 }, { "epoch": 0.061, "grad_norm": 0.7829568982124329, "learning_rate": 0.00029759546990099116, "loss": 3.921, "step": 29280 }, { "epoch": 0.06102083333333334, "grad_norm": 0.7590770721435547, "learning_rate": 0.0002975937114552179, "loss": 4.0415, "step": 29290 }, { "epoch": 0.06104166666666667, "grad_norm": 0.8968276381492615, "learning_rate": 0.0002975919523718982, "loss": 4.0704, "step": 29300 }, { "epoch": 0.0610625, "grad_norm": 0.8446416854858398, "learning_rate": 0.0002975901926510397, "loss": 3.8829, "step": 29310 }, { "epoch": 0.06108333333333334, "grad_norm": 0.9309907555580139, "learning_rate": 0.00029758843229264997, "loss": 4.2758, "step": 29320 }, { "epoch": 0.06110416666666667, "grad_norm": 1.035027265548706, "learning_rate": 0.00029758667129673664, "loss": 4.248, "step": 29330 }, { "epoch": 0.061125, "grad_norm": 0.9120420217514038, "learning_rate": 0.00029758490966330734, "loss": 3.9837, "step": 29340 }, { "epoch": 0.06114583333333334, "grad_norm": 0.7119563221931458, "learning_rate": 0.0002975831473923696, "loss": 3.9887, "step": 29350 }, { "epoch": 0.06116666666666667, "grad_norm": 0.8198143243789673, "learning_rate": 0.0002975813844839311, "loss": 4.1055, "step": 29360 }, { "epoch": 0.0611875, "grad_norm": 0.8531615734100342, "learning_rate": 0.00029757962093799944, "loss": 3.9404, "step": 29370 }, { "epoch": 0.06120833333333333, "grad_norm": 0.8927220106124878, "learning_rate": 0.00029757785675458225, "loss": 4.2244, "step": 29380 }, { "epoch": 0.06122916666666667, "grad_norm": 0.8094875812530518, "learning_rate": 0.0002975760919336871, "loss": 4.1497, "step": 29390 }, { "epoch": 0.06125, "grad_norm": 0.7430135607719421, "learning_rate": 0.00029757432647532165, "loss": 4.1052, "step": 29400 }, { "epoch": 0.06127083333333333, "grad_norm": 0.8661625981330872, "learning_rate": 0.00029757256037949353, "loss": 3.8259, "step": 29410 }, { "epoch": 0.06129166666666667, "grad_norm": 0.7521441578865051, "learning_rate": 0.00029757079364621037, "loss": 3.9456, "step": 29420 }, { "epoch": 0.0613125, "grad_norm": 0.9092415571212769, "learning_rate": 0.0002975690262754798, "loss": 4.0387, "step": 29430 }, { "epoch": 0.06133333333333333, "grad_norm": 0.7576876878738403, "learning_rate": 0.00029756725826730944, "loss": 4.0582, "step": 29440 }, { "epoch": 0.06135416666666667, "grad_norm": 0.7739952802658081, "learning_rate": 0.0002975654896217069, "loss": 4.265, "step": 29450 }, { "epoch": 0.061375, "grad_norm": 0.7803800106048584, "learning_rate": 0.0002975637203386799, "loss": 3.9619, "step": 29460 }, { "epoch": 0.06139583333333333, "grad_norm": 0.7534099221229553, "learning_rate": 0.00029756195041823603, "loss": 4.1132, "step": 29470 }, { "epoch": 0.06141666666666667, "grad_norm": 0.8216633200645447, "learning_rate": 0.000297560179860383, "loss": 4.0204, "step": 29480 }, { "epoch": 0.0614375, "grad_norm": 0.7341957688331604, "learning_rate": 0.0002975584086651283, "loss": 4.2073, "step": 29490 }, { "epoch": 0.06145833333333333, "grad_norm": 0.8970953226089478, "learning_rate": 0.00029755663683247974, "loss": 4.1837, "step": 29500 }, { "epoch": 0.06147916666666667, "grad_norm": 0.7884898781776428, "learning_rate": 0.0002975548643624449, "loss": 3.8748, "step": 29510 }, { "epoch": 0.0615, "grad_norm": 0.7638188004493713, "learning_rate": 0.00029755309125503146, "loss": 4.1444, "step": 29520 }, { "epoch": 0.06152083333333333, "grad_norm": 0.9098157286643982, "learning_rate": 0.00029755131751024706, "loss": 3.9118, "step": 29530 }, { "epoch": 0.06154166666666667, "grad_norm": 0.7245421409606934, "learning_rate": 0.0002975495431280994, "loss": 4.0327, "step": 29540 }, { "epoch": 0.0615625, "grad_norm": 0.8401640057563782, "learning_rate": 0.0002975477681085961, "loss": 4.1407, "step": 29550 }, { "epoch": 0.06158333333333333, "grad_norm": 0.7999250888824463, "learning_rate": 0.0002975459924517448, "loss": 3.8629, "step": 29560 }, { "epoch": 0.06160416666666667, "grad_norm": 0.8138478994369507, "learning_rate": 0.00029754421615755324, "loss": 4.0969, "step": 29570 }, { "epoch": 0.061625, "grad_norm": 0.8567155003547668, "learning_rate": 0.0002975424392260291, "loss": 3.9414, "step": 29580 }, { "epoch": 0.06164583333333333, "grad_norm": 0.8274092674255371, "learning_rate": 0.00029754066165718, "loss": 3.9926, "step": 29590 }, { "epoch": 0.06166666666666667, "grad_norm": 0.8721805214881897, "learning_rate": 0.0002975388834510137, "loss": 4.1218, "step": 29600 }, { "epoch": 0.0616875, "grad_norm": 0.7927626371383667, "learning_rate": 0.00029753710460753775, "loss": 4.0701, "step": 29610 }, { "epoch": 0.06170833333333333, "grad_norm": 0.8384056091308594, "learning_rate": 0.0002975353251267599, "loss": 4.0369, "step": 29620 }, { "epoch": 0.06172916666666667, "grad_norm": 0.7487731575965881, "learning_rate": 0.0002975335450086879, "loss": 3.9579, "step": 29630 }, { "epoch": 0.06175, "grad_norm": 0.7705084681510925, "learning_rate": 0.00029753176425332937, "loss": 4.0489, "step": 29640 }, { "epoch": 0.06177083333333333, "grad_norm": 0.7480839490890503, "learning_rate": 0.000297529982860692, "loss": 4.1216, "step": 29650 }, { "epoch": 0.06179166666666667, "grad_norm": 0.8982182741165161, "learning_rate": 0.0002975282008307835, "loss": 4.0328, "step": 29660 }, { "epoch": 0.0618125, "grad_norm": 0.8441203236579895, "learning_rate": 0.00029752641816361154, "loss": 4.0597, "step": 29670 }, { "epoch": 0.06183333333333333, "grad_norm": 0.7914412617683411, "learning_rate": 0.0002975246348591839, "loss": 3.9471, "step": 29680 }, { "epoch": 0.06185416666666667, "grad_norm": 0.8117268085479736, "learning_rate": 0.00029752285091750826, "loss": 4.0691, "step": 29690 }, { "epoch": 0.061875, "grad_norm": 0.8864880800247192, "learning_rate": 0.0002975210663385922, "loss": 4.0181, "step": 29700 }, { "epoch": 0.06189583333333333, "grad_norm": 0.7351661920547485, "learning_rate": 0.0002975192811224436, "loss": 4.1602, "step": 29710 }, { "epoch": 0.06191666666666667, "grad_norm": 0.8308060765266418, "learning_rate": 0.0002975174952690701, "loss": 4.0104, "step": 29720 }, { "epoch": 0.0619375, "grad_norm": 0.7503709197044373, "learning_rate": 0.00029751570877847936, "loss": 4.0182, "step": 29730 }, { "epoch": 0.06195833333333333, "grad_norm": 0.9317289590835571, "learning_rate": 0.0002975139216506792, "loss": 4.0455, "step": 29740 }, { "epoch": 0.06197916666666667, "grad_norm": 0.7762730717658997, "learning_rate": 0.0002975121338856773, "loss": 4.0948, "step": 29750 }, { "epoch": 0.062, "grad_norm": 0.8129236698150635, "learning_rate": 0.00029751034548348125, "loss": 3.9879, "step": 29760 }, { "epoch": 0.06202083333333333, "grad_norm": 0.8658553957939148, "learning_rate": 0.000297508556444099, "loss": 4.1238, "step": 29770 }, { "epoch": 0.06204166666666667, "grad_norm": 0.8257842659950256, "learning_rate": 0.00029750676676753814, "loss": 4.1069, "step": 29780 }, { "epoch": 0.0620625, "grad_norm": 0.7369842529296875, "learning_rate": 0.0002975049764538065, "loss": 3.9901, "step": 29790 }, { "epoch": 0.06208333333333333, "grad_norm": 0.7898491621017456, "learning_rate": 0.0002975031855029117, "loss": 4.22, "step": 29800 }, { "epoch": 0.06210416666666667, "grad_norm": 0.8031477928161621, "learning_rate": 0.00029750139391486154, "loss": 4.1133, "step": 29810 }, { "epoch": 0.062125, "grad_norm": 0.8880355954170227, "learning_rate": 0.00029749960168966365, "loss": 3.9919, "step": 29820 }, { "epoch": 0.06214583333333333, "grad_norm": 0.8185032606124878, "learning_rate": 0.000297497808827326, "loss": 4.1218, "step": 29830 }, { "epoch": 0.06216666666666667, "grad_norm": 0.7776533961296082, "learning_rate": 0.00029749601532785613, "loss": 4.1606, "step": 29840 }, { "epoch": 0.0621875, "grad_norm": 0.9000627994537354, "learning_rate": 0.00029749422119126185, "loss": 4.2967, "step": 29850 }, { "epoch": 0.06220833333333333, "grad_norm": 0.8902272582054138, "learning_rate": 0.00029749242641755096, "loss": 4.2825, "step": 29860 }, { "epoch": 0.06222916666666667, "grad_norm": 0.7393922209739685, "learning_rate": 0.0002974906310067311, "loss": 3.9437, "step": 29870 }, { "epoch": 0.06225, "grad_norm": 0.7200772762298584, "learning_rate": 0.0002974888349588102, "loss": 3.8702, "step": 29880 }, { "epoch": 0.06227083333333333, "grad_norm": 0.7521827816963196, "learning_rate": 0.00029748703827379584, "loss": 4.1196, "step": 29890 }, { "epoch": 0.06229166666666667, "grad_norm": 0.8694015741348267, "learning_rate": 0.0002974852409516958, "loss": 4.0499, "step": 29900 }, { "epoch": 0.0623125, "grad_norm": 0.9441766738891602, "learning_rate": 0.000297483442992518, "loss": 4.0785, "step": 29910 }, { "epoch": 0.06233333333333333, "grad_norm": 0.7816182374954224, "learning_rate": 0.00029748164439627006, "loss": 4.078, "step": 29920 }, { "epoch": 0.06235416666666667, "grad_norm": 0.9444436430931091, "learning_rate": 0.0002974798451629598, "loss": 4.0156, "step": 29930 }, { "epoch": 0.062375, "grad_norm": 0.9038636684417725, "learning_rate": 0.00029747804529259503, "loss": 4.0655, "step": 29940 }, { "epoch": 0.06239583333333333, "grad_norm": 0.7659188508987427, "learning_rate": 0.0002974762447851834, "loss": 4.0383, "step": 29950 }, { "epoch": 0.06241666666666667, "grad_norm": 0.8716976642608643, "learning_rate": 0.0002974744436407328, "loss": 4.0691, "step": 29960 }, { "epoch": 0.0624375, "grad_norm": 0.7936158776283264, "learning_rate": 0.00029747264185925104, "loss": 4.0111, "step": 29970 }, { "epoch": 0.06245833333333333, "grad_norm": 0.7584034204483032, "learning_rate": 0.0002974708394407458, "loss": 3.8973, "step": 29980 }, { "epoch": 0.06247916666666667, "grad_norm": 0.8849518895149231, "learning_rate": 0.0002974690363852248, "loss": 4.1221, "step": 29990 }, { "epoch": 0.0625, "grad_norm": 0.8789483308792114, "learning_rate": 0.0002974672326926961, "loss": 4.0542, "step": 30000 }, { "epoch": 0.0625, "eval_loss": 4.3088226318359375, "eval_runtime": 10.3979, "eval_samples_per_second": 0.962, "eval_steps_per_second": 0.289, "step": 30000 }, { "epoch": 0.06252083333333333, "grad_norm": 0.7615856528282166, "learning_rate": 0.0002974654283631672, "loss": 4.0688, "step": 30010 }, { "epoch": 0.06254166666666666, "grad_norm": 0.8719075322151184, "learning_rate": 0.00029746362339664613, "loss": 3.9027, "step": 30020 }, { "epoch": 0.0625625, "grad_norm": 0.7590094208717346, "learning_rate": 0.00029746181779314045, "loss": 4.1192, "step": 30030 }, { "epoch": 0.06258333333333334, "grad_norm": 0.8476407527923584, "learning_rate": 0.00029746001155265823, "loss": 4.2799, "step": 30040 }, { "epoch": 0.06260416666666667, "grad_norm": 0.7637699246406555, "learning_rate": 0.000297458204675207, "loss": 3.8025, "step": 30050 }, { "epoch": 0.062625, "grad_norm": 0.8245696425437927, "learning_rate": 0.00029745639716079474, "loss": 4.0993, "step": 30060 }, { "epoch": 0.06264583333333333, "grad_norm": 0.7953047752380371, "learning_rate": 0.00029745458900942923, "loss": 3.9929, "step": 30070 }, { "epoch": 0.06266666666666666, "grad_norm": 0.854537844657898, "learning_rate": 0.00029745278022111826, "loss": 4.0205, "step": 30080 }, { "epoch": 0.0626875, "grad_norm": 0.7934266924858093, "learning_rate": 0.00029745097079586963, "loss": 4.0638, "step": 30090 }, { "epoch": 0.06270833333333334, "grad_norm": 0.9018909335136414, "learning_rate": 0.0002974491607336912, "loss": 3.8446, "step": 30100 }, { "epoch": 0.06272916666666667, "grad_norm": 0.7847442030906677, "learning_rate": 0.0002974473500345907, "loss": 4.1644, "step": 30110 }, { "epoch": 0.06275, "grad_norm": 0.9136395454406738, "learning_rate": 0.0002974455386985761, "loss": 4.0613, "step": 30120 }, { "epoch": 0.06277083333333333, "grad_norm": 0.8492864370346069, "learning_rate": 0.00029744372672565507, "loss": 4.0666, "step": 30130 }, { "epoch": 0.06279166666666666, "grad_norm": 0.7803292274475098, "learning_rate": 0.0002974419141158355, "loss": 4.1496, "step": 30140 }, { "epoch": 0.0628125, "grad_norm": 0.957654595375061, "learning_rate": 0.0002974401008691252, "loss": 4.0739, "step": 30150 }, { "epoch": 0.06283333333333334, "grad_norm": 0.813822865486145, "learning_rate": 0.0002974382869855321, "loss": 4.1172, "step": 30160 }, { "epoch": 0.06285416666666667, "grad_norm": 0.775952935218811, "learning_rate": 0.00029743647246506397, "loss": 4.0997, "step": 30170 }, { "epoch": 0.062875, "grad_norm": 0.9162753224372864, "learning_rate": 0.0002974346573077286, "loss": 4.1247, "step": 30180 }, { "epoch": 0.06289583333333333, "grad_norm": 0.8309741616249084, "learning_rate": 0.00029743284151353386, "loss": 4.0527, "step": 30190 }, { "epoch": 0.06291666666666666, "grad_norm": 0.7462338805198669, "learning_rate": 0.0002974310250824876, "loss": 4.0192, "step": 30200 }, { "epoch": 0.0629375, "grad_norm": 0.7510952353477478, "learning_rate": 0.00029742920801459767, "loss": 4.0718, "step": 30210 }, { "epoch": 0.06295833333333334, "grad_norm": 0.8406834602355957, "learning_rate": 0.00029742739030987194, "loss": 4.0744, "step": 30220 }, { "epoch": 0.06297916666666667, "grad_norm": 1.1555323600769043, "learning_rate": 0.0002974255719683182, "loss": 4.0551, "step": 30230 }, { "epoch": 0.063, "grad_norm": 0.9106763601303101, "learning_rate": 0.0002974237529899444, "loss": 4.184, "step": 30240 }, { "epoch": 0.06302083333333333, "grad_norm": 0.8510547280311584, "learning_rate": 0.00029742193337475826, "loss": 3.942, "step": 30250 }, { "epoch": 0.06304166666666666, "grad_norm": 0.8301993608474731, "learning_rate": 0.00029742011312276783, "loss": 4.0557, "step": 30260 }, { "epoch": 0.0630625, "grad_norm": 1.0253045558929443, "learning_rate": 0.0002974182922339808, "loss": 3.9317, "step": 30270 }, { "epoch": 0.06308333333333334, "grad_norm": 0.9290629625320435, "learning_rate": 0.0002974164707084051, "loss": 3.9818, "step": 30280 }, { "epoch": 0.06310416666666667, "grad_norm": 0.839447021484375, "learning_rate": 0.0002974146485460486, "loss": 4.1364, "step": 30290 }, { "epoch": 0.063125, "grad_norm": 0.9093735814094543, "learning_rate": 0.0002974128257469192, "loss": 4.0505, "step": 30300 }, { "epoch": 0.06314583333333333, "grad_norm": 0.8682764172554016, "learning_rate": 0.00029741100231102467, "loss": 4.196, "step": 30310 }, { "epoch": 0.06316666666666666, "grad_norm": 1.0093507766723633, "learning_rate": 0.000297409178238373, "loss": 4.0192, "step": 30320 }, { "epoch": 0.0631875, "grad_norm": 0.758405864238739, "learning_rate": 0.000297407353528972, "loss": 4.1125, "step": 30330 }, { "epoch": 0.06320833333333334, "grad_norm": 0.7153067588806152, "learning_rate": 0.00029740552818282966, "loss": 3.9845, "step": 30340 }, { "epoch": 0.06322916666666667, "grad_norm": 1.0695821046829224, "learning_rate": 0.00029740370219995374, "loss": 4.0491, "step": 30350 }, { "epoch": 0.06325, "grad_norm": 0.8226625323295593, "learning_rate": 0.0002974018755803522, "loss": 4.2443, "step": 30360 }, { "epoch": 0.06327083333333333, "grad_norm": 0.7931281328201294, "learning_rate": 0.00029740004832403284, "loss": 4.0016, "step": 30370 }, { "epoch": 0.06329166666666666, "grad_norm": 0.7048029899597168, "learning_rate": 0.0002973982204310036, "loss": 3.9643, "step": 30380 }, { "epoch": 0.0633125, "grad_norm": 0.9208285212516785, "learning_rate": 0.0002973963919012725, "loss": 4.0966, "step": 30390 }, { "epoch": 0.06333333333333334, "grad_norm": 0.8361964821815491, "learning_rate": 0.00029739456273484725, "loss": 4.143, "step": 30400 }, { "epoch": 0.06335416666666667, "grad_norm": 0.9277132749557495, "learning_rate": 0.00029739273293173587, "loss": 4.0723, "step": 30410 }, { "epoch": 0.063375, "grad_norm": 0.8738767504692078, "learning_rate": 0.0002973909024919462, "loss": 4.1602, "step": 30420 }, { "epoch": 0.06339583333333333, "grad_norm": 0.8876873850822449, "learning_rate": 0.00029738907141548616, "loss": 4.3174, "step": 30430 }, { "epoch": 0.06341666666666666, "grad_norm": 0.8104599714279175, "learning_rate": 0.00029738723970236373, "loss": 4.1129, "step": 30440 }, { "epoch": 0.0634375, "grad_norm": 0.827494740486145, "learning_rate": 0.0002973854073525868, "loss": 3.9899, "step": 30450 }, { "epoch": 0.06345833333333334, "grad_norm": 0.7558072209358215, "learning_rate": 0.0002973835743661631, "loss": 4.0355, "step": 30460 }, { "epoch": 0.06347916666666667, "grad_norm": 0.9447765350341797, "learning_rate": 0.0002973817407431008, "loss": 4.0774, "step": 30470 }, { "epoch": 0.0635, "grad_norm": 0.8737657070159912, "learning_rate": 0.0002973799064834077, "loss": 3.794, "step": 30480 }, { "epoch": 0.06352083333333333, "grad_norm": 0.8352288007736206, "learning_rate": 0.0002973780715870917, "loss": 4.1867, "step": 30490 }, { "epoch": 0.06354166666666666, "grad_norm": 0.7322183847427368, "learning_rate": 0.00029737623605416083, "loss": 4.0311, "step": 30500 }, { "epoch": 0.0635625, "grad_norm": 0.7374336123466492, "learning_rate": 0.0002973743998846229, "loss": 4.1752, "step": 30510 }, { "epoch": 0.06358333333333334, "grad_norm": 0.9266337752342224, "learning_rate": 0.0002973725630784859, "loss": 4.0956, "step": 30520 }, { "epoch": 0.06360416666666667, "grad_norm": 0.9650958180427551, "learning_rate": 0.00029737072563575784, "loss": 4.1907, "step": 30530 }, { "epoch": 0.063625, "grad_norm": 0.8382750749588013, "learning_rate": 0.0002973688875564465, "loss": 4.143, "step": 30540 }, { "epoch": 0.06364583333333333, "grad_norm": 0.8110083341598511, "learning_rate": 0.00029736704884055995, "loss": 4.1531, "step": 30550 }, { "epoch": 0.06366666666666666, "grad_norm": 0.8101698756217957, "learning_rate": 0.00029736520948810607, "loss": 3.9661, "step": 30560 }, { "epoch": 0.0636875, "grad_norm": 0.7475102543830872, "learning_rate": 0.0002973633694990928, "loss": 4.068, "step": 30570 }, { "epoch": 0.06370833333333334, "grad_norm": 0.8122192025184631, "learning_rate": 0.0002973615288735281, "loss": 4.1541, "step": 30580 }, { "epoch": 0.06372916666666667, "grad_norm": 0.7345097064971924, "learning_rate": 0.0002973596876114199, "loss": 4.0125, "step": 30590 }, { "epoch": 0.06375, "grad_norm": 0.8869519233703613, "learning_rate": 0.0002973578457127763, "loss": 4.1472, "step": 30600 }, { "epoch": 0.06377083333333333, "grad_norm": 0.8308647274971008, "learning_rate": 0.00029735600317760497, "loss": 3.9293, "step": 30610 }, { "epoch": 0.06379166666666666, "grad_norm": 0.7990361452102661, "learning_rate": 0.00029735416000591417, "loss": 4.003, "step": 30620 }, { "epoch": 0.0638125, "grad_norm": 0.9568301439285278, "learning_rate": 0.00029735231619771164, "loss": 4.0668, "step": 30630 }, { "epoch": 0.06383333333333334, "grad_norm": 0.9603811502456665, "learning_rate": 0.0002973504717530054, "loss": 4.0397, "step": 30640 }, { "epoch": 0.06385416666666667, "grad_norm": 0.8037965297698975, "learning_rate": 0.00029734862667180355, "loss": 3.96, "step": 30650 }, { "epoch": 0.063875, "grad_norm": 0.8071364164352417, "learning_rate": 0.00029734678095411386, "loss": 4.1265, "step": 30660 }, { "epoch": 0.06389583333333333, "grad_norm": 0.9483314156532288, "learning_rate": 0.0002973449345999445, "loss": 4.0536, "step": 30670 }, { "epoch": 0.06391666666666666, "grad_norm": 0.7776271104812622, "learning_rate": 0.0002973430876093033, "loss": 4.0215, "step": 30680 }, { "epoch": 0.0639375, "grad_norm": 0.955297589302063, "learning_rate": 0.00029734123998219824, "loss": 3.9222, "step": 30690 }, { "epoch": 0.06395833333333334, "grad_norm": 0.757895290851593, "learning_rate": 0.0002973393917186374, "loss": 4.0686, "step": 30700 }, { "epoch": 0.06397916666666667, "grad_norm": 1.2091442346572876, "learning_rate": 0.0002973375428186287, "loss": 4.1071, "step": 30710 }, { "epoch": 0.064, "grad_norm": 1.0378495454788208, "learning_rate": 0.0002973356932821801, "loss": 4.2626, "step": 30720 }, { "epoch": 0.06402083333333333, "grad_norm": 0.7644453048706055, "learning_rate": 0.00029733384310929965, "loss": 3.9924, "step": 30730 }, { "epoch": 0.06404166666666666, "grad_norm": 0.8094509840011597, "learning_rate": 0.00029733199229999534, "loss": 3.9202, "step": 30740 }, { "epoch": 0.0640625, "grad_norm": 0.7730520963668823, "learning_rate": 0.00029733014085427513, "loss": 4.2904, "step": 30750 }, { "epoch": 0.06408333333333334, "grad_norm": 0.765953004360199, "learning_rate": 0.000297328288772147, "loss": 4.0511, "step": 30760 }, { "epoch": 0.06410416666666667, "grad_norm": 0.8394192457199097, "learning_rate": 0.000297326436053619, "loss": 4.2438, "step": 30770 }, { "epoch": 0.064125, "grad_norm": 0.7873914241790771, "learning_rate": 0.0002973245826986991, "loss": 4.1383, "step": 30780 }, { "epoch": 0.06414583333333333, "grad_norm": 0.8852495551109314, "learning_rate": 0.00029732272870739535, "loss": 4.251, "step": 30790 }, { "epoch": 0.06416666666666666, "grad_norm": 0.763525128364563, "learning_rate": 0.00029732087407971573, "loss": 4.0772, "step": 30800 }, { "epoch": 0.0641875, "grad_norm": 0.8675146102905273, "learning_rate": 0.0002973190188156682, "loss": 3.9152, "step": 30810 }, { "epoch": 0.06420833333333334, "grad_norm": 0.7569173574447632, "learning_rate": 0.00029731716291526083, "loss": 3.9699, "step": 30820 }, { "epoch": 0.06422916666666667, "grad_norm": 0.8899872303009033, "learning_rate": 0.00029731530637850165, "loss": 3.9029, "step": 30830 }, { "epoch": 0.06425, "grad_norm": 0.8663697242736816, "learning_rate": 0.00029731344920539863, "loss": 4.0137, "step": 30840 }, { "epoch": 0.06427083333333333, "grad_norm": 0.7411839365959167, "learning_rate": 0.0002973115913959599, "loss": 4.2699, "step": 30850 }, { "epoch": 0.06429166666666666, "grad_norm": 0.974566638469696, "learning_rate": 0.0002973097329501933, "loss": 3.9777, "step": 30860 }, { "epoch": 0.0643125, "grad_norm": 0.814213216304779, "learning_rate": 0.000297307873868107, "loss": 4.0143, "step": 30870 }, { "epoch": 0.06433333333333334, "grad_norm": 0.8665851950645447, "learning_rate": 0.000297306014149709, "loss": 3.9548, "step": 30880 }, { "epoch": 0.06435416666666667, "grad_norm": 1.047326683998108, "learning_rate": 0.00029730415379500735, "loss": 4.0394, "step": 30890 }, { "epoch": 0.064375, "grad_norm": 0.7123035788536072, "learning_rate": 0.00029730229280401004, "loss": 4.1292, "step": 30900 }, { "epoch": 0.06439583333333333, "grad_norm": 0.8742004632949829, "learning_rate": 0.00029730043117672515, "loss": 4.1564, "step": 30910 }, { "epoch": 0.06441666666666666, "grad_norm": 0.8704647421836853, "learning_rate": 0.00029729856891316065, "loss": 4.0216, "step": 30920 }, { "epoch": 0.0644375, "grad_norm": 0.8091585636138916, "learning_rate": 0.0002972967060133247, "loss": 4.0617, "step": 30930 }, { "epoch": 0.06445833333333334, "grad_norm": 0.7084479331970215, "learning_rate": 0.0002972948424772253, "loss": 3.9508, "step": 30940 }, { "epoch": 0.06447916666666667, "grad_norm": 0.7011492848396301, "learning_rate": 0.0002972929783048704, "loss": 4.0573, "step": 30950 }, { "epoch": 0.0645, "grad_norm": 0.756658136844635, "learning_rate": 0.00029729111349626814, "loss": 4.164, "step": 30960 }, { "epoch": 0.06452083333333333, "grad_norm": 1.0252101421356201, "learning_rate": 0.00029728924805142663, "loss": 4.0559, "step": 30970 }, { "epoch": 0.06454166666666666, "grad_norm": 0.7813262343406677, "learning_rate": 0.00029728738197035387, "loss": 3.888, "step": 30980 }, { "epoch": 0.0645625, "grad_norm": 0.7838340401649475, "learning_rate": 0.0002972855152530579, "loss": 4.0857, "step": 30990 }, { "epoch": 0.06458333333333334, "grad_norm": 0.8517456650733948, "learning_rate": 0.00029728364789954675, "loss": 3.995, "step": 31000 }, { "epoch": 0.06458333333333334, "eval_loss": 4.327376365661621, "eval_runtime": 11.2178, "eval_samples_per_second": 0.891, "eval_steps_per_second": 0.267, "step": 31000 }, { "epoch": 0.06460416666666667, "grad_norm": 0.7699393630027771, "learning_rate": 0.0002972817799098286, "loss": 3.9777, "step": 31010 }, { "epoch": 0.064625, "grad_norm": 0.7769227027893066, "learning_rate": 0.00029727991128391146, "loss": 4.0379, "step": 31020 }, { "epoch": 0.06464583333333333, "grad_norm": 0.7739619612693787, "learning_rate": 0.0002972780420218034, "loss": 4.1631, "step": 31030 }, { "epoch": 0.06466666666666666, "grad_norm": 0.7439864277839661, "learning_rate": 0.0002972761721235125, "loss": 3.9989, "step": 31040 }, { "epoch": 0.0646875, "grad_norm": 0.7921522259712219, "learning_rate": 0.0002972743015890468, "loss": 3.9507, "step": 31050 }, { "epoch": 0.06470833333333334, "grad_norm": 0.8532997965812683, "learning_rate": 0.0002972724304184144, "loss": 4.215, "step": 31060 }, { "epoch": 0.06472916666666667, "grad_norm": 0.7538086175918579, "learning_rate": 0.00029727055861162346, "loss": 3.9818, "step": 31070 }, { "epoch": 0.06475, "grad_norm": 0.8587008118629456, "learning_rate": 0.000297268686168682, "loss": 3.9471, "step": 31080 }, { "epoch": 0.06477083333333333, "grad_norm": 1.573502540588379, "learning_rate": 0.000297266813089598, "loss": 3.9741, "step": 31090 }, { "epoch": 0.06479166666666666, "grad_norm": 0.8328423500061035, "learning_rate": 0.00029726493937437976, "loss": 3.9454, "step": 31100 }, { "epoch": 0.0648125, "grad_norm": 0.8369524478912354, "learning_rate": 0.00029726306502303527, "loss": 3.9664, "step": 31110 }, { "epoch": 0.06483333333333334, "grad_norm": 0.805446207523346, "learning_rate": 0.0002972611900355726, "loss": 3.9284, "step": 31120 }, { "epoch": 0.06485416666666667, "grad_norm": 0.8027258515357971, "learning_rate": 0.00029725931441199993, "loss": 4.0722, "step": 31130 }, { "epoch": 0.064875, "grad_norm": 0.8427593111991882, "learning_rate": 0.00029725743815232523, "loss": 3.9705, "step": 31140 }, { "epoch": 0.06489583333333333, "grad_norm": 0.8590787053108215, "learning_rate": 0.00029725556125655676, "loss": 4.0192, "step": 31150 }, { "epoch": 0.06491666666666666, "grad_norm": 0.7328251004219055, "learning_rate": 0.0002972536837247025, "loss": 4.0692, "step": 31160 }, { "epoch": 0.0649375, "grad_norm": 0.8321552276611328, "learning_rate": 0.00029725180555677065, "loss": 3.8933, "step": 31170 }, { "epoch": 0.06495833333333334, "grad_norm": 0.8210546374320984, "learning_rate": 0.0002972499267527692, "loss": 3.8613, "step": 31180 }, { "epoch": 0.06497916666666667, "grad_norm": 0.7840132117271423, "learning_rate": 0.00029724804731270644, "loss": 4.1586, "step": 31190 }, { "epoch": 0.065, "grad_norm": 0.7932566404342651, "learning_rate": 0.0002972461672365904, "loss": 3.8534, "step": 31200 }, { "epoch": 0.06502083333333333, "grad_norm": 0.8288613557815552, "learning_rate": 0.00029724428652442913, "loss": 4.308, "step": 31210 }, { "epoch": 0.06504166666666666, "grad_norm": 0.749365508556366, "learning_rate": 0.0002972424051762309, "loss": 4.0178, "step": 31220 }, { "epoch": 0.0650625, "grad_norm": 0.6931217908859253, "learning_rate": 0.00029724052319200377, "loss": 4.23, "step": 31230 }, { "epoch": 0.06508333333333334, "grad_norm": 0.8485331535339355, "learning_rate": 0.0002972386405717558, "loss": 3.8514, "step": 31240 }, { "epoch": 0.06510416666666667, "grad_norm": 0.8824385404586792, "learning_rate": 0.00029723675731549524, "loss": 4.0208, "step": 31250 }, { "epoch": 0.065125, "grad_norm": 0.7513061761856079, "learning_rate": 0.0002972348734232301, "loss": 4.0345, "step": 31260 }, { "epoch": 0.06514583333333333, "grad_norm": 0.8242037892341614, "learning_rate": 0.00029723298889496865, "loss": 4.0345, "step": 31270 }, { "epoch": 0.06516666666666666, "grad_norm": 0.8075969815254211, "learning_rate": 0.00029723110373071896, "loss": 3.943, "step": 31280 }, { "epoch": 0.0651875, "grad_norm": 0.8235570192337036, "learning_rate": 0.0002972292179304892, "loss": 4.1328, "step": 31290 }, { "epoch": 0.06520833333333333, "grad_norm": 0.8061322569847107, "learning_rate": 0.00029722733149428743, "loss": 4.0461, "step": 31300 }, { "epoch": 0.06522916666666667, "grad_norm": 0.7223886847496033, "learning_rate": 0.0002972254444221219, "loss": 4.0573, "step": 31310 }, { "epoch": 0.06525, "grad_norm": 0.836357593536377, "learning_rate": 0.00029722355671400074, "loss": 4.0626, "step": 31320 }, { "epoch": 0.06527083333333333, "grad_norm": 0.8263186812400818, "learning_rate": 0.00029722166836993206, "loss": 4.1345, "step": 31330 }, { "epoch": 0.06529166666666666, "grad_norm": 0.7752527594566345, "learning_rate": 0.00029721977938992406, "loss": 4.0337, "step": 31340 }, { "epoch": 0.0653125, "grad_norm": 0.7923381328582764, "learning_rate": 0.00029721788977398486, "loss": 4.2156, "step": 31350 }, { "epoch": 0.06533333333333333, "grad_norm": 0.8020000457763672, "learning_rate": 0.0002972159995221227, "loss": 4.1175, "step": 31360 }, { "epoch": 0.06535416666666667, "grad_norm": 0.7421557903289795, "learning_rate": 0.0002972141086343457, "loss": 4.0763, "step": 31370 }, { "epoch": 0.065375, "grad_norm": 0.8899211883544922, "learning_rate": 0.00029721221711066195, "loss": 4.1089, "step": 31380 }, { "epoch": 0.06539583333333333, "grad_norm": 1.061769962310791, "learning_rate": 0.0002972103249510797, "loss": 4.0919, "step": 31390 }, { "epoch": 0.06541666666666666, "grad_norm": 0.803652286529541, "learning_rate": 0.0002972084321556072, "loss": 4.0907, "step": 31400 }, { "epoch": 0.0654375, "grad_norm": 0.9599441885948181, "learning_rate": 0.0002972065387242525, "loss": 4.0686, "step": 31410 }, { "epoch": 0.06545833333333333, "grad_norm": 1.2810839414596558, "learning_rate": 0.0002972046446570238, "loss": 4.1072, "step": 31420 }, { "epoch": 0.06547916666666667, "grad_norm": 0.772625207901001, "learning_rate": 0.0002972027499539293, "loss": 4.0324, "step": 31430 }, { "epoch": 0.0655, "grad_norm": 0.7917378544807434, "learning_rate": 0.0002972008546149772, "loss": 3.9718, "step": 31440 }, { "epoch": 0.06552083333333333, "grad_norm": 0.7269752025604248, "learning_rate": 0.0002971989586401757, "loss": 4.0404, "step": 31450 }, { "epoch": 0.06554166666666666, "grad_norm": 0.8392676711082458, "learning_rate": 0.00029719706202953295, "loss": 4.0295, "step": 31460 }, { "epoch": 0.0655625, "grad_norm": 0.858913779258728, "learning_rate": 0.00029719516478305714, "loss": 4.1028, "step": 31470 }, { "epoch": 0.06558333333333333, "grad_norm": 0.8909509778022766, "learning_rate": 0.0002971932669007565, "loss": 4.0115, "step": 31480 }, { "epoch": 0.06560416666666667, "grad_norm": 0.7191335558891296, "learning_rate": 0.0002971913683826392, "loss": 4.1224, "step": 31490 }, { "epoch": 0.065625, "grad_norm": 0.8361225128173828, "learning_rate": 0.00029718946922871345, "loss": 4.0749, "step": 31500 }, { "epoch": 0.06564583333333333, "grad_norm": 0.8083269000053406, "learning_rate": 0.00029718756943898747, "loss": 4.001, "step": 31510 }, { "epoch": 0.06566666666666666, "grad_norm": 0.784357488155365, "learning_rate": 0.0002971856690134694, "loss": 4.1027, "step": 31520 }, { "epoch": 0.0656875, "grad_norm": 0.8807656764984131, "learning_rate": 0.0002971837679521676, "loss": 3.935, "step": 31530 }, { "epoch": 0.06570833333333333, "grad_norm": 0.8418789505958557, "learning_rate": 0.0002971818662550901, "loss": 3.88, "step": 31540 }, { "epoch": 0.06572916666666667, "grad_norm": 0.8894891142845154, "learning_rate": 0.0002971799639222452, "loss": 3.9813, "step": 31550 }, { "epoch": 0.06575, "grad_norm": 0.8310811519622803, "learning_rate": 0.00029717806095364116, "loss": 4.0596, "step": 31560 }, { "epoch": 0.06577083333333333, "grad_norm": 0.8758858442306519, "learning_rate": 0.00029717615734928607, "loss": 3.886, "step": 31570 }, { "epoch": 0.06579166666666666, "grad_norm": 1.004859209060669, "learning_rate": 0.0002971742531091883, "loss": 4.2089, "step": 31580 }, { "epoch": 0.0658125, "grad_norm": 0.983969509601593, "learning_rate": 0.000297172348233356, "loss": 4.005, "step": 31590 }, { "epoch": 0.06583333333333333, "grad_norm": 0.7759684324264526, "learning_rate": 0.00029717044272179746, "loss": 4.0044, "step": 31600 }, { "epoch": 0.06585416666666667, "grad_norm": 0.7237251400947571, "learning_rate": 0.00029716853657452076, "loss": 4.1092, "step": 31610 }, { "epoch": 0.065875, "grad_norm": 0.7398350238800049, "learning_rate": 0.0002971666297915343, "loss": 4.0639, "step": 31620 }, { "epoch": 0.06589583333333333, "grad_norm": 0.9780521392822266, "learning_rate": 0.00029716472237284626, "loss": 4.0527, "step": 31630 }, { "epoch": 0.06591666666666667, "grad_norm": 0.8306523561477661, "learning_rate": 0.00029716281431846483, "loss": 4.0306, "step": 31640 }, { "epoch": 0.0659375, "grad_norm": 0.7594656348228455, "learning_rate": 0.00029716090562839837, "loss": 4.0069, "step": 31650 }, { "epoch": 0.06595833333333333, "grad_norm": 0.825843334197998, "learning_rate": 0.00029715899630265496, "loss": 4.0511, "step": 31660 }, { "epoch": 0.06597916666666667, "grad_norm": 0.8742634654045105, "learning_rate": 0.00029715708634124295, "loss": 4.1882, "step": 31670 }, { "epoch": 0.066, "grad_norm": 0.8525441884994507, "learning_rate": 0.0002971551757441706, "loss": 4.1154, "step": 31680 }, { "epoch": 0.06602083333333333, "grad_norm": 0.761658787727356, "learning_rate": 0.00029715326451144615, "loss": 3.8906, "step": 31690 }, { "epoch": 0.06604166666666667, "grad_norm": 0.8600627779960632, "learning_rate": 0.0002971513526430778, "loss": 4.1001, "step": 31700 }, { "epoch": 0.0660625, "grad_norm": 0.8396868705749512, "learning_rate": 0.0002971494401390739, "loss": 4.0184, "step": 31710 }, { "epoch": 0.06608333333333333, "grad_norm": 0.8151586651802063, "learning_rate": 0.00029714752699944267, "loss": 4.1384, "step": 31720 }, { "epoch": 0.06610416666666667, "grad_norm": 0.8682240843772888, "learning_rate": 0.00029714561322419236, "loss": 3.9103, "step": 31730 }, { "epoch": 0.066125, "grad_norm": 0.9842267036437988, "learning_rate": 0.0002971436988133312, "loss": 3.9658, "step": 31740 }, { "epoch": 0.06614583333333333, "grad_norm": 0.7141526341438293, "learning_rate": 0.00029714178376686755, "loss": 3.7982, "step": 31750 }, { "epoch": 0.06616666666666667, "grad_norm": 0.8450179696083069, "learning_rate": 0.0002971398680848096, "loss": 4.0135, "step": 31760 }, { "epoch": 0.0661875, "grad_norm": 0.8115793466567993, "learning_rate": 0.0002971379517671657, "loss": 4.1593, "step": 31770 }, { "epoch": 0.06620833333333333, "grad_norm": 0.8941506743431091, "learning_rate": 0.0002971360348139441, "loss": 3.9621, "step": 31780 }, { "epoch": 0.06622916666666667, "grad_norm": 0.8005551695823669, "learning_rate": 0.000297134117225153, "loss": 4.0692, "step": 31790 }, { "epoch": 0.06625, "grad_norm": 0.838133692741394, "learning_rate": 0.0002971321990008008, "loss": 4.1592, "step": 31800 }, { "epoch": 0.06627083333333333, "grad_norm": 0.6778169274330139, "learning_rate": 0.0002971302801408957, "loss": 4.1142, "step": 31810 }, { "epoch": 0.06629166666666667, "grad_norm": 0.7644655704498291, "learning_rate": 0.00029712836064544614, "loss": 3.8673, "step": 31820 }, { "epoch": 0.0663125, "grad_norm": 0.8340640068054199, "learning_rate": 0.0002971264405144602, "loss": 4.0668, "step": 31830 }, { "epoch": 0.06633333333333333, "grad_norm": 0.8286347985267639, "learning_rate": 0.00029712451974794624, "loss": 4.0207, "step": 31840 }, { "epoch": 0.06635416666666667, "grad_norm": 0.8984985947608948, "learning_rate": 0.00029712259834591267, "loss": 3.938, "step": 31850 }, { "epoch": 0.066375, "grad_norm": 0.7914735078811646, "learning_rate": 0.0002971206763083677, "loss": 4.1784, "step": 31860 }, { "epoch": 0.06639583333333333, "grad_norm": 0.8044353723526001, "learning_rate": 0.00029711875363531965, "loss": 4.1324, "step": 31870 }, { "epoch": 0.06641666666666667, "grad_norm": 0.8105528354644775, "learning_rate": 0.0002971168303267768, "loss": 3.8935, "step": 31880 }, { "epoch": 0.0664375, "grad_norm": 0.868144690990448, "learning_rate": 0.00029711490638274746, "loss": 4.0305, "step": 31890 }, { "epoch": 0.06645833333333333, "grad_norm": 0.808652400970459, "learning_rate": 0.00029711298180324, "loss": 4.0267, "step": 31900 }, { "epoch": 0.06647916666666667, "grad_norm": 0.7524037957191467, "learning_rate": 0.00029711105658826264, "loss": 4.104, "step": 31910 }, { "epoch": 0.0665, "grad_norm": 0.9060965776443481, "learning_rate": 0.00029710913073782377, "loss": 4.1547, "step": 31920 }, { "epoch": 0.06652083333333333, "grad_norm": 0.6752282381057739, "learning_rate": 0.0002971072042519317, "loss": 4.0694, "step": 31930 }, { "epoch": 0.06654166666666667, "grad_norm": 0.8896430730819702, "learning_rate": 0.0002971052771305947, "loss": 3.8984, "step": 31940 }, { "epoch": 0.0665625, "grad_norm": 0.8401201963424683, "learning_rate": 0.0002971033493738211, "loss": 4.1298, "step": 31950 }, { "epoch": 0.06658333333333333, "grad_norm": 0.7810353636741638, "learning_rate": 0.00029710142098161933, "loss": 4.0069, "step": 31960 }, { "epoch": 0.06660416666666667, "grad_norm": 0.8506817817687988, "learning_rate": 0.0002970994919539976, "loss": 4.0399, "step": 31970 }, { "epoch": 0.066625, "grad_norm": 0.7968143224716187, "learning_rate": 0.00029709756229096435, "loss": 4.0042, "step": 31980 }, { "epoch": 0.06664583333333333, "grad_norm": 0.7629056572914124, "learning_rate": 0.00029709563199252785, "loss": 4.1703, "step": 31990 }, { "epoch": 0.06666666666666667, "grad_norm": 0.7136216163635254, "learning_rate": 0.0002970937010586964, "loss": 3.9575, "step": 32000 }, { "epoch": 0.06666666666666667, "eval_loss": 4.317984580993652, "eval_runtime": 10.0305, "eval_samples_per_second": 0.997, "eval_steps_per_second": 0.299, "step": 32000 }, { "epoch": 0.0666875, "grad_norm": 0.8806329965591431, "learning_rate": 0.0002970917694894784, "loss": 3.9776, "step": 32010 }, { "epoch": 0.06670833333333333, "grad_norm": 0.8076229691505432, "learning_rate": 0.00029708983728488216, "loss": 3.833, "step": 32020 }, { "epoch": 0.06672916666666667, "grad_norm": 0.7460716962814331, "learning_rate": 0.0002970879044449161, "loss": 3.978, "step": 32030 }, { "epoch": 0.06675, "grad_norm": 0.7601043581962585, "learning_rate": 0.00029708597096958847, "loss": 4.0981, "step": 32040 }, { "epoch": 0.06677083333333333, "grad_norm": 1.3620151281356812, "learning_rate": 0.00029708403685890767, "loss": 4.0756, "step": 32050 }, { "epoch": 0.06679166666666667, "grad_norm": 0.9241359233856201, "learning_rate": 0.00029708210211288206, "loss": 4.1327, "step": 32060 }, { "epoch": 0.0668125, "grad_norm": 0.8080127239227295, "learning_rate": 0.00029708016673152, "loss": 3.7964, "step": 32070 }, { "epoch": 0.06683333333333333, "grad_norm": 0.8615015149116516, "learning_rate": 0.0002970782307148298, "loss": 4.127, "step": 32080 }, { "epoch": 0.06685416666666667, "grad_norm": 0.8855525255203247, "learning_rate": 0.0002970762940628199, "loss": 4.0057, "step": 32090 }, { "epoch": 0.066875, "grad_norm": 0.8995692729949951, "learning_rate": 0.0002970743567754986, "loss": 4.134, "step": 32100 }, { "epoch": 0.06689583333333333, "grad_norm": 0.7830197811126709, "learning_rate": 0.0002970724188528743, "loss": 4.0404, "step": 32110 }, { "epoch": 0.06691666666666667, "grad_norm": 0.836725652217865, "learning_rate": 0.00029707048029495536, "loss": 4.0553, "step": 32120 }, { "epoch": 0.0669375, "grad_norm": 0.9917230010032654, "learning_rate": 0.0002970685411017502, "loss": 3.9583, "step": 32130 }, { "epoch": 0.06695833333333333, "grad_norm": 0.9153820276260376, "learning_rate": 0.0002970666012732671, "loss": 4.1199, "step": 32140 }, { "epoch": 0.06697916666666667, "grad_norm": 0.7497650980949402, "learning_rate": 0.00029706466080951457, "loss": 4.0236, "step": 32150 }, { "epoch": 0.067, "grad_norm": 0.7608867287635803, "learning_rate": 0.00029706271971050084, "loss": 4.0119, "step": 32160 }, { "epoch": 0.06702083333333334, "grad_norm": 0.8883413672447205, "learning_rate": 0.0002970607779762344, "loss": 3.9867, "step": 32170 }, { "epoch": 0.06704166666666667, "grad_norm": 0.7936492562294006, "learning_rate": 0.0002970588356067236, "loss": 4.2201, "step": 32180 }, { "epoch": 0.0670625, "grad_norm": 0.8649752736091614, "learning_rate": 0.0002970568926019769, "loss": 4.1098, "step": 32190 }, { "epoch": 0.06708333333333333, "grad_norm": 0.8336516618728638, "learning_rate": 0.00029705494896200256, "loss": 3.9697, "step": 32200 }, { "epoch": 0.06710416666666667, "grad_norm": 0.8784851431846619, "learning_rate": 0.0002970530046868091, "loss": 3.9302, "step": 32210 }, { "epoch": 0.067125, "grad_norm": 0.7416805624961853, "learning_rate": 0.00029705105977640485, "loss": 4.0154, "step": 32220 }, { "epoch": 0.06714583333333334, "grad_norm": 1.0436137914657593, "learning_rate": 0.0002970491142307982, "loss": 4.0089, "step": 32230 }, { "epoch": 0.06716666666666667, "grad_norm": 0.8003923296928406, "learning_rate": 0.0002970471680499976, "loss": 4.102, "step": 32240 }, { "epoch": 0.0671875, "grad_norm": 0.8729292750358582, "learning_rate": 0.00029704522123401143, "loss": 3.7755, "step": 32250 }, { "epoch": 0.06720833333333333, "grad_norm": 0.7801644802093506, "learning_rate": 0.0002970432737828481, "loss": 3.9371, "step": 32260 }, { "epoch": 0.06722916666666667, "grad_norm": 0.8539013862609863, "learning_rate": 0.00029704132569651604, "loss": 4.2793, "step": 32270 }, { "epoch": 0.06725, "grad_norm": 0.8270050883293152, "learning_rate": 0.0002970393769750237, "loss": 4.0033, "step": 32280 }, { "epoch": 0.06727083333333334, "grad_norm": 0.9147341847419739, "learning_rate": 0.00029703742761837945, "loss": 3.89, "step": 32290 }, { "epoch": 0.06729166666666667, "grad_norm": 0.8416891098022461, "learning_rate": 0.00029703547762659167, "loss": 4.047, "step": 32300 }, { "epoch": 0.0673125, "grad_norm": 0.9025658965110779, "learning_rate": 0.0002970335269996688, "loss": 3.9372, "step": 32310 }, { "epoch": 0.06733333333333333, "grad_norm": 0.7795712351799011, "learning_rate": 0.00029703157573761937, "loss": 4.0626, "step": 32320 }, { "epoch": 0.06735416666666667, "grad_norm": 0.7526452541351318, "learning_rate": 0.0002970296238404517, "loss": 4.1811, "step": 32330 }, { "epoch": 0.067375, "grad_norm": 0.7744480967521667, "learning_rate": 0.00029702767130817425, "loss": 4.1262, "step": 32340 }, { "epoch": 0.06739583333333334, "grad_norm": 0.7511940598487854, "learning_rate": 0.0002970257181407955, "loss": 3.8759, "step": 32350 }, { "epoch": 0.06741666666666667, "grad_norm": 0.8914083242416382, "learning_rate": 0.00029702376433832374, "loss": 4.0982, "step": 32360 }, { "epoch": 0.0674375, "grad_norm": 0.8178173303604126, "learning_rate": 0.0002970218099007676, "loss": 4.0966, "step": 32370 }, { "epoch": 0.06745833333333333, "grad_norm": 0.958595335483551, "learning_rate": 0.00029701985482813545, "loss": 4.0551, "step": 32380 }, { "epoch": 0.06747916666666667, "grad_norm": 0.7528960704803467, "learning_rate": 0.00029701789912043566, "loss": 4.1179, "step": 32390 }, { "epoch": 0.0675, "grad_norm": 0.8234387040138245, "learning_rate": 0.0002970159427776768, "loss": 4.0874, "step": 32400 }, { "epoch": 0.06752083333333334, "grad_norm": 0.8581607341766357, "learning_rate": 0.0002970139857998672, "loss": 4.0402, "step": 32410 }, { "epoch": 0.06754166666666667, "grad_norm": 0.7798576951026917, "learning_rate": 0.0002970120281870154, "loss": 3.9334, "step": 32420 }, { "epoch": 0.0675625, "grad_norm": 0.8752985596656799, "learning_rate": 0.00029701006993912985, "loss": 3.9642, "step": 32430 }, { "epoch": 0.06758333333333333, "grad_norm": 0.9090281128883362, "learning_rate": 0.00029700811105621894, "loss": 3.96, "step": 32440 }, { "epoch": 0.06760416666666667, "grad_norm": 0.8500468730926514, "learning_rate": 0.00029700615153829124, "loss": 3.9925, "step": 32450 }, { "epoch": 0.067625, "grad_norm": 0.7876474261283875, "learning_rate": 0.0002970041913853551, "loss": 3.8318, "step": 32460 }, { "epoch": 0.06764583333333334, "grad_norm": 0.8432392477989197, "learning_rate": 0.0002970022305974191, "loss": 3.7714, "step": 32470 }, { "epoch": 0.06766666666666667, "grad_norm": 0.7286289930343628, "learning_rate": 0.0002970002691744916, "loss": 4.0779, "step": 32480 }, { "epoch": 0.0676875, "grad_norm": 0.7543696165084839, "learning_rate": 0.0002969983071165811, "loss": 4.0354, "step": 32490 }, { "epoch": 0.06770833333333333, "grad_norm": 0.7769435048103333, "learning_rate": 0.00029699634442369616, "loss": 3.9855, "step": 32500 }, { "epoch": 0.06772916666666666, "grad_norm": 0.8413987159729004, "learning_rate": 0.00029699438109584517, "loss": 4.0958, "step": 32510 }, { "epoch": 0.06775, "grad_norm": 0.7596355676651001, "learning_rate": 0.00029699241713303665, "loss": 3.9752, "step": 32520 }, { "epoch": 0.06777083333333334, "grad_norm": 0.9097784757614136, "learning_rate": 0.00029699045253527907, "loss": 3.9581, "step": 32530 }, { "epoch": 0.06779166666666667, "grad_norm": 0.8153075575828552, "learning_rate": 0.0002969884873025809, "loss": 3.8622, "step": 32540 }, { "epoch": 0.0678125, "grad_norm": 0.8951911926269531, "learning_rate": 0.00029698652143495067, "loss": 4.0406, "step": 32550 }, { "epoch": 0.06783333333333333, "grad_norm": 0.8234619498252869, "learning_rate": 0.00029698455493239683, "loss": 4.0881, "step": 32560 }, { "epoch": 0.06785416666666666, "grad_norm": 0.8194829821586609, "learning_rate": 0.0002969825877949279, "loss": 3.9506, "step": 32570 }, { "epoch": 0.067875, "grad_norm": 0.7898656129837036, "learning_rate": 0.00029698062002255236, "loss": 3.9118, "step": 32580 }, { "epoch": 0.06789583333333334, "grad_norm": 0.9381137490272522, "learning_rate": 0.00029697865161527876, "loss": 3.964, "step": 32590 }, { "epoch": 0.06791666666666667, "grad_norm": 0.8576021790504456, "learning_rate": 0.0002969766825731155, "loss": 4.0403, "step": 32600 }, { "epoch": 0.0679375, "grad_norm": 0.836057186126709, "learning_rate": 0.0002969747128960712, "loss": 4.122, "step": 32610 }, { "epoch": 0.06795833333333333, "grad_norm": 0.8609469532966614, "learning_rate": 0.0002969727425841543, "loss": 4.0805, "step": 32620 }, { "epoch": 0.06797916666666666, "grad_norm": 0.8229736089706421, "learning_rate": 0.0002969707716373733, "loss": 3.9666, "step": 32630 }, { "epoch": 0.068, "grad_norm": 1.3043606281280518, "learning_rate": 0.0002969688000557368, "loss": 4.0234, "step": 32640 }, { "epoch": 0.06802083333333334, "grad_norm": 0.829684317111969, "learning_rate": 0.0002969668278392532, "loss": 4.0865, "step": 32650 }, { "epoch": 0.06804166666666667, "grad_norm": 0.874487042427063, "learning_rate": 0.00029696485498793113, "loss": 4.117, "step": 32660 }, { "epoch": 0.0680625, "grad_norm": 0.6601777672767639, "learning_rate": 0.0002969628815017791, "loss": 3.9687, "step": 32670 }, { "epoch": 0.06808333333333333, "grad_norm": 0.8547908067703247, "learning_rate": 0.00029696090738080545, "loss": 4.038, "step": 32680 }, { "epoch": 0.06810416666666666, "grad_norm": 0.7928237318992615, "learning_rate": 0.000296958932625019, "loss": 4.1302, "step": 32690 }, { "epoch": 0.068125, "grad_norm": 0.7978391051292419, "learning_rate": 0.00029695695723442803, "loss": 4.0002, "step": 32700 }, { "epoch": 0.06814583333333334, "grad_norm": 0.8476807475090027, "learning_rate": 0.0002969549812090412, "loss": 4.1103, "step": 32710 }, { "epoch": 0.06816666666666667, "grad_norm": 0.9178527593612671, "learning_rate": 0.000296953004548867, "loss": 4.0663, "step": 32720 }, { "epoch": 0.0681875, "grad_norm": 0.738376259803772, "learning_rate": 0.000296951027253914, "loss": 4.0339, "step": 32730 }, { "epoch": 0.06820833333333333, "grad_norm": 0.8412818908691406, "learning_rate": 0.0002969490493241908, "loss": 4.0402, "step": 32740 }, { "epoch": 0.06822916666666666, "grad_norm": 0.934935450553894, "learning_rate": 0.0002969470707597058, "loss": 3.901, "step": 32750 }, { "epoch": 0.06825, "grad_norm": 0.897495687007904, "learning_rate": 0.00029694509156046766, "loss": 3.9922, "step": 32760 }, { "epoch": 0.06827083333333334, "grad_norm": 0.8871989846229553, "learning_rate": 0.00029694311172648487, "loss": 3.9878, "step": 32770 }, { "epoch": 0.06829166666666667, "grad_norm": 0.719870924949646, "learning_rate": 0.000296941131257766, "loss": 3.9769, "step": 32780 }, { "epoch": 0.0683125, "grad_norm": 0.8276297450065613, "learning_rate": 0.0002969391501543196, "loss": 4.1362, "step": 32790 }, { "epoch": 0.06833333333333333, "grad_norm": 0.8307990431785583, "learning_rate": 0.0002969371684161542, "loss": 3.9933, "step": 32800 }, { "epoch": 0.06835416666666666, "grad_norm": 0.8146401047706604, "learning_rate": 0.00029693518604327845, "loss": 3.9748, "step": 32810 }, { "epoch": 0.068375, "grad_norm": 0.9713392853736877, "learning_rate": 0.00029693320303570087, "loss": 4.0625, "step": 32820 }, { "epoch": 0.06839583333333334, "grad_norm": 1.029344916343689, "learning_rate": 0.00029693121939342997, "loss": 4.0584, "step": 32830 }, { "epoch": 0.06841666666666667, "grad_norm": 0.9031974673271179, "learning_rate": 0.0002969292351164744, "loss": 3.9429, "step": 32840 }, { "epoch": 0.0684375, "grad_norm": 0.7857670187950134, "learning_rate": 0.0002969272502048427, "loss": 4.0534, "step": 32850 }, { "epoch": 0.06845833333333333, "grad_norm": 0.8948509097099304, "learning_rate": 0.00029692526465854337, "loss": 4.1799, "step": 32860 }, { "epoch": 0.06847916666666666, "grad_norm": 0.7429506778717041, "learning_rate": 0.00029692327847758506, "loss": 3.993, "step": 32870 }, { "epoch": 0.0685, "grad_norm": 0.9259060621261597, "learning_rate": 0.0002969212916619764, "loss": 3.9473, "step": 32880 }, { "epoch": 0.06852083333333334, "grad_norm": 0.920107901096344, "learning_rate": 0.00029691930421172583, "loss": 4.0013, "step": 32890 }, { "epoch": 0.06854166666666667, "grad_norm": 0.829792857170105, "learning_rate": 0.00029691731612684215, "loss": 4.1036, "step": 32900 }, { "epoch": 0.0685625, "grad_norm": 0.7543922662734985, "learning_rate": 0.00029691532740733375, "loss": 4.0015, "step": 32910 }, { "epoch": 0.06858333333333333, "grad_norm": 0.7866932153701782, "learning_rate": 0.0002969133380532092, "loss": 4.0068, "step": 32920 }, { "epoch": 0.06860416666666666, "grad_norm": 0.8012253642082214, "learning_rate": 0.00029691134806447727, "loss": 4.3772, "step": 32930 }, { "epoch": 0.068625, "grad_norm": 0.7860134243965149, "learning_rate": 0.00029690935744114655, "loss": 3.8687, "step": 32940 }, { "epoch": 0.06864583333333334, "grad_norm": 0.7570598721504211, "learning_rate": 0.00029690736618322546, "loss": 4.1057, "step": 32950 }, { "epoch": 0.06866666666666667, "grad_norm": 0.856360673904419, "learning_rate": 0.0002969053742907227, "loss": 4.1768, "step": 32960 }, { "epoch": 0.0686875, "grad_norm": 0.8201711177825928, "learning_rate": 0.00029690338176364685, "loss": 4.129, "step": 32970 }, { "epoch": 0.06870833333333333, "grad_norm": 0.8094348311424255, "learning_rate": 0.00029690138860200655, "loss": 4.0328, "step": 32980 }, { "epoch": 0.06872916666666666, "grad_norm": 0.7905895709991455, "learning_rate": 0.00029689939480581043, "loss": 4.0906, "step": 32990 }, { "epoch": 0.06875, "grad_norm": 0.8108993768692017, "learning_rate": 0.0002968974003750671, "loss": 4.0015, "step": 33000 }, { "epoch": 0.06875, "eval_loss": 4.30398416519165, "eval_runtime": 9.9665, "eval_samples_per_second": 1.003, "eval_steps_per_second": 0.301, "step": 33000 }, { "epoch": 0.06877083333333334, "grad_norm": 0.8802614808082581, "learning_rate": 0.00029689540530978507, "loss": 3.9564, "step": 33010 }, { "epoch": 0.06879166666666667, "grad_norm": 0.8001412749290466, "learning_rate": 0.00029689340960997306, "loss": 4.0892, "step": 33020 }, { "epoch": 0.0688125, "grad_norm": 0.850569486618042, "learning_rate": 0.0002968914132756397, "loss": 3.8203, "step": 33030 }, { "epoch": 0.06883333333333333, "grad_norm": 0.8175033330917358, "learning_rate": 0.00029688941630679356, "loss": 4.0917, "step": 33040 }, { "epoch": 0.06885416666666666, "grad_norm": 0.7801465392112732, "learning_rate": 0.0002968874187034433, "loss": 4.0185, "step": 33050 }, { "epoch": 0.068875, "grad_norm": 0.9223626852035522, "learning_rate": 0.0002968854204655975, "loss": 3.9671, "step": 33060 }, { "epoch": 0.06889583333333334, "grad_norm": 0.8289282321929932, "learning_rate": 0.0002968834215932648, "loss": 4.1713, "step": 33070 }, { "epoch": 0.06891666666666667, "grad_norm": 0.8045044541358948, "learning_rate": 0.00029688142208645393, "loss": 3.9174, "step": 33080 }, { "epoch": 0.0689375, "grad_norm": 0.8104084730148315, "learning_rate": 0.00029687942194517346, "loss": 4.0087, "step": 33090 }, { "epoch": 0.06895833333333333, "grad_norm": 0.852576494216919, "learning_rate": 0.000296877421169432, "loss": 3.8957, "step": 33100 }, { "epoch": 0.06897916666666666, "grad_norm": 0.7764285802841187, "learning_rate": 0.0002968754197592382, "loss": 4.0078, "step": 33110 }, { "epoch": 0.069, "grad_norm": 0.6912543177604675, "learning_rate": 0.0002968734177146007, "loss": 3.985, "step": 33120 }, { "epoch": 0.06902083333333334, "grad_norm": 0.7757405638694763, "learning_rate": 0.0002968714150355282, "loss": 3.9926, "step": 33130 }, { "epoch": 0.06904166666666667, "grad_norm": 0.8769288659095764, "learning_rate": 0.0002968694117220293, "loss": 4.0758, "step": 33140 }, { "epoch": 0.0690625, "grad_norm": 0.9956322312355042, "learning_rate": 0.00029686740777411274, "loss": 4.0011, "step": 33150 }, { "epoch": 0.06908333333333333, "grad_norm": 0.9630488753318787, "learning_rate": 0.0002968654031917871, "loss": 4.1207, "step": 33160 }, { "epoch": 0.06910416666666666, "grad_norm": 0.730347216129303, "learning_rate": 0.00029686339797506097, "loss": 3.9294, "step": 33170 }, { "epoch": 0.069125, "grad_norm": 0.7564640641212463, "learning_rate": 0.00029686139212394317, "loss": 4.1184, "step": 33180 }, { "epoch": 0.06914583333333334, "grad_norm": 0.9014918804168701, "learning_rate": 0.0002968593856384423, "loss": 4.1378, "step": 33190 }, { "epoch": 0.06916666666666667, "grad_norm": 0.8133769631385803, "learning_rate": 0.00029685737851856695, "loss": 4.0697, "step": 33200 }, { "epoch": 0.0691875, "grad_norm": 0.7749180197715759, "learning_rate": 0.0002968553707643259, "loss": 3.9783, "step": 33210 }, { "epoch": 0.06920833333333333, "grad_norm": 0.7466203570365906, "learning_rate": 0.00029685336237572776, "loss": 3.9652, "step": 33220 }, { "epoch": 0.06922916666666666, "grad_norm": 0.8236038088798523, "learning_rate": 0.0002968513533527812, "loss": 4.1628, "step": 33230 }, { "epoch": 0.06925, "grad_norm": 0.8048877716064453, "learning_rate": 0.000296849343695495, "loss": 4.2041, "step": 33240 }, { "epoch": 0.06927083333333334, "grad_norm": 0.9180687665939331, "learning_rate": 0.0002968473334038777, "loss": 4.0011, "step": 33250 }, { "epoch": 0.06929166666666667, "grad_norm": 0.894702672958374, "learning_rate": 0.000296845322477938, "loss": 4.0673, "step": 33260 }, { "epoch": 0.0693125, "grad_norm": 0.7540309429168701, "learning_rate": 0.00029684331091768475, "loss": 3.9622, "step": 33270 }, { "epoch": 0.06933333333333333, "grad_norm": 0.9511730074882507, "learning_rate": 0.0002968412987231265, "loss": 4.2008, "step": 33280 }, { "epoch": 0.06935416666666666, "grad_norm": 0.717928409576416, "learning_rate": 0.00029683928589427193, "loss": 4.0966, "step": 33290 }, { "epoch": 0.069375, "grad_norm": 0.8435646891593933, "learning_rate": 0.00029683727243112973, "loss": 4.1442, "step": 33300 }, { "epoch": 0.06939583333333334, "grad_norm": 0.9767887592315674, "learning_rate": 0.00029683525833370866, "loss": 4.1393, "step": 33310 }, { "epoch": 0.06941666666666667, "grad_norm": 0.803268313407898, "learning_rate": 0.0002968332436020174, "loss": 3.9012, "step": 33320 }, { "epoch": 0.0694375, "grad_norm": 0.7727909684181213, "learning_rate": 0.00029683122823606466, "loss": 4.0018, "step": 33330 }, { "epoch": 0.06945833333333333, "grad_norm": 0.7855028510093689, "learning_rate": 0.0002968292122358591, "loss": 3.9996, "step": 33340 }, { "epoch": 0.06947916666666666, "grad_norm": 0.8063452243804932, "learning_rate": 0.0002968271956014095, "loss": 3.8731, "step": 33350 }, { "epoch": 0.0695, "grad_norm": 0.7760762572288513, "learning_rate": 0.00029682517833272453, "loss": 4.1372, "step": 33360 }, { "epoch": 0.06952083333333334, "grad_norm": 0.8319500684738159, "learning_rate": 0.0002968231604298129, "loss": 4.0792, "step": 33370 }, { "epoch": 0.06954166666666667, "grad_norm": 0.852035403251648, "learning_rate": 0.0002968211418926833, "loss": 3.9093, "step": 33380 }, { "epoch": 0.0695625, "grad_norm": 0.7542200088500977, "learning_rate": 0.0002968191227213445, "loss": 4.0235, "step": 33390 }, { "epoch": 0.06958333333333333, "grad_norm": 0.8637761473655701, "learning_rate": 0.0002968171029158053, "loss": 3.9892, "step": 33400 }, { "epoch": 0.06960416666666666, "grad_norm": 0.8369530439376831, "learning_rate": 0.0002968150824760742, "loss": 3.7701, "step": 33410 }, { "epoch": 0.069625, "grad_norm": 0.8714974522590637, "learning_rate": 0.00029681306140216015, "loss": 4.0782, "step": 33420 }, { "epoch": 0.06964583333333334, "grad_norm": 0.8339084982872009, "learning_rate": 0.0002968110396940717, "loss": 4.0547, "step": 33430 }, { "epoch": 0.06966666666666667, "grad_norm": 0.7795150279998779, "learning_rate": 0.0002968090173518177, "loss": 4.1387, "step": 33440 }, { "epoch": 0.0696875, "grad_norm": 0.9617117643356323, "learning_rate": 0.00029680699437540693, "loss": 4.061, "step": 33450 }, { "epoch": 0.06970833333333333, "grad_norm": 0.7326298356056213, "learning_rate": 0.00029680497076484797, "loss": 4.0547, "step": 33460 }, { "epoch": 0.06972916666666666, "grad_norm": 0.8423073887825012, "learning_rate": 0.0002968029465201497, "loss": 4.0466, "step": 33470 }, { "epoch": 0.06975, "grad_norm": 0.7888397574424744, "learning_rate": 0.0002968009216413208, "loss": 3.9723, "step": 33480 }, { "epoch": 0.06977083333333334, "grad_norm": 0.9914518594741821, "learning_rate": 0.00029679889612836994, "loss": 3.8201, "step": 33490 }, { "epoch": 0.06979166666666667, "grad_norm": 0.8486353158950806, "learning_rate": 0.000296796869981306, "loss": 3.9613, "step": 33500 }, { "epoch": 0.0698125, "grad_norm": 1.2235668897628784, "learning_rate": 0.00029679484320013777, "loss": 4.0318, "step": 33510 }, { "epoch": 0.06983333333333333, "grad_norm": 0.7431442737579346, "learning_rate": 0.0002967928157848739, "loss": 4.0536, "step": 33520 }, { "epoch": 0.06985416666666666, "grad_norm": 0.875646710395813, "learning_rate": 0.0002967907877355231, "loss": 4.076, "step": 33530 }, { "epoch": 0.069875, "grad_norm": 1.174370288848877, "learning_rate": 0.0002967887590520942, "loss": 3.9788, "step": 33540 }, { "epoch": 0.06989583333333334, "grad_norm": 1.2928259372711182, "learning_rate": 0.000296786729734596, "loss": 4.1273, "step": 33550 }, { "epoch": 0.06991666666666667, "grad_norm": 0.793785035610199, "learning_rate": 0.00029678469978303726, "loss": 4.2496, "step": 33560 }, { "epoch": 0.0699375, "grad_norm": 0.7670491933822632, "learning_rate": 0.0002967826691974267, "loss": 4.0288, "step": 33570 }, { "epoch": 0.06995833333333333, "grad_norm": 0.8878262639045715, "learning_rate": 0.00029678063797777306, "loss": 3.9737, "step": 33580 }, { "epoch": 0.06997916666666666, "grad_norm": 0.7248619198799133, "learning_rate": 0.00029677860612408526, "loss": 4.2008, "step": 33590 }, { "epoch": 0.07, "grad_norm": 0.9372048377990723, "learning_rate": 0.00029677657363637186, "loss": 4.0277, "step": 33600 }, { "epoch": 0.07002083333333334, "grad_norm": 0.8380268216133118, "learning_rate": 0.0002967745405146418, "loss": 4.0995, "step": 33610 }, { "epoch": 0.07004166666666667, "grad_norm": 0.8668045997619629, "learning_rate": 0.0002967725067589039, "loss": 4.0373, "step": 33620 }, { "epoch": 0.0700625, "grad_norm": 0.7666056156158447, "learning_rate": 0.0002967704723691668, "loss": 3.9088, "step": 33630 }, { "epoch": 0.07008333333333333, "grad_norm": 0.7111327648162842, "learning_rate": 0.00029676843734543937, "loss": 3.8105, "step": 33640 }, { "epoch": 0.07010416666666666, "grad_norm": 0.7928159832954407, "learning_rate": 0.0002967664016877304, "loss": 4.1738, "step": 33650 }, { "epoch": 0.070125, "grad_norm": 0.9042511582374573, "learning_rate": 0.00029676436539604863, "loss": 3.9378, "step": 33660 }, { "epoch": 0.07014583333333334, "grad_norm": 0.8160687685012817, "learning_rate": 0.0002967623284704029, "loss": 3.951, "step": 33670 }, { "epoch": 0.07016666666666667, "grad_norm": 0.722602128982544, "learning_rate": 0.00029676029091080204, "loss": 3.9503, "step": 33680 }, { "epoch": 0.0701875, "grad_norm": 0.7011421918869019, "learning_rate": 0.0002967582527172548, "loss": 3.884, "step": 33690 }, { "epoch": 0.07020833333333333, "grad_norm": 0.9496217966079712, "learning_rate": 0.00029675621388976995, "loss": 4.1054, "step": 33700 }, { "epoch": 0.07022916666666666, "grad_norm": 0.870117723941803, "learning_rate": 0.0002967541744283564, "loss": 4.0435, "step": 33710 }, { "epoch": 0.07025, "grad_norm": 0.7466534972190857, "learning_rate": 0.0002967521343330229, "loss": 3.8093, "step": 33720 }, { "epoch": 0.07027083333333334, "grad_norm": 0.8525457978248596, "learning_rate": 0.00029675009360377824, "loss": 3.9675, "step": 33730 }, { "epoch": 0.07029166666666667, "grad_norm": 1.002378225326538, "learning_rate": 0.00029674805224063136, "loss": 3.9346, "step": 33740 }, { "epoch": 0.0703125, "grad_norm": 0.8722872734069824, "learning_rate": 0.0002967460102435909, "loss": 3.9666, "step": 33750 }, { "epoch": 0.07033333333333333, "grad_norm": 0.8394680023193359, "learning_rate": 0.00029674396761266575, "loss": 3.9941, "step": 33760 }, { "epoch": 0.07035416666666666, "grad_norm": 0.874859094619751, "learning_rate": 0.00029674192434786474, "loss": 4.146, "step": 33770 }, { "epoch": 0.070375, "grad_norm": 0.7514142394065857, "learning_rate": 0.00029673988044919675, "loss": 3.9637, "step": 33780 }, { "epoch": 0.07039583333333334, "grad_norm": 0.8669379353523254, "learning_rate": 0.0002967378359166705, "loss": 3.821, "step": 33790 }, { "epoch": 0.07041666666666667, "grad_norm": 0.7747814655303955, "learning_rate": 0.00029673579075029495, "loss": 3.9791, "step": 33800 }, { "epoch": 0.0704375, "grad_norm": 0.7659511566162109, "learning_rate": 0.00029673374495007887, "loss": 4.0308, "step": 33810 }, { "epoch": 0.07045833333333333, "grad_norm": 0.7867910861968994, "learning_rate": 0.00029673169851603104, "loss": 4.0675, "step": 33820 }, { "epoch": 0.07047916666666666, "grad_norm": 0.7915265560150146, "learning_rate": 0.00029672965144816036, "loss": 4.0912, "step": 33830 }, { "epoch": 0.0705, "grad_norm": 0.7157679796218872, "learning_rate": 0.00029672760374647566, "loss": 3.9876, "step": 33840 }, { "epoch": 0.07052083333333334, "grad_norm": 0.7815073728561401, "learning_rate": 0.00029672555541098583, "loss": 4.1667, "step": 33850 }, { "epoch": 0.07054166666666667, "grad_norm": 0.8013626337051392, "learning_rate": 0.00029672350644169965, "loss": 4.152, "step": 33860 }, { "epoch": 0.0705625, "grad_norm": 0.8340665698051453, "learning_rate": 0.000296721456838626, "loss": 3.9851, "step": 33870 }, { "epoch": 0.07058333333333333, "grad_norm": 0.8668696284294128, "learning_rate": 0.0002967194066017737, "loss": 4.168, "step": 33880 }, { "epoch": 0.07060416666666666, "grad_norm": 0.9821145534515381, "learning_rate": 0.00029671735573115173, "loss": 4.0226, "step": 33890 }, { "epoch": 0.070625, "grad_norm": 0.6895598769187927, "learning_rate": 0.0002967153042267688, "loss": 3.8604, "step": 33900 }, { "epoch": 0.07064583333333334, "grad_norm": 0.7109642624855042, "learning_rate": 0.0002967132520886338, "loss": 3.8212, "step": 33910 }, { "epoch": 0.07066666666666667, "grad_norm": 0.9442762136459351, "learning_rate": 0.00029671119931675566, "loss": 4.0117, "step": 33920 }, { "epoch": 0.0706875, "grad_norm": 0.8387334942817688, "learning_rate": 0.00029670914591114323, "loss": 3.9426, "step": 33930 }, { "epoch": 0.07070833333333333, "grad_norm": 0.8189740180969238, "learning_rate": 0.00029670709187180536, "loss": 4.0305, "step": 33940 }, { "epoch": 0.07072916666666666, "grad_norm": 0.7688173651695251, "learning_rate": 0.00029670503719875083, "loss": 3.9379, "step": 33950 }, { "epoch": 0.07075, "grad_norm": 0.8473075032234192, "learning_rate": 0.00029670298189198876, "loss": 4.0834, "step": 33960 }, { "epoch": 0.07077083333333334, "grad_norm": 0.7963990569114685, "learning_rate": 0.00029670092595152775, "loss": 4.0196, "step": 33970 }, { "epoch": 0.07079166666666667, "grad_norm": 0.8827261924743652, "learning_rate": 0.00029669886937737686, "loss": 3.9595, "step": 33980 }, { "epoch": 0.0708125, "grad_norm": 0.6806573867797852, "learning_rate": 0.00029669681216954493, "loss": 3.8904, "step": 33990 }, { "epoch": 0.07083333333333333, "grad_norm": 0.8010231852531433, "learning_rate": 0.00029669475432804086, "loss": 3.8917, "step": 34000 }, { "epoch": 0.07083333333333333, "eval_loss": 4.30956506729126, "eval_runtime": 8.8143, "eval_samples_per_second": 1.135, "eval_steps_per_second": 0.34, "step": 34000 }, { "epoch": 0.07085416666666666, "grad_norm": 0.7778903841972351, "learning_rate": 0.00029669269585287346, "loss": 3.9224, "step": 34010 }, { "epoch": 0.070875, "grad_norm": 0.9363383054733276, "learning_rate": 0.0002966906367440517, "loss": 3.9191, "step": 34020 }, { "epoch": 0.07089583333333334, "grad_norm": 0.7179674506187439, "learning_rate": 0.00029668857700158445, "loss": 4.0013, "step": 34030 }, { "epoch": 0.07091666666666667, "grad_norm": 0.7650682926177979, "learning_rate": 0.0002966865166254806, "loss": 4.0714, "step": 34040 }, { "epoch": 0.0709375, "grad_norm": 0.9580439329147339, "learning_rate": 0.0002966844556157491, "loss": 4.0841, "step": 34050 }, { "epoch": 0.07095833333333333, "grad_norm": 0.7576990127563477, "learning_rate": 0.0002966823939723988, "loss": 3.8032, "step": 34060 }, { "epoch": 0.07097916666666666, "grad_norm": 0.7621942162513733, "learning_rate": 0.0002966803316954386, "loss": 4.0872, "step": 34070 }, { "epoch": 0.071, "grad_norm": 0.8907612562179565, "learning_rate": 0.0002966782687848775, "loss": 4.2552, "step": 34080 }, { "epoch": 0.07102083333333334, "grad_norm": 0.8342941999435425, "learning_rate": 0.0002966762052407242, "loss": 4.1747, "step": 34090 }, { "epoch": 0.07104166666666667, "grad_norm": 0.7848079800605774, "learning_rate": 0.00029667414106298787, "loss": 4.1088, "step": 34100 }, { "epoch": 0.0710625, "grad_norm": 0.7720039486885071, "learning_rate": 0.0002966720762516773, "loss": 3.991, "step": 34110 }, { "epoch": 0.07108333333333333, "grad_norm": 0.7395342588424683, "learning_rate": 0.0002966700108068013, "loss": 4.1175, "step": 34120 }, { "epoch": 0.07110416666666666, "grad_norm": 0.8203276991844177, "learning_rate": 0.00029666794472836907, "loss": 3.9117, "step": 34130 }, { "epoch": 0.071125, "grad_norm": 0.9160122871398926, "learning_rate": 0.00029666587801638924, "loss": 4.1776, "step": 34140 }, { "epoch": 0.07114583333333334, "grad_norm": 0.7634288668632507, "learning_rate": 0.00029666381067087094, "loss": 3.7585, "step": 34150 }, { "epoch": 0.07116666666666667, "grad_norm": 0.9294099807739258, "learning_rate": 0.00029666174269182306, "loss": 4.0327, "step": 34160 }, { "epoch": 0.0711875, "grad_norm": 0.817876935005188, "learning_rate": 0.00029665967407925444, "loss": 3.903, "step": 34170 }, { "epoch": 0.07120833333333333, "grad_norm": 0.7977610230445862, "learning_rate": 0.0002966576048331741, "loss": 4.04, "step": 34180 }, { "epoch": 0.07122916666666666, "grad_norm": 0.8410491943359375, "learning_rate": 0.00029665553495359097, "loss": 3.9731, "step": 34190 }, { "epoch": 0.07125, "grad_norm": 0.7685146927833557, "learning_rate": 0.00029665346444051395, "loss": 4.2364, "step": 34200 }, { "epoch": 0.07127083333333334, "grad_norm": 0.8239428400993347, "learning_rate": 0.0002966513932939521, "loss": 4.0998, "step": 34210 }, { "epoch": 0.07129166666666667, "grad_norm": 0.8673047423362732, "learning_rate": 0.00029664932151391414, "loss": 4.0048, "step": 34220 }, { "epoch": 0.0713125, "grad_norm": 0.8363068699836731, "learning_rate": 0.0002966472491004093, "loss": 4.0507, "step": 34230 }, { "epoch": 0.07133333333333333, "grad_norm": 0.8142035007476807, "learning_rate": 0.0002966451760534463, "loss": 3.991, "step": 34240 }, { "epoch": 0.07135416666666666, "grad_norm": 0.7678346633911133, "learning_rate": 0.00029664310237303423, "loss": 4.0147, "step": 34250 }, { "epoch": 0.071375, "grad_norm": 0.9523639678955078, "learning_rate": 0.000296641028059182, "loss": 4.0481, "step": 34260 }, { "epoch": 0.07139583333333334, "grad_norm": 0.9097340703010559, "learning_rate": 0.00029663895311189854, "loss": 4.1269, "step": 34270 }, { "epoch": 0.07141666666666667, "grad_norm": 0.7901546955108643, "learning_rate": 0.0002966368775311928, "loss": 3.9693, "step": 34280 }, { "epoch": 0.0714375, "grad_norm": 0.8100095987319946, "learning_rate": 0.0002966348013170739, "loss": 4.1189, "step": 34290 }, { "epoch": 0.07145833333333333, "grad_norm": 0.8052130937576294, "learning_rate": 0.00029663272446955066, "loss": 3.9931, "step": 34300 }, { "epoch": 0.07147916666666666, "grad_norm": 0.7385896444320679, "learning_rate": 0.0002966306469886321, "loss": 4.0292, "step": 34310 }, { "epoch": 0.0715, "grad_norm": 0.7445738315582275, "learning_rate": 0.00029662856887432715, "loss": 4.0386, "step": 34320 }, { "epoch": 0.07152083333333334, "grad_norm": 0.8286782503128052, "learning_rate": 0.00029662649012664487, "loss": 4.1846, "step": 34330 }, { "epoch": 0.07154166666666667, "grad_norm": 0.835978627204895, "learning_rate": 0.00029662441074559416, "loss": 4.0104, "step": 34340 }, { "epoch": 0.0715625, "grad_norm": 0.7241278290748596, "learning_rate": 0.000296622330731184, "loss": 3.9984, "step": 34350 }, { "epoch": 0.07158333333333333, "grad_norm": 0.7916358113288879, "learning_rate": 0.00029662025008342347, "loss": 3.9964, "step": 34360 }, { "epoch": 0.07160416666666666, "grad_norm": 0.8084188103675842, "learning_rate": 0.00029661816880232147, "loss": 3.9023, "step": 34370 }, { "epoch": 0.071625, "grad_norm": 0.9834280014038086, "learning_rate": 0.000296616086887887, "loss": 4.1501, "step": 34380 }, { "epoch": 0.07164583333333334, "grad_norm": 1.250417947769165, "learning_rate": 0.0002966140043401291, "loss": 3.9661, "step": 34390 }, { "epoch": 0.07166666666666667, "grad_norm": 0.8166579008102417, "learning_rate": 0.0002966119211590567, "loss": 4.2811, "step": 34400 }, { "epoch": 0.0716875, "grad_norm": 0.795012354850769, "learning_rate": 0.0002966098373446789, "loss": 3.9427, "step": 34410 }, { "epoch": 0.07170833333333333, "grad_norm": 0.7691431641578674, "learning_rate": 0.0002966077528970046, "loss": 4.0989, "step": 34420 }, { "epoch": 0.07172916666666666, "grad_norm": 0.8499016165733337, "learning_rate": 0.00029660566781604283, "loss": 4.007, "step": 34430 }, { "epoch": 0.07175, "grad_norm": 1.0078589916229248, "learning_rate": 0.00029660358210180257, "loss": 4.018, "step": 34440 }, { "epoch": 0.07177083333333334, "grad_norm": 0.9950017333030701, "learning_rate": 0.00029660149575429294, "loss": 4.0182, "step": 34450 }, { "epoch": 0.07179166666666667, "grad_norm": 0.8495825529098511, "learning_rate": 0.0002965994087735228, "loss": 3.9463, "step": 34460 }, { "epoch": 0.0718125, "grad_norm": 0.8476213812828064, "learning_rate": 0.00029659732115950134, "loss": 4.0219, "step": 34470 }, { "epoch": 0.07183333333333333, "grad_norm": 0.8481163382530212, "learning_rate": 0.00029659523291223743, "loss": 3.997, "step": 34480 }, { "epoch": 0.07185416666666666, "grad_norm": 0.784838080406189, "learning_rate": 0.0002965931440317401, "loss": 3.9901, "step": 34490 }, { "epoch": 0.071875, "grad_norm": 0.7931450605392456, "learning_rate": 0.00029659105451801843, "loss": 4.0337, "step": 34500 }, { "epoch": 0.07189583333333334, "grad_norm": 0.7204222679138184, "learning_rate": 0.00029658896437108145, "loss": 4.1675, "step": 34510 }, { "epoch": 0.07191666666666667, "grad_norm": 0.8351861238479614, "learning_rate": 0.0002965868735909382, "loss": 4.1174, "step": 34520 }, { "epoch": 0.0719375, "grad_norm": 0.844732940196991, "learning_rate": 0.0002965847821775976, "loss": 4.0976, "step": 34530 }, { "epoch": 0.07195833333333333, "grad_norm": 0.7252404093742371, "learning_rate": 0.0002965826901310688, "loss": 3.8816, "step": 34540 }, { "epoch": 0.07197916666666666, "grad_norm": 0.7991320490837097, "learning_rate": 0.00029658059745136086, "loss": 4.0478, "step": 34550 }, { "epoch": 0.072, "grad_norm": 0.9043586850166321, "learning_rate": 0.0002965785041384827, "loss": 3.8861, "step": 34560 }, { "epoch": 0.07202083333333334, "grad_norm": 0.8165860176086426, "learning_rate": 0.0002965764101924434, "loss": 3.9754, "step": 34570 }, { "epoch": 0.07204166666666667, "grad_norm": 0.7429885864257812, "learning_rate": 0.00029657431561325203, "loss": 3.8601, "step": 34580 }, { "epoch": 0.0720625, "grad_norm": 0.7756181359291077, "learning_rate": 0.00029657222040091767, "loss": 4.0326, "step": 34590 }, { "epoch": 0.07208333333333333, "grad_norm": 0.7901198267936707, "learning_rate": 0.00029657012455544936, "loss": 3.8946, "step": 34600 }, { "epoch": 0.07210416666666666, "grad_norm": 0.9060100317001343, "learning_rate": 0.0002965680280768561, "loss": 3.9984, "step": 34610 }, { "epoch": 0.072125, "grad_norm": 0.8289158940315247, "learning_rate": 0.000296565930965147, "loss": 3.9317, "step": 34620 }, { "epoch": 0.07214583333333334, "grad_norm": 0.7244383692741394, "learning_rate": 0.000296563833220331, "loss": 3.9479, "step": 34630 }, { "epoch": 0.07216666666666667, "grad_norm": 0.9270050525665283, "learning_rate": 0.00029656173484241737, "loss": 4.2067, "step": 34640 }, { "epoch": 0.0721875, "grad_norm": 0.7597124576568604, "learning_rate": 0.0002965596358314149, "loss": 3.9662, "step": 34650 }, { "epoch": 0.07220833333333333, "grad_norm": 0.7923332452774048, "learning_rate": 0.00029655753618733295, "loss": 4.0753, "step": 34660 }, { "epoch": 0.07222916666666666, "grad_norm": 0.8057259917259216, "learning_rate": 0.00029655543591018045, "loss": 3.9184, "step": 34670 }, { "epoch": 0.07225, "grad_norm": 0.752720057964325, "learning_rate": 0.0002965533349999664, "loss": 4.2899, "step": 34680 }, { "epoch": 0.07227083333333334, "grad_norm": 0.8049156665802002, "learning_rate": 0.0002965512334567001, "loss": 3.9185, "step": 34690 }, { "epoch": 0.07229166666666667, "grad_norm": 0.9156242609024048, "learning_rate": 0.0002965491312803903, "loss": 4.047, "step": 34700 }, { "epoch": 0.0723125, "grad_norm": 0.9886599183082581, "learning_rate": 0.0002965470284710464, "loss": 4.0564, "step": 34710 }, { "epoch": 0.07233333333333333, "grad_norm": 0.8577404618263245, "learning_rate": 0.0002965449250286773, "loss": 4.1354, "step": 34720 }, { "epoch": 0.07235416666666666, "grad_norm": 0.7323829531669617, "learning_rate": 0.00029654282095329206, "loss": 3.9785, "step": 34730 }, { "epoch": 0.072375, "grad_norm": 0.8211647272109985, "learning_rate": 0.00029654071624489995, "loss": 3.8582, "step": 34740 }, { "epoch": 0.07239583333333334, "grad_norm": 0.7520632147789001, "learning_rate": 0.00029653861090350985, "loss": 4.0582, "step": 34750 }, { "epoch": 0.07241666666666667, "grad_norm": 0.8814414739608765, "learning_rate": 0.000296536504929131, "loss": 3.8657, "step": 34760 }, { "epoch": 0.0724375, "grad_norm": 0.8057808876037598, "learning_rate": 0.0002965343983217725, "loss": 4.0863, "step": 34770 }, { "epoch": 0.07245833333333333, "grad_norm": 0.9344736337661743, "learning_rate": 0.00029653229108144336, "loss": 4.1154, "step": 34780 }, { "epoch": 0.07247916666666666, "grad_norm": 0.7676615715026855, "learning_rate": 0.00029653018320815273, "loss": 4.0494, "step": 34790 }, { "epoch": 0.0725, "grad_norm": 0.8011816143989563, "learning_rate": 0.00029652807470190965, "loss": 4.0338, "step": 34800 }, { "epoch": 0.07252083333333334, "grad_norm": 0.8048277497291565, "learning_rate": 0.0002965259655627234, "loss": 4.198, "step": 34810 }, { "epoch": 0.07254166666666667, "grad_norm": 0.9864151477813721, "learning_rate": 0.0002965238557906029, "loss": 3.9156, "step": 34820 }, { "epoch": 0.0725625, "grad_norm": 0.7824810147285461, "learning_rate": 0.0002965217453855573, "loss": 4.0586, "step": 34830 }, { "epoch": 0.07258333333333333, "grad_norm": 0.7975809574127197, "learning_rate": 0.00029651963434759585, "loss": 4.0375, "step": 34840 }, { "epoch": 0.07260416666666666, "grad_norm": 0.8203453421592712, "learning_rate": 0.0002965175226767276, "loss": 4.2048, "step": 34850 }, { "epoch": 0.072625, "grad_norm": 0.8084617853164673, "learning_rate": 0.00029651541037296154, "loss": 4.1456, "step": 34860 }, { "epoch": 0.07264583333333334, "grad_norm": 0.7126981616020203, "learning_rate": 0.00029651329743630696, "loss": 4.0064, "step": 34870 }, { "epoch": 0.07266666666666667, "grad_norm": 0.8411117792129517, "learning_rate": 0.0002965111838667729, "loss": 4.0272, "step": 34880 }, { "epoch": 0.0726875, "grad_norm": 1.056633472442627, "learning_rate": 0.00029650906966436854, "loss": 4.1501, "step": 34890 }, { "epoch": 0.07270833333333333, "grad_norm": 0.7296987771987915, "learning_rate": 0.000296506954829103, "loss": 3.918, "step": 34900 }, { "epoch": 0.07272916666666666, "grad_norm": 0.8309071063995361, "learning_rate": 0.0002965048393609854, "loss": 4.0558, "step": 34910 }, { "epoch": 0.07275, "grad_norm": 0.7744765281677246, "learning_rate": 0.00029650272326002487, "loss": 3.999, "step": 34920 }, { "epoch": 0.07277083333333334, "grad_norm": 0.8296480178833008, "learning_rate": 0.0002965006065262306, "loss": 4.1963, "step": 34930 }, { "epoch": 0.07279166666666667, "grad_norm": 0.7535804510116577, "learning_rate": 0.00029649848915961165, "loss": 4.1776, "step": 34940 }, { "epoch": 0.0728125, "grad_norm": 0.7694225907325745, "learning_rate": 0.00029649637116017723, "loss": 3.9261, "step": 34950 }, { "epoch": 0.07283333333333333, "grad_norm": 0.9155572056770325, "learning_rate": 0.0002964942525279365, "loss": 4.146, "step": 34960 }, { "epoch": 0.07285416666666666, "grad_norm": 0.9715854525566101, "learning_rate": 0.0002964921332628986, "loss": 4.0463, "step": 34970 }, { "epoch": 0.072875, "grad_norm": 0.7245194911956787, "learning_rate": 0.0002964900133650726, "loss": 4.0114, "step": 34980 }, { "epoch": 0.07289583333333334, "grad_norm": 0.7836931347846985, "learning_rate": 0.00029648789283446777, "loss": 4.0209, "step": 34990 }, { "epoch": 0.07291666666666667, "grad_norm": 0.7943224906921387, "learning_rate": 0.0002964857716710932, "loss": 4.0533, "step": 35000 }, { "epoch": 0.07291666666666667, "eval_loss": 4.305691719055176, "eval_runtime": 9.7859, "eval_samples_per_second": 1.022, "eval_steps_per_second": 0.307, "step": 35000 }, { "epoch": 0.0729375, "grad_norm": 0.7306997776031494, "learning_rate": 0.00029648364987495816, "loss": 3.9367, "step": 35010 }, { "epoch": 0.07295833333333333, "grad_norm": 0.7793446779251099, "learning_rate": 0.00029648152744607165, "loss": 4.2814, "step": 35020 }, { "epoch": 0.07297916666666666, "grad_norm": 0.7725879549980164, "learning_rate": 0.00029647940438444297, "loss": 3.8449, "step": 35030 }, { "epoch": 0.073, "grad_norm": 0.7934012413024902, "learning_rate": 0.00029647728069008116, "loss": 3.8821, "step": 35040 }, { "epoch": 0.07302083333333333, "grad_norm": 0.8492363691329956, "learning_rate": 0.00029647515636299556, "loss": 4.1515, "step": 35050 }, { "epoch": 0.07304166666666667, "grad_norm": 0.8373302221298218, "learning_rate": 0.0002964730314031953, "loss": 4.0603, "step": 35060 }, { "epoch": 0.0730625, "grad_norm": 0.7923370003700256, "learning_rate": 0.00029647090581068943, "loss": 4.2322, "step": 35070 }, { "epoch": 0.07308333333333333, "grad_norm": 0.7685287594795227, "learning_rate": 0.00029646877958548724, "loss": 4.0921, "step": 35080 }, { "epoch": 0.07310416666666666, "grad_norm": 0.9121419787406921, "learning_rate": 0.000296466652727598, "loss": 4.1951, "step": 35090 }, { "epoch": 0.073125, "grad_norm": 0.7648252248764038, "learning_rate": 0.00029646452523703065, "loss": 4.078, "step": 35100 }, { "epoch": 0.07314583333333333, "grad_norm": 0.781970202922821, "learning_rate": 0.00029646239711379464, "loss": 3.9369, "step": 35110 }, { "epoch": 0.07316666666666667, "grad_norm": 0.8711278438568115, "learning_rate": 0.00029646026835789896, "loss": 3.9517, "step": 35120 }, { "epoch": 0.0731875, "grad_norm": 0.7999338507652283, "learning_rate": 0.00029645813896935294, "loss": 3.9792, "step": 35130 }, { "epoch": 0.07320833333333333, "grad_norm": 0.9928709268569946, "learning_rate": 0.00029645600894816573, "loss": 4.1135, "step": 35140 }, { "epoch": 0.07322916666666666, "grad_norm": 0.8712597489356995, "learning_rate": 0.0002964538782943465, "loss": 4.2042, "step": 35150 }, { "epoch": 0.07325, "grad_norm": 0.7487674951553345, "learning_rate": 0.0002964517470079045, "loss": 3.9612, "step": 35160 }, { "epoch": 0.07327083333333333, "grad_norm": 0.8097735047340393, "learning_rate": 0.000296449615088849, "loss": 4.0626, "step": 35170 }, { "epoch": 0.07329166666666667, "grad_norm": 0.7810301184654236, "learning_rate": 0.00029644748253718906, "loss": 4.024, "step": 35180 }, { "epoch": 0.0733125, "grad_norm": 0.7320312857627869, "learning_rate": 0.00029644534935293395, "loss": 3.9831, "step": 35190 }, { "epoch": 0.07333333333333333, "grad_norm": 0.7716202735900879, "learning_rate": 0.0002964432155360929, "loss": 3.9052, "step": 35200 }, { "epoch": 0.07335416666666666, "grad_norm": 0.7827876210212708, "learning_rate": 0.0002964410810866751, "loss": 4.0381, "step": 35210 }, { "epoch": 0.073375, "grad_norm": 0.8971740007400513, "learning_rate": 0.0002964389460046899, "loss": 3.9978, "step": 35220 }, { "epoch": 0.07339583333333333, "grad_norm": 0.9332857728004456, "learning_rate": 0.00029643681029014636, "loss": 3.9959, "step": 35230 }, { "epoch": 0.07341666666666667, "grad_norm": 0.764346182346344, "learning_rate": 0.00029643467394305375, "loss": 4.0156, "step": 35240 }, { "epoch": 0.0734375, "grad_norm": 0.8342650532722473, "learning_rate": 0.00029643253696342133, "loss": 4.081, "step": 35250 }, { "epoch": 0.07345833333333333, "grad_norm": 0.7679824233055115, "learning_rate": 0.0002964303993512583, "loss": 4.0621, "step": 35260 }, { "epoch": 0.07347916666666666, "grad_norm": 0.7782136797904968, "learning_rate": 0.0002964282611065739, "loss": 4.0428, "step": 35270 }, { "epoch": 0.0735, "grad_norm": 0.7785505056381226, "learning_rate": 0.0002964261222293774, "loss": 4.0503, "step": 35280 }, { "epoch": 0.07352083333333333, "grad_norm": 0.7279910445213318, "learning_rate": 0.000296423982719678, "loss": 4.0955, "step": 35290 }, { "epoch": 0.07354166666666667, "grad_norm": 0.921248733997345, "learning_rate": 0.00029642184257748494, "loss": 4.0726, "step": 35300 }, { "epoch": 0.0735625, "grad_norm": 0.8328261375427246, "learning_rate": 0.0002964197018028075, "loss": 3.8495, "step": 35310 }, { "epoch": 0.07358333333333333, "grad_norm": 0.6995542645454407, "learning_rate": 0.0002964175603956549, "loss": 3.9838, "step": 35320 }, { "epoch": 0.07360416666666666, "grad_norm": 0.8579522371292114, "learning_rate": 0.00029641541835603635, "loss": 3.9773, "step": 35330 }, { "epoch": 0.073625, "grad_norm": 0.9279875755310059, "learning_rate": 0.00029641327568396116, "loss": 3.9344, "step": 35340 }, { "epoch": 0.07364583333333333, "grad_norm": 0.9031012654304504, "learning_rate": 0.00029641113237943863, "loss": 4.1148, "step": 35350 }, { "epoch": 0.07366666666666667, "grad_norm": 0.7149977684020996, "learning_rate": 0.00029640898844247794, "loss": 4.0075, "step": 35360 }, { "epoch": 0.0736875, "grad_norm": 0.7964022755622864, "learning_rate": 0.00029640684387308836, "loss": 4.0426, "step": 35370 }, { "epoch": 0.07370833333333333, "grad_norm": 0.8121726512908936, "learning_rate": 0.00029640469867127915, "loss": 3.9129, "step": 35380 }, { "epoch": 0.07372916666666667, "grad_norm": 0.755895733833313, "learning_rate": 0.00029640255283705963, "loss": 3.9886, "step": 35390 }, { "epoch": 0.07375, "grad_norm": 0.7760776877403259, "learning_rate": 0.00029640040637043903, "loss": 4.0111, "step": 35400 }, { "epoch": 0.07377083333333333, "grad_norm": 0.9190277457237244, "learning_rate": 0.0002963982592714266, "loss": 4.1372, "step": 35410 }, { "epoch": 0.07379166666666667, "grad_norm": 0.861737847328186, "learning_rate": 0.00029639611154003165, "loss": 3.989, "step": 35420 }, { "epoch": 0.0738125, "grad_norm": 0.8301714658737183, "learning_rate": 0.0002963939631762634, "loss": 3.9743, "step": 35430 }, { "epoch": 0.07383333333333333, "grad_norm": 0.7350360155105591, "learning_rate": 0.0002963918141801312, "loss": 3.9452, "step": 35440 }, { "epoch": 0.07385416666666667, "grad_norm": 0.8459472060203552, "learning_rate": 0.00029638966455164433, "loss": 4.1029, "step": 35450 }, { "epoch": 0.073875, "grad_norm": 0.8764699697494507, "learning_rate": 0.0002963875142908121, "loss": 3.9305, "step": 35460 }, { "epoch": 0.07389583333333333, "grad_norm": 0.7529707551002502, "learning_rate": 0.00029638536339764366, "loss": 3.9423, "step": 35470 }, { "epoch": 0.07391666666666667, "grad_norm": 0.872035562992096, "learning_rate": 0.00029638321187214846, "loss": 3.9666, "step": 35480 }, { "epoch": 0.0739375, "grad_norm": 0.8320852518081665, "learning_rate": 0.0002963810597143357, "loss": 4.242, "step": 35490 }, { "epoch": 0.07395833333333333, "grad_norm": 0.7556165456771851, "learning_rate": 0.0002963789069242147, "loss": 4.1042, "step": 35500 }, { "epoch": 0.07397916666666667, "grad_norm": 0.7183017134666443, "learning_rate": 0.00029637675350179476, "loss": 3.8368, "step": 35510 }, { "epoch": 0.074, "grad_norm": 0.8620455861091614, "learning_rate": 0.0002963745994470852, "loss": 3.9178, "step": 35520 }, { "epoch": 0.07402083333333333, "grad_norm": 0.7336896061897278, "learning_rate": 0.00029637244476009533, "loss": 4.1052, "step": 35530 }, { "epoch": 0.07404166666666667, "grad_norm": 0.848529577255249, "learning_rate": 0.00029637028944083443, "loss": 4.0174, "step": 35540 }, { "epoch": 0.0740625, "grad_norm": 1.0079830884933472, "learning_rate": 0.00029636813348931176, "loss": 4.097, "step": 35550 }, { "epoch": 0.07408333333333333, "grad_norm": 0.8438879251480103, "learning_rate": 0.00029636597690553676, "loss": 4.1545, "step": 35560 }, { "epoch": 0.07410416666666667, "grad_norm": 0.7041335105895996, "learning_rate": 0.0002963638196895186, "loss": 4.0444, "step": 35570 }, { "epoch": 0.074125, "grad_norm": 1.1556686162948608, "learning_rate": 0.0002963616618412667, "loss": 4.0741, "step": 35580 }, { "epoch": 0.07414583333333333, "grad_norm": 0.8188339471817017, "learning_rate": 0.00029635950336079044, "loss": 4.1731, "step": 35590 }, { "epoch": 0.07416666666666667, "grad_norm": 0.9124742746353149, "learning_rate": 0.00029635734424809896, "loss": 4.0729, "step": 35600 }, { "epoch": 0.0741875, "grad_norm": 0.8401139378547668, "learning_rate": 0.0002963551845032017, "loss": 4.0203, "step": 35610 }, { "epoch": 0.07420833333333333, "grad_norm": 0.7535160779953003, "learning_rate": 0.00029635302412610797, "loss": 3.9809, "step": 35620 }, { "epoch": 0.07422916666666667, "grad_norm": 0.8272704482078552, "learning_rate": 0.0002963508631168271, "loss": 3.9414, "step": 35630 }, { "epoch": 0.07425, "grad_norm": 0.8048223257064819, "learning_rate": 0.0002963487014753685, "loss": 3.895, "step": 35640 }, { "epoch": 0.07427083333333333, "grad_norm": 0.6860840320587158, "learning_rate": 0.00029634653920174143, "loss": 3.9506, "step": 35650 }, { "epoch": 0.07429166666666667, "grad_norm": 0.848264217376709, "learning_rate": 0.00029634437629595515, "loss": 4.1003, "step": 35660 }, { "epoch": 0.0743125, "grad_norm": 0.8062774538993835, "learning_rate": 0.00029634221275801916, "loss": 3.8597, "step": 35670 }, { "epoch": 0.07433333333333333, "grad_norm": 0.8030310273170471, "learning_rate": 0.0002963400485879427, "loss": 3.9421, "step": 35680 }, { "epoch": 0.07435416666666667, "grad_norm": 0.8365631103515625, "learning_rate": 0.0002963378837857352, "loss": 3.9952, "step": 35690 }, { "epoch": 0.074375, "grad_norm": 0.9957694411277771, "learning_rate": 0.000296335718351406, "loss": 4.0493, "step": 35700 }, { "epoch": 0.07439583333333333, "grad_norm": 0.7643691897392273, "learning_rate": 0.0002963335522849643, "loss": 4.2126, "step": 35710 }, { "epoch": 0.07441666666666667, "grad_norm": 0.8527258634567261, "learning_rate": 0.00029633138558641967, "loss": 4.12, "step": 35720 }, { "epoch": 0.0744375, "grad_norm": 0.877537190914154, "learning_rate": 0.00029632921825578136, "loss": 4.0202, "step": 35730 }, { "epoch": 0.07445833333333333, "grad_norm": 0.726547360420227, "learning_rate": 0.0002963270502930587, "loss": 4.1443, "step": 35740 }, { "epoch": 0.07447916666666667, "grad_norm": 0.7473787069320679, "learning_rate": 0.00029632488169826116, "loss": 3.9678, "step": 35750 }, { "epoch": 0.0745, "grad_norm": 0.7974646091461182, "learning_rate": 0.00029632271247139803, "loss": 3.9869, "step": 35760 }, { "epoch": 0.07452083333333333, "grad_norm": 0.7550406455993652, "learning_rate": 0.00029632054261247864, "loss": 3.9846, "step": 35770 }, { "epoch": 0.07454166666666667, "grad_norm": 0.842200756072998, "learning_rate": 0.00029631837212151254, "loss": 3.9496, "step": 35780 }, { "epoch": 0.0745625, "grad_norm": 0.779826819896698, "learning_rate": 0.00029631620099850893, "loss": 3.9756, "step": 35790 }, { "epoch": 0.07458333333333333, "grad_norm": 0.7636182308197021, "learning_rate": 0.00029631402924347726, "loss": 3.994, "step": 35800 }, { "epoch": 0.07460416666666667, "grad_norm": 0.7469265460968018, "learning_rate": 0.00029631185685642685, "loss": 3.908, "step": 35810 }, { "epoch": 0.074625, "grad_norm": 0.9977638125419617, "learning_rate": 0.0002963096838373672, "loss": 3.9486, "step": 35820 }, { "epoch": 0.07464583333333333, "grad_norm": 0.776183009147644, "learning_rate": 0.0002963075101863076, "loss": 3.9755, "step": 35830 }, { "epoch": 0.07466666666666667, "grad_norm": 0.8263929486274719, "learning_rate": 0.0002963053359032575, "loss": 4.0692, "step": 35840 }, { "epoch": 0.0746875, "grad_norm": 0.8160837888717651, "learning_rate": 0.0002963031609882262, "loss": 4.0548, "step": 35850 }, { "epoch": 0.07470833333333333, "grad_norm": 0.7614683508872986, "learning_rate": 0.0002963009854412232, "loss": 4.0331, "step": 35860 }, { "epoch": 0.07472916666666667, "grad_norm": 0.7082501649856567, "learning_rate": 0.00029629880926225786, "loss": 4.0458, "step": 35870 }, { "epoch": 0.07475, "grad_norm": 0.7138420343399048, "learning_rate": 0.00029629663245133955, "loss": 4.002, "step": 35880 }, { "epoch": 0.07477083333333333, "grad_norm": 0.7747806310653687, "learning_rate": 0.0002962944550084776, "loss": 4.0928, "step": 35890 }, { "epoch": 0.07479166666666667, "grad_norm": 0.8437674641609192, "learning_rate": 0.00029629227693368164, "loss": 4.1077, "step": 35900 }, { "epoch": 0.0748125, "grad_norm": 0.7835533022880554, "learning_rate": 0.00029629009822696096, "loss": 3.8493, "step": 35910 }, { "epoch": 0.07483333333333334, "grad_norm": 0.8468340635299683, "learning_rate": 0.0002962879188883249, "loss": 4.1164, "step": 35920 }, { "epoch": 0.07485416666666667, "grad_norm": 0.8024889826774597, "learning_rate": 0.000296285738917783, "loss": 4.0396, "step": 35930 }, { "epoch": 0.074875, "grad_norm": 0.7800811529159546, "learning_rate": 0.00029628355831534453, "loss": 4.0764, "step": 35940 }, { "epoch": 0.07489583333333333, "grad_norm": 0.7939956188201904, "learning_rate": 0.00029628137708101904, "loss": 3.9092, "step": 35950 }, { "epoch": 0.07491666666666667, "grad_norm": 0.671669065952301, "learning_rate": 0.00029627919521481587, "loss": 4.2676, "step": 35960 }, { "epoch": 0.0749375, "grad_norm": 0.7691323757171631, "learning_rate": 0.0002962770127167445, "loss": 4.0801, "step": 35970 }, { "epoch": 0.07495833333333334, "grad_norm": 0.7836569547653198, "learning_rate": 0.00029627482958681435, "loss": 3.9632, "step": 35980 }, { "epoch": 0.07497916666666667, "grad_norm": 0.8050476312637329, "learning_rate": 0.0002962726458250348, "loss": 4.035, "step": 35990 }, { "epoch": 0.075, "grad_norm": 0.7917085289955139, "learning_rate": 0.0002962704614314154, "loss": 4.0497, "step": 36000 }, { "epoch": 0.075, "eval_loss": 4.300467491149902, "eval_runtime": 9.4204, "eval_samples_per_second": 1.062, "eval_steps_per_second": 0.318, "step": 36000 }, { "epoch": 0.07502083333333333, "grad_norm": 0.738937258720398, "learning_rate": 0.0002962682764059654, "loss": 4.1442, "step": 36010 }, { "epoch": 0.07504166666666667, "grad_norm": 0.8388813138008118, "learning_rate": 0.00029626609074869437, "loss": 4.0227, "step": 36020 }, { "epoch": 0.0750625, "grad_norm": 0.8582183718681335, "learning_rate": 0.00029626390445961176, "loss": 4.1786, "step": 36030 }, { "epoch": 0.07508333333333334, "grad_norm": 1.169152021408081, "learning_rate": 0.000296261717538727, "loss": 3.8671, "step": 36040 }, { "epoch": 0.07510416666666667, "grad_norm": 0.8342555165290833, "learning_rate": 0.0002962595299860494, "loss": 3.9194, "step": 36050 }, { "epoch": 0.075125, "grad_norm": 0.944935142993927, "learning_rate": 0.0002962573418015886, "loss": 3.8282, "step": 36060 }, { "epoch": 0.07514583333333333, "grad_norm": 0.7791286706924438, "learning_rate": 0.00029625515298535403, "loss": 3.842, "step": 36070 }, { "epoch": 0.07516666666666667, "grad_norm": 0.7628130912780762, "learning_rate": 0.00029625296353735504, "loss": 3.9589, "step": 36080 }, { "epoch": 0.0751875, "grad_norm": 0.7664324045181274, "learning_rate": 0.0002962507734576011, "loss": 4.0628, "step": 36090 }, { "epoch": 0.07520833333333334, "grad_norm": 0.8196033835411072, "learning_rate": 0.00029624858274610174, "loss": 3.9964, "step": 36100 }, { "epoch": 0.07522916666666667, "grad_norm": 0.8291841149330139, "learning_rate": 0.0002962463914028664, "loss": 4.1657, "step": 36110 }, { "epoch": 0.07525, "grad_norm": 0.9361351728439331, "learning_rate": 0.00029624419942790456, "loss": 3.8748, "step": 36120 }, { "epoch": 0.07527083333333333, "grad_norm": 0.7884825468063354, "learning_rate": 0.0002962420068212256, "loss": 4.0064, "step": 36130 }, { "epoch": 0.07529166666666667, "grad_norm": 0.8539175391197205, "learning_rate": 0.0002962398135828391, "loss": 3.9583, "step": 36140 }, { "epoch": 0.0753125, "grad_norm": 0.8156542181968689, "learning_rate": 0.0002962376197127545, "loss": 3.9116, "step": 36150 }, { "epoch": 0.07533333333333334, "grad_norm": 0.8740443587303162, "learning_rate": 0.0002962354252109812, "loss": 3.9896, "step": 36160 }, { "epoch": 0.07535416666666667, "grad_norm": 0.8404247760772705, "learning_rate": 0.00029623323007752883, "loss": 4.1796, "step": 36170 }, { "epoch": 0.075375, "grad_norm": 0.8641976714134216, "learning_rate": 0.0002962310343124068, "loss": 3.8365, "step": 36180 }, { "epoch": 0.07539583333333333, "grad_norm": 0.8248933553695679, "learning_rate": 0.0002962288379156245, "loss": 4.1353, "step": 36190 }, { "epoch": 0.07541666666666667, "grad_norm": 0.7754831910133362, "learning_rate": 0.0002962266408871916, "loss": 3.856, "step": 36200 }, { "epoch": 0.0754375, "grad_norm": 0.8486154079437256, "learning_rate": 0.00029622444322711743, "loss": 3.8701, "step": 36210 }, { "epoch": 0.07545833333333334, "grad_norm": 0.7412910461425781, "learning_rate": 0.00029622224493541154, "loss": 4.0491, "step": 36220 }, { "epoch": 0.07547916666666667, "grad_norm": 0.7294564247131348, "learning_rate": 0.00029622004601208345, "loss": 3.9166, "step": 36230 }, { "epoch": 0.0755, "grad_norm": 0.8076752424240112, "learning_rate": 0.0002962178464571426, "loss": 4.0313, "step": 36240 }, { "epoch": 0.07552083333333333, "grad_norm": 0.8667954206466675, "learning_rate": 0.00029621564627059857, "loss": 4.0789, "step": 36250 }, { "epoch": 0.07554166666666666, "grad_norm": 0.7598586082458496, "learning_rate": 0.0002962134454524608, "loss": 4.0216, "step": 36260 }, { "epoch": 0.0755625, "grad_norm": 0.9358484148979187, "learning_rate": 0.00029621124400273886, "loss": 4.0297, "step": 36270 }, { "epoch": 0.07558333333333334, "grad_norm": 0.849852979183197, "learning_rate": 0.0002962090419214422, "loss": 4.1254, "step": 36280 }, { "epoch": 0.07560416666666667, "grad_norm": 0.7753157019615173, "learning_rate": 0.00029620683920858037, "loss": 3.9684, "step": 36290 }, { "epoch": 0.075625, "grad_norm": 0.84865802526474, "learning_rate": 0.0002962046358641628, "loss": 4.0145, "step": 36300 }, { "epoch": 0.07564583333333333, "grad_norm": 0.9601401686668396, "learning_rate": 0.00029620243188819916, "loss": 4.1134, "step": 36310 }, { "epoch": 0.07566666666666666, "grad_norm": 0.9930610060691833, "learning_rate": 0.00029620022728069886, "loss": 3.8587, "step": 36320 }, { "epoch": 0.0756875, "grad_norm": 0.7303016781806946, "learning_rate": 0.0002961980220416714, "loss": 4.1542, "step": 36330 }, { "epoch": 0.07570833333333334, "grad_norm": 0.7336821556091309, "learning_rate": 0.0002961958161711264, "loss": 4.0211, "step": 36340 }, { "epoch": 0.07572916666666667, "grad_norm": 0.9012675285339355, "learning_rate": 0.00029619360966907335, "loss": 4.027, "step": 36350 }, { "epoch": 0.07575, "grad_norm": 0.7260995507240295, "learning_rate": 0.00029619140253552174, "loss": 4.0522, "step": 36360 }, { "epoch": 0.07577083333333333, "grad_norm": 0.7804322838783264, "learning_rate": 0.0002961891947704812, "loss": 3.9825, "step": 36370 }, { "epoch": 0.07579166666666666, "grad_norm": 0.728702962398529, "learning_rate": 0.0002961869863739611, "loss": 3.7808, "step": 36380 }, { "epoch": 0.0758125, "grad_norm": 0.7990889549255371, "learning_rate": 0.00029618477734597113, "loss": 4.0985, "step": 36390 }, { "epoch": 0.07583333333333334, "grad_norm": 0.8330264687538147, "learning_rate": 0.0002961825676865208, "loss": 3.9572, "step": 36400 }, { "epoch": 0.07585416666666667, "grad_norm": 0.7718349099159241, "learning_rate": 0.0002961803573956197, "loss": 3.902, "step": 36410 }, { "epoch": 0.075875, "grad_norm": 0.8250359296798706, "learning_rate": 0.0002961781464732772, "loss": 4.156, "step": 36420 }, { "epoch": 0.07589583333333333, "grad_norm": 0.8182675838470459, "learning_rate": 0.00029617593491950306, "loss": 3.907, "step": 36430 }, { "epoch": 0.07591666666666666, "grad_norm": 0.7601507306098938, "learning_rate": 0.0002961737227343067, "loss": 3.9524, "step": 36440 }, { "epoch": 0.0759375, "grad_norm": 0.8122261166572571, "learning_rate": 0.0002961715099176977, "loss": 3.825, "step": 36450 }, { "epoch": 0.07595833333333334, "grad_norm": 0.8997005820274353, "learning_rate": 0.0002961692964696857, "loss": 4.0245, "step": 36460 }, { "epoch": 0.07597916666666667, "grad_norm": 0.9487331509590149, "learning_rate": 0.00029616708239028016, "loss": 4.0542, "step": 36470 }, { "epoch": 0.076, "grad_norm": 0.8770477771759033, "learning_rate": 0.00029616486767949067, "loss": 3.8533, "step": 36480 }, { "epoch": 0.07602083333333333, "grad_norm": 0.7269647717475891, "learning_rate": 0.0002961626523373268, "loss": 3.9401, "step": 36490 }, { "epoch": 0.07604166666666666, "grad_norm": 0.8264038562774658, "learning_rate": 0.00029616043636379813, "loss": 3.9713, "step": 36500 }, { "epoch": 0.0760625, "grad_norm": 0.8643702864646912, "learning_rate": 0.0002961582197589142, "loss": 4.0293, "step": 36510 }, { "epoch": 0.07608333333333334, "grad_norm": 0.7657296061515808, "learning_rate": 0.0002961560025226847, "loss": 3.9293, "step": 36520 }, { "epoch": 0.07610416666666667, "grad_norm": 0.7731497883796692, "learning_rate": 0.0002961537846551191, "loss": 3.7988, "step": 36530 }, { "epoch": 0.076125, "grad_norm": 0.8306047916412354, "learning_rate": 0.00029615156615622697, "loss": 4.0641, "step": 36540 }, { "epoch": 0.07614583333333333, "grad_norm": 0.8543121218681335, "learning_rate": 0.0002961493470260179, "loss": 4.0031, "step": 36550 }, { "epoch": 0.07616666666666666, "grad_norm": 0.8059775829315186, "learning_rate": 0.0002961471272645016, "loss": 4.0376, "step": 36560 }, { "epoch": 0.0761875, "grad_norm": 0.785234808921814, "learning_rate": 0.0002961449068716875, "loss": 4.1641, "step": 36570 }, { "epoch": 0.07620833333333334, "grad_norm": 0.9886530041694641, "learning_rate": 0.0002961426858475852, "loss": 4.0072, "step": 36580 }, { "epoch": 0.07622916666666667, "grad_norm": 0.8501163721084595, "learning_rate": 0.0002961404641922044, "loss": 4.1371, "step": 36590 }, { "epoch": 0.07625, "grad_norm": 0.7805602550506592, "learning_rate": 0.00029613824190555466, "loss": 3.9913, "step": 36600 }, { "epoch": 0.07627083333333333, "grad_norm": 0.7363852858543396, "learning_rate": 0.0002961360189876455, "loss": 3.7785, "step": 36610 }, { "epoch": 0.07629166666666666, "grad_norm": 0.8388037085533142, "learning_rate": 0.00029613379543848664, "loss": 4.0168, "step": 36620 }, { "epoch": 0.0763125, "grad_norm": 1.0611220598220825, "learning_rate": 0.0002961315712580876, "loss": 3.8934, "step": 36630 }, { "epoch": 0.07633333333333334, "grad_norm": 0.756959855556488, "learning_rate": 0.00029612934644645796, "loss": 3.9728, "step": 36640 }, { "epoch": 0.07635416666666667, "grad_norm": 0.7098036408424377, "learning_rate": 0.0002961271210036075, "loss": 4.0563, "step": 36650 }, { "epoch": 0.076375, "grad_norm": 0.7992086410522461, "learning_rate": 0.00029612489492954566, "loss": 4.1365, "step": 36660 }, { "epoch": 0.07639583333333333, "grad_norm": 0.7532985210418701, "learning_rate": 0.00029612266822428207, "loss": 4.1396, "step": 36670 }, { "epoch": 0.07641666666666666, "grad_norm": 0.7035313844680786, "learning_rate": 0.00029612044088782644, "loss": 3.9514, "step": 36680 }, { "epoch": 0.0764375, "grad_norm": 0.775600254535675, "learning_rate": 0.00029611821292018837, "loss": 4.1449, "step": 36690 }, { "epoch": 0.07645833333333334, "grad_norm": 0.7044334411621094, "learning_rate": 0.00029611598432137745, "loss": 4.0229, "step": 36700 }, { "epoch": 0.07647916666666667, "grad_norm": 0.8057827949523926, "learning_rate": 0.0002961137550914033, "loss": 4.044, "step": 36710 }, { "epoch": 0.0765, "grad_norm": 0.7750446796417236, "learning_rate": 0.0002961115252302755, "loss": 3.8684, "step": 36720 }, { "epoch": 0.07652083333333333, "grad_norm": 0.8386626243591309, "learning_rate": 0.0002961092947380038, "loss": 4.1276, "step": 36730 }, { "epoch": 0.07654166666666666, "grad_norm": 0.7107052206993103, "learning_rate": 0.0002961070636145978, "loss": 3.8592, "step": 36740 }, { "epoch": 0.0765625, "grad_norm": 0.9275119304656982, "learning_rate": 0.0002961048318600671, "loss": 4.0631, "step": 36750 }, { "epoch": 0.07658333333333334, "grad_norm": 0.8354018926620483, "learning_rate": 0.0002961025994744214, "loss": 3.9175, "step": 36760 }, { "epoch": 0.07660416666666667, "grad_norm": 0.7953336238861084, "learning_rate": 0.0002961003664576702, "loss": 3.8631, "step": 36770 }, { "epoch": 0.076625, "grad_norm": 0.924675464630127, "learning_rate": 0.0002960981328098233, "loss": 3.953, "step": 36780 }, { "epoch": 0.07664583333333333, "grad_norm": 0.8692046999931335, "learning_rate": 0.00029609589853089033, "loss": 3.9594, "step": 36790 }, { "epoch": 0.07666666666666666, "grad_norm": 0.8744808435440063, "learning_rate": 0.0002960936636208809, "loss": 4.0827, "step": 36800 }, { "epoch": 0.0766875, "grad_norm": 0.8684138059616089, "learning_rate": 0.0002960914280798047, "loss": 3.976, "step": 36810 }, { "epoch": 0.07670833333333334, "grad_norm": 0.8174667954444885, "learning_rate": 0.00029608919190767126, "loss": 4.158, "step": 36820 }, { "epoch": 0.07672916666666667, "grad_norm": 0.7397491335868835, "learning_rate": 0.00029608695510449043, "loss": 3.9984, "step": 36830 }, { "epoch": 0.07675, "grad_norm": 0.8393524289131165, "learning_rate": 0.0002960847176702717, "loss": 3.9714, "step": 36840 }, { "epoch": 0.07677083333333333, "grad_norm": 0.6774730086326599, "learning_rate": 0.00029608247960502483, "loss": 4.0747, "step": 36850 }, { "epoch": 0.07679166666666666, "grad_norm": 0.8538318872451782, "learning_rate": 0.0002960802409087596, "loss": 4.055, "step": 36860 }, { "epoch": 0.0768125, "grad_norm": 0.81735759973526, "learning_rate": 0.00029607800158148534, "loss": 4.1263, "step": 36870 }, { "epoch": 0.07683333333333334, "grad_norm": 0.9084687829017639, "learning_rate": 0.00029607576162321206, "loss": 3.9921, "step": 36880 }, { "epoch": 0.07685416666666667, "grad_norm": 0.7403016686439514, "learning_rate": 0.00029607352103394927, "loss": 4.0089, "step": 36890 }, { "epoch": 0.076875, "grad_norm": 0.7804655432701111, "learning_rate": 0.00029607127981370673, "loss": 3.9077, "step": 36900 }, { "epoch": 0.07689583333333333, "grad_norm": 0.7995839715003967, "learning_rate": 0.0002960690379624941, "loss": 3.9604, "step": 36910 }, { "epoch": 0.07691666666666666, "grad_norm": 0.7769097685813904, "learning_rate": 0.000296066795480321, "loss": 3.9761, "step": 36920 }, { "epoch": 0.0769375, "grad_norm": 0.8375133275985718, "learning_rate": 0.00029606455236719714, "loss": 4.0559, "step": 36930 }, { "epoch": 0.07695833333333334, "grad_norm": 0.7096104621887207, "learning_rate": 0.0002960623086231323, "loss": 4.0807, "step": 36940 }, { "epoch": 0.07697916666666667, "grad_norm": 0.8935699462890625, "learning_rate": 0.000296060064248136, "loss": 3.9905, "step": 36950 }, { "epoch": 0.077, "grad_norm": 0.8278427124023438, "learning_rate": 0.00029605781924221813, "loss": 3.8517, "step": 36960 }, { "epoch": 0.07702083333333333, "grad_norm": 0.7334986925125122, "learning_rate": 0.0002960555736053882, "loss": 4.1174, "step": 36970 }, { "epoch": 0.07704166666666666, "grad_norm": 0.8122662305831909, "learning_rate": 0.00029605332733765606, "loss": 4.0126, "step": 36980 }, { "epoch": 0.0770625, "grad_norm": 0.8243107795715332, "learning_rate": 0.0002960510804390314, "loss": 4.1348, "step": 36990 }, { "epoch": 0.07708333333333334, "grad_norm": 0.9356787204742432, "learning_rate": 0.00029604883290952383, "loss": 3.9832, "step": 37000 }, { "epoch": 0.07708333333333334, "eval_loss": 4.303212642669678, "eval_runtime": 9.645, "eval_samples_per_second": 1.037, "eval_steps_per_second": 0.311, "step": 37000 }, { "epoch": 0.07710416666666667, "grad_norm": 0.8894367218017578, "learning_rate": 0.00029604658474914315, "loss": 3.8955, "step": 37010 }, { "epoch": 0.077125, "grad_norm": 0.7301793098449707, "learning_rate": 0.000296044335957899, "loss": 4.0434, "step": 37020 }, { "epoch": 0.07714583333333333, "grad_norm": 0.8568573594093323, "learning_rate": 0.00029604208653580114, "loss": 3.8931, "step": 37030 }, { "epoch": 0.07716666666666666, "grad_norm": 0.8391117453575134, "learning_rate": 0.00029603983648285927, "loss": 3.9051, "step": 37040 }, { "epoch": 0.0771875, "grad_norm": 0.784164309501648, "learning_rate": 0.0002960375857990831, "loss": 3.9916, "step": 37050 }, { "epoch": 0.07720833333333334, "grad_norm": 0.7964832782745361, "learning_rate": 0.00029603533448448237, "loss": 4.0086, "step": 37060 }, { "epoch": 0.07722916666666667, "grad_norm": 0.8854414224624634, "learning_rate": 0.0002960330825390668, "loss": 3.83, "step": 37070 }, { "epoch": 0.07725, "grad_norm": 0.7870660424232483, "learning_rate": 0.00029603082996284614, "loss": 4.067, "step": 37080 }, { "epoch": 0.07727083333333333, "grad_norm": 1.0131460428237915, "learning_rate": 0.0002960285767558301, "loss": 4.0958, "step": 37090 }, { "epoch": 0.07729166666666666, "grad_norm": 0.8952473402023315, "learning_rate": 0.0002960263229180284, "loss": 3.9738, "step": 37100 }, { "epoch": 0.0773125, "grad_norm": 0.7505180835723877, "learning_rate": 0.0002960240684494508, "loss": 3.9285, "step": 37110 }, { "epoch": 0.07733333333333334, "grad_norm": 0.7252408266067505, "learning_rate": 0.000296021813350107, "loss": 4.0219, "step": 37120 }, { "epoch": 0.07735416666666667, "grad_norm": 0.9749805927276611, "learning_rate": 0.00029601955762000677, "loss": 3.9056, "step": 37130 }, { "epoch": 0.077375, "grad_norm": 0.7523090243339539, "learning_rate": 0.00029601730125915985, "loss": 3.9569, "step": 37140 }, { "epoch": 0.07739583333333333, "grad_norm": 0.7962819337844849, "learning_rate": 0.000296015044267576, "loss": 4.0049, "step": 37150 }, { "epoch": 0.07741666666666666, "grad_norm": 0.7877984642982483, "learning_rate": 0.00029601278664526494, "loss": 3.9931, "step": 37160 }, { "epoch": 0.0774375, "grad_norm": 0.8227845430374146, "learning_rate": 0.0002960105283922364, "loss": 4.0331, "step": 37170 }, { "epoch": 0.07745833333333334, "grad_norm": 0.7852182984352112, "learning_rate": 0.00029600826950850026, "loss": 3.955, "step": 37180 }, { "epoch": 0.07747916666666667, "grad_norm": 0.8177304863929749, "learning_rate": 0.0002960060099940661, "loss": 3.9852, "step": 37190 }, { "epoch": 0.0775, "grad_norm": 0.7786300778388977, "learning_rate": 0.0002960037498489438, "loss": 4.1275, "step": 37200 }, { "epoch": 0.07752083333333333, "grad_norm": 0.7030205130577087, "learning_rate": 0.00029600148907314315, "loss": 4.0328, "step": 37210 }, { "epoch": 0.07754166666666666, "grad_norm": 0.8485303521156311, "learning_rate": 0.0002959992276666738, "loss": 3.936, "step": 37220 }, { "epoch": 0.0775625, "grad_norm": 0.7638468146324158, "learning_rate": 0.0002959969656295456, "loss": 3.9583, "step": 37230 }, { "epoch": 0.07758333333333334, "grad_norm": 0.7291339635848999, "learning_rate": 0.0002959947029617683, "loss": 4.0612, "step": 37240 }, { "epoch": 0.07760416666666667, "grad_norm": 0.7313277125358582, "learning_rate": 0.00029599243966335165, "loss": 3.9409, "step": 37250 }, { "epoch": 0.077625, "grad_norm": 0.7537336945533752, "learning_rate": 0.00029599017573430546, "loss": 4.0731, "step": 37260 }, { "epoch": 0.07764583333333333, "grad_norm": 0.7785717248916626, "learning_rate": 0.0002959879111746395, "loss": 4.1558, "step": 37270 }, { "epoch": 0.07766666666666666, "grad_norm": 0.7225485444068909, "learning_rate": 0.0002959856459843635, "loss": 4.0801, "step": 37280 }, { "epoch": 0.0776875, "grad_norm": 0.8311878442764282, "learning_rate": 0.0002959833801634874, "loss": 4.0419, "step": 37290 }, { "epoch": 0.07770833333333334, "grad_norm": 0.8113701939582825, "learning_rate": 0.00029598111371202077, "loss": 4.0289, "step": 37300 }, { "epoch": 0.07772916666666667, "grad_norm": 0.7142004370689392, "learning_rate": 0.0002959788466299736, "loss": 3.913, "step": 37310 }, { "epoch": 0.07775, "grad_norm": 0.8352668285369873, "learning_rate": 0.00029597657891735555, "loss": 3.8792, "step": 37320 }, { "epoch": 0.07777083333333333, "grad_norm": 0.856296181678772, "learning_rate": 0.00029597431057417647, "loss": 4.2033, "step": 37330 }, { "epoch": 0.07779166666666666, "grad_norm": 0.8602162003517151, "learning_rate": 0.0002959720416004461, "loss": 3.9732, "step": 37340 }, { "epoch": 0.0778125, "grad_norm": 0.8192880153656006, "learning_rate": 0.0002959697719961744, "loss": 3.9089, "step": 37350 }, { "epoch": 0.07783333333333334, "grad_norm": 0.9011448621749878, "learning_rate": 0.00029596750176137096, "loss": 3.9583, "step": 37360 }, { "epoch": 0.07785416666666667, "grad_norm": 0.8908724188804626, "learning_rate": 0.00029596523089604575, "loss": 4.1122, "step": 37370 }, { "epoch": 0.077875, "grad_norm": 0.7739980220794678, "learning_rate": 0.0002959629594002085, "loss": 3.9148, "step": 37380 }, { "epoch": 0.07789583333333333, "grad_norm": 0.908785879611969, "learning_rate": 0.00029596068727386906, "loss": 3.8749, "step": 37390 }, { "epoch": 0.07791666666666666, "grad_norm": 0.8008125424385071, "learning_rate": 0.00029595841451703726, "loss": 3.8464, "step": 37400 }, { "epoch": 0.0779375, "grad_norm": 0.7783828973770142, "learning_rate": 0.00029595614112972276, "loss": 4.223, "step": 37410 }, { "epoch": 0.07795833333333334, "grad_norm": 0.758909285068512, "learning_rate": 0.00029595386711193564, "loss": 3.958, "step": 37420 }, { "epoch": 0.07797916666666667, "grad_norm": 0.9812204837799072, "learning_rate": 0.00029595159246368545, "loss": 4.0739, "step": 37430 }, { "epoch": 0.078, "grad_norm": 0.8455809950828552, "learning_rate": 0.00029594931718498227, "loss": 3.955, "step": 37440 }, { "epoch": 0.07802083333333333, "grad_norm": 0.8847913146018982, "learning_rate": 0.00029594704127583574, "loss": 4.0595, "step": 37450 }, { "epoch": 0.07804166666666666, "grad_norm": 0.7541486024856567, "learning_rate": 0.00029594476473625584, "loss": 4.1097, "step": 37460 }, { "epoch": 0.0780625, "grad_norm": 0.8574343919754028, "learning_rate": 0.0002959424875662523, "loss": 3.9557, "step": 37470 }, { "epoch": 0.07808333333333334, "grad_norm": 0.8774288296699524, "learning_rate": 0.0002959402097658349, "loss": 4.0834, "step": 37480 }, { "epoch": 0.07810416666666667, "grad_norm": 0.9778867959976196, "learning_rate": 0.00029593793133501364, "loss": 4.0005, "step": 37490 }, { "epoch": 0.078125, "grad_norm": 0.9871839284896851, "learning_rate": 0.0002959356522737982, "loss": 4.0814, "step": 37500 }, { "epoch": 0.07814583333333333, "grad_norm": 0.885253369808197, "learning_rate": 0.0002959333725821986, "loss": 4.059, "step": 37510 }, { "epoch": 0.07816666666666666, "grad_norm": 0.7796623706817627, "learning_rate": 0.00029593109226022456, "loss": 3.9882, "step": 37520 }, { "epoch": 0.0781875, "grad_norm": 0.781611979007721, "learning_rate": 0.000295928811307886, "loss": 3.8674, "step": 37530 }, { "epoch": 0.07820833333333334, "grad_norm": 0.7042635083198547, "learning_rate": 0.0002959265297251927, "loss": 4.0858, "step": 37540 }, { "epoch": 0.07822916666666667, "grad_norm": 0.7512226700782776, "learning_rate": 0.0002959242475121546, "loss": 4.0258, "step": 37550 }, { "epoch": 0.07825, "grad_norm": 0.7486161589622498, "learning_rate": 0.0002959219646687814, "loss": 4.0598, "step": 37560 }, { "epoch": 0.07827083333333333, "grad_norm": 0.8785876035690308, "learning_rate": 0.00029591968119508315, "loss": 4.1487, "step": 37570 }, { "epoch": 0.07829166666666666, "grad_norm": 0.8238632082939148, "learning_rate": 0.00029591739709106964, "loss": 3.982, "step": 37580 }, { "epoch": 0.0783125, "grad_norm": 0.772164523601532, "learning_rate": 0.00029591511235675075, "loss": 3.9607, "step": 37590 }, { "epoch": 0.07833333333333334, "grad_norm": 0.7794156670570374, "learning_rate": 0.0002959128269921363, "loss": 3.941, "step": 37600 }, { "epoch": 0.07835416666666667, "grad_norm": 0.7868004441261292, "learning_rate": 0.0002959105409972362, "loss": 4.031, "step": 37610 }, { "epoch": 0.078375, "grad_norm": 0.7520425319671631, "learning_rate": 0.0002959082543720603, "loss": 3.9003, "step": 37620 }, { "epoch": 0.07839583333333333, "grad_norm": 0.8113343119621277, "learning_rate": 0.0002959059671166185, "loss": 4.0041, "step": 37630 }, { "epoch": 0.07841666666666666, "grad_norm": 0.7939594984054565, "learning_rate": 0.00029590367923092067, "loss": 4.138, "step": 37640 }, { "epoch": 0.0784375, "grad_norm": 0.8828052878379822, "learning_rate": 0.00029590139071497676, "loss": 4.1531, "step": 37650 }, { "epoch": 0.07845833333333334, "grad_norm": 0.8034064769744873, "learning_rate": 0.0002958991015687965, "loss": 3.9517, "step": 37660 }, { "epoch": 0.07847916666666667, "grad_norm": 0.8105040192604065, "learning_rate": 0.00029589681179238996, "loss": 3.9339, "step": 37670 }, { "epoch": 0.0785, "grad_norm": 0.7540189623832703, "learning_rate": 0.00029589452138576686, "loss": 3.9986, "step": 37680 }, { "epoch": 0.07852083333333333, "grad_norm": 0.7663857936859131, "learning_rate": 0.0002958922303489372, "loss": 3.949, "step": 37690 }, { "epoch": 0.07854166666666666, "grad_norm": 0.869475781917572, "learning_rate": 0.0002958899386819109, "loss": 3.9517, "step": 37700 }, { "epoch": 0.0785625, "grad_norm": 0.7547687888145447, "learning_rate": 0.0002958876463846978, "loss": 3.9768, "step": 37710 }, { "epoch": 0.07858333333333334, "grad_norm": 0.8117455244064331, "learning_rate": 0.0002958853534573078, "loss": 4.0086, "step": 37720 }, { "epoch": 0.07860416666666667, "grad_norm": 0.8115429282188416, "learning_rate": 0.0002958830598997508, "loss": 4.1081, "step": 37730 }, { "epoch": 0.078625, "grad_norm": 0.773429811000824, "learning_rate": 0.0002958807657120368, "loss": 4.0609, "step": 37740 }, { "epoch": 0.07864583333333333, "grad_norm": 0.8656041622161865, "learning_rate": 0.00029587847089417556, "loss": 3.9974, "step": 37750 }, { "epoch": 0.07866666666666666, "grad_norm": 0.8010833263397217, "learning_rate": 0.0002958761754461771, "loss": 3.8826, "step": 37760 }, { "epoch": 0.0786875, "grad_norm": 0.6985688805580139, "learning_rate": 0.0002958738793680513, "loss": 3.9508, "step": 37770 }, { "epoch": 0.07870833333333334, "grad_norm": 1.1281057596206665, "learning_rate": 0.00029587158265980806, "loss": 4.0319, "step": 37780 }, { "epoch": 0.07872916666666667, "grad_norm": 0.8178333640098572, "learning_rate": 0.00029586928532145736, "loss": 4.079, "step": 37790 }, { "epoch": 0.07875, "grad_norm": 0.8388230800628662, "learning_rate": 0.000295866987353009, "loss": 3.822, "step": 37800 }, { "epoch": 0.07877083333333333, "grad_norm": 0.7320294976234436, "learning_rate": 0.0002958646887544731, "loss": 4.0358, "step": 37810 }, { "epoch": 0.07879166666666666, "grad_norm": 0.7816610932350159, "learning_rate": 0.0002958623895258594, "loss": 3.9942, "step": 37820 }, { "epoch": 0.0788125, "grad_norm": 0.8699864745140076, "learning_rate": 0.000295860089667178, "loss": 4.0238, "step": 37830 }, { "epoch": 0.07883333333333334, "grad_norm": 0.8653493523597717, "learning_rate": 0.0002958577891784387, "loss": 3.973, "step": 37840 }, { "epoch": 0.07885416666666667, "grad_norm": 0.7553151845932007, "learning_rate": 0.0002958554880596515, "loss": 3.966, "step": 37850 }, { "epoch": 0.078875, "grad_norm": 0.7623425126075745, "learning_rate": 0.0002958531863108263, "loss": 4.0373, "step": 37860 }, { "epoch": 0.07889583333333333, "grad_norm": 0.7176605463027954, "learning_rate": 0.00029585088393197304, "loss": 3.9565, "step": 37870 }, { "epoch": 0.07891666666666666, "grad_norm": 0.9141770005226135, "learning_rate": 0.00029584858092310175, "loss": 4.0154, "step": 37880 }, { "epoch": 0.0789375, "grad_norm": 0.7692462801933289, "learning_rate": 0.00029584627728422233, "loss": 4.1445, "step": 37890 }, { "epoch": 0.07895833333333334, "grad_norm": 0.9171366691589355, "learning_rate": 0.0002958439730153447, "loss": 4.0913, "step": 37900 }, { "epoch": 0.07897916666666667, "grad_norm": 0.7264308929443359, "learning_rate": 0.0002958416681164788, "loss": 4.0221, "step": 37910 }, { "epoch": 0.079, "grad_norm": 0.7637732028961182, "learning_rate": 0.00029583936258763467, "loss": 3.8922, "step": 37920 }, { "epoch": 0.07902083333333333, "grad_norm": 0.846948504447937, "learning_rate": 0.00029583705642882214, "loss": 3.9272, "step": 37930 }, { "epoch": 0.07904166666666666, "grad_norm": 0.8535504937171936, "learning_rate": 0.00029583474964005134, "loss": 4.1317, "step": 37940 }, { "epoch": 0.0790625, "grad_norm": 0.708281934261322, "learning_rate": 0.00029583244222133214, "loss": 3.9945, "step": 37950 }, { "epoch": 0.07908333333333334, "grad_norm": 0.8934239745140076, "learning_rate": 0.0002958301341726745, "loss": 3.9696, "step": 37960 }, { "epoch": 0.07910416666666667, "grad_norm": 0.7739936113357544, "learning_rate": 0.0002958278254940884, "loss": 3.7936, "step": 37970 }, { "epoch": 0.079125, "grad_norm": 0.8384619951248169, "learning_rate": 0.0002958255161855838, "loss": 3.8725, "step": 37980 }, { "epoch": 0.07914583333333333, "grad_norm": 0.7832215428352356, "learning_rate": 0.0002958232062471707, "loss": 4.0722, "step": 37990 }, { "epoch": 0.07916666666666666, "grad_norm": 0.8406527638435364, "learning_rate": 0.0002958208956788591, "loss": 3.9568, "step": 38000 }, { "epoch": 0.07916666666666666, "eval_loss": 4.3098602294921875, "eval_runtime": 10.5772, "eval_samples_per_second": 0.945, "eval_steps_per_second": 0.284, "step": 38000 }, { "epoch": 0.0791875, "grad_norm": 0.835521936416626, "learning_rate": 0.00029581858448065896, "loss": 4.1885, "step": 38010 }, { "epoch": 0.07920833333333334, "grad_norm": 0.8701942563056946, "learning_rate": 0.00029581627265258016, "loss": 4.272, "step": 38020 }, { "epoch": 0.07922916666666667, "grad_norm": 1.5983165502548218, "learning_rate": 0.00029581396019463286, "loss": 3.9923, "step": 38030 }, { "epoch": 0.07925, "grad_norm": 0.7321540117263794, "learning_rate": 0.000295811647106827, "loss": 3.8809, "step": 38040 }, { "epoch": 0.07927083333333333, "grad_norm": 0.8294848203659058, "learning_rate": 0.00029580933338917246, "loss": 3.9394, "step": 38050 }, { "epoch": 0.07929166666666666, "grad_norm": 0.7507039308547974, "learning_rate": 0.0002958070190416794, "loss": 4.112, "step": 38060 }, { "epoch": 0.0793125, "grad_norm": 0.764258086681366, "learning_rate": 0.00029580470406435764, "loss": 4.0496, "step": 38070 }, { "epoch": 0.07933333333333334, "grad_norm": 0.9215588569641113, "learning_rate": 0.0002958023884572173, "loss": 4.0618, "step": 38080 }, { "epoch": 0.07935416666666667, "grad_norm": 0.7847050428390503, "learning_rate": 0.00029580007222026843, "loss": 4.0495, "step": 38090 }, { "epoch": 0.079375, "grad_norm": 0.7890319228172302, "learning_rate": 0.0002957977553535209, "loss": 4.0172, "step": 38100 }, { "epoch": 0.07939583333333333, "grad_norm": 0.8720386028289795, "learning_rate": 0.00029579543785698473, "loss": 3.968, "step": 38110 }, { "epoch": 0.07941666666666666, "grad_norm": 0.7805672883987427, "learning_rate": 0.00029579311973067, "loss": 3.9467, "step": 38120 }, { "epoch": 0.0794375, "grad_norm": 0.7763761878013611, "learning_rate": 0.00029579080097458677, "loss": 3.9352, "step": 38130 }, { "epoch": 0.07945833333333334, "grad_norm": 0.8057962656021118, "learning_rate": 0.0002957884815887449, "loss": 4.0188, "step": 38140 }, { "epoch": 0.07947916666666667, "grad_norm": 0.8831015825271606, "learning_rate": 0.0002957861615731545, "loss": 3.8797, "step": 38150 }, { "epoch": 0.0795, "grad_norm": 0.8869669437408447, "learning_rate": 0.0002957838409278257, "loss": 4.1105, "step": 38160 }, { "epoch": 0.07952083333333333, "grad_norm": 0.7498947978019714, "learning_rate": 0.0002957815196527683, "loss": 3.8928, "step": 38170 }, { "epoch": 0.07954166666666666, "grad_norm": 0.7492097616195679, "learning_rate": 0.0002957791977479925, "loss": 4.1214, "step": 38180 }, { "epoch": 0.0795625, "grad_norm": 0.6641942262649536, "learning_rate": 0.00029577687521350826, "loss": 3.8433, "step": 38190 }, { "epoch": 0.07958333333333334, "grad_norm": 0.7778754234313965, "learning_rate": 0.0002957745520493256, "loss": 4.0498, "step": 38200 }, { "epoch": 0.07960416666666667, "grad_norm": 0.8144408464431763, "learning_rate": 0.0002957722282554546, "loss": 4.0489, "step": 38210 }, { "epoch": 0.079625, "grad_norm": 0.826065719127655, "learning_rate": 0.00029576990383190524, "loss": 4.1199, "step": 38220 }, { "epoch": 0.07964583333333333, "grad_norm": 0.8868575692176819, "learning_rate": 0.00029576757877868763, "loss": 4.007, "step": 38230 }, { "epoch": 0.07966666666666666, "grad_norm": 0.8908885717391968, "learning_rate": 0.0002957652530958118, "loss": 4.0049, "step": 38240 }, { "epoch": 0.0796875, "grad_norm": 1.2171024084091187, "learning_rate": 0.0002957629267832877, "loss": 4.1292, "step": 38250 }, { "epoch": 0.07970833333333334, "grad_norm": 0.752056360244751, "learning_rate": 0.0002957605998411255, "loss": 3.9834, "step": 38260 }, { "epoch": 0.07972916666666667, "grad_norm": 0.7996678352355957, "learning_rate": 0.0002957582722693352, "loss": 3.987, "step": 38270 }, { "epoch": 0.07975, "grad_norm": 0.760346531867981, "learning_rate": 0.00029575594406792684, "loss": 3.9882, "step": 38280 }, { "epoch": 0.07977083333333333, "grad_norm": 0.8054348230361938, "learning_rate": 0.0002957536152369105, "loss": 4.0532, "step": 38290 }, { "epoch": 0.07979166666666666, "grad_norm": 0.8142649531364441, "learning_rate": 0.00029575128577629626, "loss": 4.0326, "step": 38300 }, { "epoch": 0.0798125, "grad_norm": 0.7759074568748474, "learning_rate": 0.00029574895568609415, "loss": 4.1319, "step": 38310 }, { "epoch": 0.07983333333333334, "grad_norm": 0.7903830409049988, "learning_rate": 0.00029574662496631427, "loss": 3.9098, "step": 38320 }, { "epoch": 0.07985416666666667, "grad_norm": 0.8345667123794556, "learning_rate": 0.0002957442936169666, "loss": 3.9699, "step": 38330 }, { "epoch": 0.079875, "grad_norm": 0.7826368808746338, "learning_rate": 0.0002957419616380613, "loss": 4.0635, "step": 38340 }, { "epoch": 0.07989583333333333, "grad_norm": 0.780045747756958, "learning_rate": 0.00029573962902960845, "loss": 3.9639, "step": 38350 }, { "epoch": 0.07991666666666666, "grad_norm": 0.8617037534713745, "learning_rate": 0.000295737295791618, "loss": 4.042, "step": 38360 }, { "epoch": 0.0799375, "grad_norm": 0.7709670066833496, "learning_rate": 0.0002957349619241002, "loss": 3.9764, "step": 38370 }, { "epoch": 0.07995833333333334, "grad_norm": 0.7708585262298584, "learning_rate": 0.00029573262742706505, "loss": 4.0448, "step": 38380 }, { "epoch": 0.07997916666666667, "grad_norm": 0.7847542762756348, "learning_rate": 0.00029573029230052256, "loss": 4.0114, "step": 38390 }, { "epoch": 0.08, "grad_norm": 0.7399855852127075, "learning_rate": 0.00029572795654448297, "loss": 3.9459, "step": 38400 }, { "epoch": 0.08002083333333333, "grad_norm": 0.7248812913894653, "learning_rate": 0.00029572562015895624, "loss": 3.9244, "step": 38410 }, { "epoch": 0.08004166666666666, "grad_norm": 0.9456031322479248, "learning_rate": 0.0002957232831439525, "loss": 3.9386, "step": 38420 }, { "epoch": 0.0800625, "grad_norm": 0.8325448632240295, "learning_rate": 0.00029572094549948195, "loss": 4.2068, "step": 38430 }, { "epoch": 0.08008333333333334, "grad_norm": 0.8106370568275452, "learning_rate": 0.00029571860722555455, "loss": 4.0544, "step": 38440 }, { "epoch": 0.08010416666666667, "grad_norm": 0.815687894821167, "learning_rate": 0.0002957162683221804, "loss": 4.0184, "step": 38450 }, { "epoch": 0.080125, "grad_norm": 0.8154532313346863, "learning_rate": 0.0002957139287893697, "loss": 3.9144, "step": 38460 }, { "epoch": 0.08014583333333333, "grad_norm": 0.8380201458930969, "learning_rate": 0.0002957115886271325, "loss": 4.0877, "step": 38470 }, { "epoch": 0.08016666666666666, "grad_norm": 0.7439801096916199, "learning_rate": 0.0002957092478354789, "loss": 4.0516, "step": 38480 }, { "epoch": 0.0801875, "grad_norm": 0.8770380616188049, "learning_rate": 0.000295706906414419, "loss": 4.0147, "step": 38490 }, { "epoch": 0.08020833333333334, "grad_norm": 0.7167606353759766, "learning_rate": 0.000295704564363963, "loss": 3.9512, "step": 38500 }, { "epoch": 0.08022916666666667, "grad_norm": 0.8488460779190063, "learning_rate": 0.00029570222168412094, "loss": 4.0267, "step": 38510 }, { "epoch": 0.08025, "grad_norm": 0.7501782774925232, "learning_rate": 0.00029569987837490294, "loss": 4.1095, "step": 38520 }, { "epoch": 0.08027083333333333, "grad_norm": 0.8191635608673096, "learning_rate": 0.0002956975344363191, "loss": 3.8804, "step": 38530 }, { "epoch": 0.08029166666666666, "grad_norm": 1.1388297080993652, "learning_rate": 0.00029569518986837965, "loss": 4.2477, "step": 38540 }, { "epoch": 0.0803125, "grad_norm": 0.9039329886436462, "learning_rate": 0.0002956928446710946, "loss": 4.0366, "step": 38550 }, { "epoch": 0.08033333333333334, "grad_norm": 0.8913304805755615, "learning_rate": 0.0002956904988444741, "loss": 4.1228, "step": 38560 }, { "epoch": 0.08035416666666667, "grad_norm": 0.8467113375663757, "learning_rate": 0.0002956881523885284, "loss": 4.0357, "step": 38570 }, { "epoch": 0.080375, "grad_norm": 0.8059454560279846, "learning_rate": 0.0002956858053032675, "loss": 3.9712, "step": 38580 }, { "epoch": 0.08039583333333333, "grad_norm": 0.7427771091461182, "learning_rate": 0.0002956834575887016, "loss": 4.0785, "step": 38590 }, { "epoch": 0.08041666666666666, "grad_norm": 0.9557122588157654, "learning_rate": 0.0002956811092448408, "loss": 3.9419, "step": 38600 }, { "epoch": 0.0804375, "grad_norm": 0.7548374533653259, "learning_rate": 0.00029567876027169533, "loss": 4.0637, "step": 38610 }, { "epoch": 0.08045833333333334, "grad_norm": 0.8431499600410461, "learning_rate": 0.00029567641066927526, "loss": 3.9737, "step": 38620 }, { "epoch": 0.08047916666666667, "grad_norm": 0.8312988877296448, "learning_rate": 0.00029567406043759075, "loss": 3.9104, "step": 38630 }, { "epoch": 0.0805, "grad_norm": 0.754848301410675, "learning_rate": 0.00029567170957665195, "loss": 4.0635, "step": 38640 }, { "epoch": 0.08052083333333333, "grad_norm": 0.8082960844039917, "learning_rate": 0.00029566935808646904, "loss": 3.9813, "step": 38650 }, { "epoch": 0.08054166666666666, "grad_norm": 0.8546106815338135, "learning_rate": 0.00029566700596705216, "loss": 4.0363, "step": 38660 }, { "epoch": 0.0805625, "grad_norm": 0.8824333548545837, "learning_rate": 0.00029566465321841144, "loss": 3.7413, "step": 38670 }, { "epoch": 0.08058333333333334, "grad_norm": 0.8826181292533875, "learning_rate": 0.0002956622998405571, "loss": 4.0552, "step": 38680 }, { "epoch": 0.08060416666666667, "grad_norm": 0.7803552150726318, "learning_rate": 0.0002956599458334993, "loss": 3.884, "step": 38690 }, { "epoch": 0.080625, "grad_norm": 0.807855486869812, "learning_rate": 0.00029565759119724817, "loss": 3.9381, "step": 38700 }, { "epoch": 0.08064583333333333, "grad_norm": 0.7235782742500305, "learning_rate": 0.0002956552359318139, "loss": 4.0619, "step": 38710 }, { "epoch": 0.08066666666666666, "grad_norm": 0.7210096120834351, "learning_rate": 0.0002956528800372067, "loss": 3.9703, "step": 38720 }, { "epoch": 0.0806875, "grad_norm": 0.915455162525177, "learning_rate": 0.0002956505235134367, "loss": 4.0331, "step": 38730 }, { "epoch": 0.08070833333333334, "grad_norm": 0.7352243065834045, "learning_rate": 0.0002956481663605141, "loss": 4.0842, "step": 38740 }, { "epoch": 0.08072916666666667, "grad_norm": 0.7845919132232666, "learning_rate": 0.000295645808578449, "loss": 4.1241, "step": 38750 }, { "epoch": 0.08075, "grad_norm": 0.8045593500137329, "learning_rate": 0.00029564345016725173, "loss": 3.9679, "step": 38760 }, { "epoch": 0.08077083333333333, "grad_norm": 0.9383342862129211, "learning_rate": 0.00029564109112693236, "loss": 3.9011, "step": 38770 }, { "epoch": 0.08079166666666666, "grad_norm": 0.7674330472946167, "learning_rate": 0.00029563873145750115, "loss": 3.9333, "step": 38780 }, { "epoch": 0.0808125, "grad_norm": 0.801990270614624, "learning_rate": 0.00029563637115896825, "loss": 3.9456, "step": 38790 }, { "epoch": 0.08083333333333333, "grad_norm": 0.7783843278884888, "learning_rate": 0.0002956340102313439, "loss": 3.9849, "step": 38800 }, { "epoch": 0.08085416666666667, "grad_norm": 0.8149083256721497, "learning_rate": 0.0002956316486746383, "loss": 3.9153, "step": 38810 }, { "epoch": 0.080875, "grad_norm": 0.7793574333190918, "learning_rate": 0.00029562928648886155, "loss": 4.153, "step": 38820 }, { "epoch": 0.08089583333333333, "grad_norm": 0.8162181377410889, "learning_rate": 0.00029562692367402394, "loss": 3.9424, "step": 38830 }, { "epoch": 0.08091666666666666, "grad_norm": 0.9892764091491699, "learning_rate": 0.0002956245602301357, "loss": 4.082, "step": 38840 }, { "epoch": 0.0809375, "grad_norm": 0.8548150062561035, "learning_rate": 0.00029562219615720696, "loss": 3.852, "step": 38850 }, { "epoch": 0.08095833333333333, "grad_norm": 0.7403591871261597, "learning_rate": 0.000295619831455248, "loss": 4.0535, "step": 38860 }, { "epoch": 0.08097916666666667, "grad_norm": 0.8180938363075256, "learning_rate": 0.00029561746612426904, "loss": 4.1334, "step": 38870 }, { "epoch": 0.081, "grad_norm": 0.8348621129989624, "learning_rate": 0.00029561510016428024, "loss": 4.0137, "step": 38880 }, { "epoch": 0.08102083333333333, "grad_norm": 0.8257707357406616, "learning_rate": 0.0002956127335752918, "loss": 4.0189, "step": 38890 }, { "epoch": 0.08104166666666666, "grad_norm": 0.8818042278289795, "learning_rate": 0.00029561036635731403, "loss": 4.1722, "step": 38900 }, { "epoch": 0.0810625, "grad_norm": 0.7866851687431335, "learning_rate": 0.0002956079985103571, "loss": 4.0944, "step": 38910 }, { "epoch": 0.08108333333333333, "grad_norm": 0.8159758448600769, "learning_rate": 0.0002956056300344313, "loss": 4.1673, "step": 38920 }, { "epoch": 0.08110416666666667, "grad_norm": 0.7859052419662476, "learning_rate": 0.00029560326092954676, "loss": 3.8531, "step": 38930 }, { "epoch": 0.081125, "grad_norm": 0.7926644682884216, "learning_rate": 0.00029560089119571377, "loss": 4.0277, "step": 38940 }, { "epoch": 0.08114583333333333, "grad_norm": 0.849351704120636, "learning_rate": 0.00029559852083294264, "loss": 4.1047, "step": 38950 }, { "epoch": 0.08116666666666666, "grad_norm": 0.9178153276443481, "learning_rate": 0.00029559614984124344, "loss": 4.0932, "step": 38960 }, { "epoch": 0.0811875, "grad_norm": 0.7889618873596191, "learning_rate": 0.00029559377822062653, "loss": 4.0629, "step": 38970 }, { "epoch": 0.08120833333333333, "grad_norm": 0.7828762531280518, "learning_rate": 0.0002955914059711021, "loss": 3.9042, "step": 38980 }, { "epoch": 0.08122916666666667, "grad_norm": 0.7672367095947266, "learning_rate": 0.00029558903309268047, "loss": 4.0882, "step": 38990 }, { "epoch": 0.08125, "grad_norm": 0.8167468309402466, "learning_rate": 0.0002955866595853718, "loss": 3.8289, "step": 39000 }, { "epoch": 0.08125, "eval_loss": 4.291996955871582, "eval_runtime": 10.9907, "eval_samples_per_second": 0.91, "eval_steps_per_second": 0.273, "step": 39000 }, { "epoch": 0.08127083333333333, "grad_norm": 0.7726606726646423, "learning_rate": 0.0002955842854491864, "loss": 3.7998, "step": 39010 }, { "epoch": 0.08129166666666666, "grad_norm": 0.8469964265823364, "learning_rate": 0.00029558191068413455, "loss": 3.9465, "step": 39020 }, { "epoch": 0.0813125, "grad_norm": 0.895370364189148, "learning_rate": 0.00029557953529022645, "loss": 4.0793, "step": 39030 }, { "epoch": 0.08133333333333333, "grad_norm": 1.0283160209655762, "learning_rate": 0.00029557715926747236, "loss": 4.0181, "step": 39040 }, { "epoch": 0.08135416666666667, "grad_norm": 0.9524704217910767, "learning_rate": 0.00029557478261588264, "loss": 4.102, "step": 39050 }, { "epoch": 0.081375, "grad_norm": 0.7596519589424133, "learning_rate": 0.0002955724053354674, "loss": 3.889, "step": 39060 }, { "epoch": 0.08139583333333333, "grad_norm": 0.9691551923751831, "learning_rate": 0.00029557002742623705, "loss": 3.9839, "step": 39070 }, { "epoch": 0.08141666666666666, "grad_norm": 0.7861046195030212, "learning_rate": 0.00029556764888820174, "loss": 4.0419, "step": 39080 }, { "epoch": 0.0814375, "grad_norm": 0.7543548941612244, "learning_rate": 0.0002955652697213719, "loss": 4.0894, "step": 39090 }, { "epoch": 0.08145833333333333, "grad_norm": 0.756062388420105, "learning_rate": 0.0002955628899257576, "loss": 4.0713, "step": 39100 }, { "epoch": 0.08147916666666667, "grad_norm": 0.8209773302078247, "learning_rate": 0.0002955605095013693, "loss": 4.041, "step": 39110 }, { "epoch": 0.0815, "grad_norm": 0.7886714339256287, "learning_rate": 0.0002955581284482172, "loss": 3.8696, "step": 39120 }, { "epoch": 0.08152083333333333, "grad_norm": 1.0151418447494507, "learning_rate": 0.00029555574676631163, "loss": 4.0925, "step": 39130 }, { "epoch": 0.08154166666666667, "grad_norm": 0.8185462355613708, "learning_rate": 0.0002955533644556628, "loss": 4.0839, "step": 39140 }, { "epoch": 0.0815625, "grad_norm": 0.8452709913253784, "learning_rate": 0.00029555098151628107, "loss": 4.0803, "step": 39150 }, { "epoch": 0.08158333333333333, "grad_norm": 0.7674920558929443, "learning_rate": 0.00029554859794817673, "loss": 4.1111, "step": 39160 }, { "epoch": 0.08160416666666667, "grad_norm": 0.7823147773742676, "learning_rate": 0.00029554621375136003, "loss": 4.0107, "step": 39170 }, { "epoch": 0.081625, "grad_norm": 0.7618927955627441, "learning_rate": 0.0002955438289258413, "loss": 4.1289, "step": 39180 }, { "epoch": 0.08164583333333333, "grad_norm": 0.7578924298286438, "learning_rate": 0.0002955414434716309, "loss": 3.9363, "step": 39190 }, { "epoch": 0.08166666666666667, "grad_norm": 0.8352966904640198, "learning_rate": 0.000295539057388739, "loss": 3.9148, "step": 39200 }, { "epoch": 0.0816875, "grad_norm": 0.7858846783638, "learning_rate": 0.000295536670677176, "loss": 3.9217, "step": 39210 }, { "epoch": 0.08170833333333333, "grad_norm": 0.6847884058952332, "learning_rate": 0.0002955342833369522, "loss": 4.0134, "step": 39220 }, { "epoch": 0.08172916666666667, "grad_norm": 0.8603465557098389, "learning_rate": 0.0002955318953680779, "loss": 3.9807, "step": 39230 }, { "epoch": 0.08175, "grad_norm": 0.7598857879638672, "learning_rate": 0.0002955295067705634, "loss": 4.0214, "step": 39240 }, { "epoch": 0.08177083333333333, "grad_norm": 0.8915538787841797, "learning_rate": 0.00029552711754441904, "loss": 4.0623, "step": 39250 }, { "epoch": 0.08179166666666667, "grad_norm": 0.994425892829895, "learning_rate": 0.00029552472768965514, "loss": 4.096, "step": 39260 }, { "epoch": 0.0818125, "grad_norm": 0.8511155843734741, "learning_rate": 0.00029552233720628204, "loss": 4.0264, "step": 39270 }, { "epoch": 0.08183333333333333, "grad_norm": 0.803685188293457, "learning_rate": 0.00029551994609431005, "loss": 4.0392, "step": 39280 }, { "epoch": 0.08185416666666667, "grad_norm": 0.7087610363960266, "learning_rate": 0.00029551755435374945, "loss": 3.9866, "step": 39290 }, { "epoch": 0.081875, "grad_norm": 0.7413554191589355, "learning_rate": 0.0002955151619846106, "loss": 4.1119, "step": 39300 }, { "epoch": 0.08189583333333333, "grad_norm": 1.0579023361206055, "learning_rate": 0.00029551276898690394, "loss": 3.9476, "step": 39310 }, { "epoch": 0.08191666666666667, "grad_norm": 0.8936607837677002, "learning_rate": 0.0002955103753606396, "loss": 3.9985, "step": 39320 }, { "epoch": 0.0819375, "grad_norm": 0.7556195259094238, "learning_rate": 0.0002955079811058282, "loss": 4.0032, "step": 39330 }, { "epoch": 0.08195833333333333, "grad_norm": 0.8329411745071411, "learning_rate": 0.0002955055862224798, "loss": 3.9169, "step": 39340 }, { "epoch": 0.08197916666666667, "grad_norm": 0.8235631585121155, "learning_rate": 0.0002955031907106049, "loss": 4.0571, "step": 39350 }, { "epoch": 0.082, "grad_norm": 0.7948472499847412, "learning_rate": 0.00029550079457021374, "loss": 3.9939, "step": 39360 }, { "epoch": 0.08202083333333333, "grad_norm": 1.0078328847885132, "learning_rate": 0.0002954983978013168, "loss": 3.9105, "step": 39370 }, { "epoch": 0.08204166666666667, "grad_norm": 0.8439496755599976, "learning_rate": 0.00029549600040392436, "loss": 4.0252, "step": 39380 }, { "epoch": 0.0820625, "grad_norm": 0.9888390898704529, "learning_rate": 0.0002954936023780468, "loss": 4.0362, "step": 39390 }, { "epoch": 0.08208333333333333, "grad_norm": 0.9036434888839722, "learning_rate": 0.0002954912037236945, "loss": 3.9005, "step": 39400 }, { "epoch": 0.08210416666666667, "grad_norm": 0.7148544192314148, "learning_rate": 0.0002954888044408777, "loss": 4.0273, "step": 39410 }, { "epoch": 0.082125, "grad_norm": 0.8010039329528809, "learning_rate": 0.00029548640452960694, "loss": 4.1072, "step": 39420 }, { "epoch": 0.08214583333333333, "grad_norm": 0.7364577651023865, "learning_rate": 0.00029548400398989245, "loss": 3.8795, "step": 39430 }, { "epoch": 0.08216666666666667, "grad_norm": 0.9328866600990295, "learning_rate": 0.0002954816028217446, "loss": 4.035, "step": 39440 }, { "epoch": 0.0821875, "grad_norm": 0.8062793016433716, "learning_rate": 0.0002954792010251739, "loss": 4.0921, "step": 39450 }, { "epoch": 0.08220833333333333, "grad_norm": 0.7482831478118896, "learning_rate": 0.0002954767986001906, "loss": 3.9935, "step": 39460 }, { "epoch": 0.08222916666666667, "grad_norm": 0.7336897850036621, "learning_rate": 0.00029547439554680516, "loss": 4.0436, "step": 39470 }, { "epoch": 0.08225, "grad_norm": 0.83796226978302, "learning_rate": 0.00029547199186502783, "loss": 3.8492, "step": 39480 }, { "epoch": 0.08227083333333333, "grad_norm": 0.8167172074317932, "learning_rate": 0.00029546958755486915, "loss": 3.7169, "step": 39490 }, { "epoch": 0.08229166666666667, "grad_norm": 0.8210753202438354, "learning_rate": 0.0002954671826163394, "loss": 3.8259, "step": 39500 }, { "epoch": 0.0823125, "grad_norm": 0.8436444401741028, "learning_rate": 0.00029546477704944904, "loss": 4.1069, "step": 39510 }, { "epoch": 0.08233333333333333, "grad_norm": 0.7612024545669556, "learning_rate": 0.00029546237085420837, "loss": 4.0756, "step": 39520 }, { "epoch": 0.08235416666666667, "grad_norm": 0.8128028512001038, "learning_rate": 0.0002954599640306279, "loss": 4.0698, "step": 39530 }, { "epoch": 0.082375, "grad_norm": 0.881759762763977, "learning_rate": 0.0002954575565787179, "loss": 4.0234, "step": 39540 }, { "epoch": 0.08239583333333333, "grad_norm": 0.8712320327758789, "learning_rate": 0.00029545514849848887, "loss": 3.8762, "step": 39550 }, { "epoch": 0.08241666666666667, "grad_norm": 0.889971137046814, "learning_rate": 0.0002954527397899511, "loss": 3.9912, "step": 39560 }, { "epoch": 0.0824375, "grad_norm": 0.7280272841453552, "learning_rate": 0.0002954503304531152, "loss": 3.9493, "step": 39570 }, { "epoch": 0.08245833333333333, "grad_norm": 0.8367044925689697, "learning_rate": 0.00029544792048799134, "loss": 3.9507, "step": 39580 }, { "epoch": 0.08247916666666667, "grad_norm": 0.6600242853164673, "learning_rate": 0.00029544550989459007, "loss": 4.064, "step": 39590 }, { "epoch": 0.0825, "grad_norm": 0.9706956148147583, "learning_rate": 0.0002954430986729217, "loss": 4.1823, "step": 39600 }, { "epoch": 0.08252083333333333, "grad_norm": 0.761099636554718, "learning_rate": 0.0002954406868229968, "loss": 3.8986, "step": 39610 }, { "epoch": 0.08254166666666667, "grad_norm": 0.8011664152145386, "learning_rate": 0.00029543827434482575, "loss": 3.8295, "step": 39620 }, { "epoch": 0.0825625, "grad_norm": 0.760365903377533, "learning_rate": 0.00029543586123841883, "loss": 3.9803, "step": 39630 }, { "epoch": 0.08258333333333333, "grad_norm": 0.8626951575279236, "learning_rate": 0.0002954334475037866, "loss": 4.0497, "step": 39640 }, { "epoch": 0.08260416666666667, "grad_norm": 0.7348446249961853, "learning_rate": 0.0002954310331409394, "loss": 3.9666, "step": 39650 }, { "epoch": 0.082625, "grad_norm": 0.831517219543457, "learning_rate": 0.0002954286181498877, "loss": 3.8508, "step": 39660 }, { "epoch": 0.08264583333333334, "grad_norm": 0.7469507455825806, "learning_rate": 0.000295426202530642, "loss": 3.795, "step": 39670 }, { "epoch": 0.08266666666666667, "grad_norm": 0.7859343886375427, "learning_rate": 0.0002954237862832126, "loss": 4.1068, "step": 39680 }, { "epoch": 0.0826875, "grad_norm": 0.9549103379249573, "learning_rate": 0.00029542136940761005, "loss": 3.8812, "step": 39690 }, { "epoch": 0.08270833333333333, "grad_norm": 0.7817336916923523, "learning_rate": 0.00029541895190384474, "loss": 4.1709, "step": 39700 }, { "epoch": 0.08272916666666667, "grad_norm": 0.9150531888008118, "learning_rate": 0.00029541653377192705, "loss": 3.9782, "step": 39710 }, { "epoch": 0.08275, "grad_norm": 0.7823895215988159, "learning_rate": 0.0002954141150118676, "loss": 3.8857, "step": 39720 }, { "epoch": 0.08277083333333334, "grad_norm": 0.8031970858573914, "learning_rate": 0.0002954116956236767, "loss": 3.8429, "step": 39730 }, { "epoch": 0.08279166666666667, "grad_norm": 0.7317859530448914, "learning_rate": 0.0002954092756073648, "loss": 3.8955, "step": 39740 }, { "epoch": 0.0828125, "grad_norm": 0.8032432198524475, "learning_rate": 0.0002954068549629424, "loss": 4.0156, "step": 39750 }, { "epoch": 0.08283333333333333, "grad_norm": 0.7419918775558472, "learning_rate": 0.0002954044336904199, "loss": 3.9979, "step": 39760 }, { "epoch": 0.08285416666666667, "grad_norm": 0.8238973021507263, "learning_rate": 0.0002954020117898079, "loss": 4.0284, "step": 39770 }, { "epoch": 0.082875, "grad_norm": 0.8344582915306091, "learning_rate": 0.0002953995892611167, "loss": 3.8484, "step": 39780 }, { "epoch": 0.08289583333333334, "grad_norm": 0.7901859879493713, "learning_rate": 0.00029539716610435686, "loss": 4.1131, "step": 39790 }, { "epoch": 0.08291666666666667, "grad_norm": 1.2362107038497925, "learning_rate": 0.0002953947423195388, "loss": 4.1673, "step": 39800 }, { "epoch": 0.0829375, "grad_norm": 0.7733821272850037, "learning_rate": 0.000295392317906673, "loss": 4.0315, "step": 39810 }, { "epoch": 0.08295833333333333, "grad_norm": 0.7855840921401978, "learning_rate": 0.00029538989286576994, "loss": 3.9756, "step": 39820 }, { "epoch": 0.08297916666666667, "grad_norm": 0.7556350231170654, "learning_rate": 0.00029538746719684006, "loss": 4.0757, "step": 39830 }, { "epoch": 0.083, "grad_norm": 0.9166795015335083, "learning_rate": 0.00029538504089989394, "loss": 4.0735, "step": 39840 }, { "epoch": 0.08302083333333334, "grad_norm": 0.8495510220527649, "learning_rate": 0.0002953826139749419, "loss": 4.1541, "step": 39850 }, { "epoch": 0.08304166666666667, "grad_norm": 0.7850422263145447, "learning_rate": 0.0002953801864219946, "loss": 3.9307, "step": 39860 }, { "epoch": 0.0830625, "grad_norm": 0.8123365640640259, "learning_rate": 0.0002953777582410624, "loss": 4.0357, "step": 39870 }, { "epoch": 0.08308333333333333, "grad_norm": 0.6958758234977722, "learning_rate": 0.0002953753294321558, "loss": 3.9602, "step": 39880 }, { "epoch": 0.08310416666666667, "grad_norm": 0.790923535823822, "learning_rate": 0.00029537289999528535, "loss": 4.0868, "step": 39890 }, { "epoch": 0.083125, "grad_norm": 0.6986278295516968, "learning_rate": 0.00029537046993046155, "loss": 3.9742, "step": 39900 }, { "epoch": 0.08314583333333334, "grad_norm": 0.7254986763000488, "learning_rate": 0.0002953680392376948, "loss": 3.9892, "step": 39910 }, { "epoch": 0.08316666666666667, "grad_norm": 0.7798058986663818, "learning_rate": 0.0002953656079169957, "loss": 3.8949, "step": 39920 }, { "epoch": 0.0831875, "grad_norm": 0.7755566239356995, "learning_rate": 0.00029536317596837473, "loss": 4.2092, "step": 39930 }, { "epoch": 0.08320833333333333, "grad_norm": 0.8778617978096008, "learning_rate": 0.0002953607433918423, "loss": 3.8185, "step": 39940 }, { "epoch": 0.08322916666666667, "grad_norm": 0.7662438750267029, "learning_rate": 0.0002953583101874091, "loss": 4.0375, "step": 39950 }, { "epoch": 0.08325, "grad_norm": 0.753700852394104, "learning_rate": 0.00029535587635508547, "loss": 4.0199, "step": 39960 }, { "epoch": 0.08327083333333334, "grad_norm": 0.7535341382026672, "learning_rate": 0.000295353441894882, "loss": 3.8479, "step": 39970 }, { "epoch": 0.08329166666666667, "grad_norm": 0.8183071613311768, "learning_rate": 0.0002953510068068092, "loss": 3.9107, "step": 39980 }, { "epoch": 0.0833125, "grad_norm": 0.9599559903144836, "learning_rate": 0.00029534857109087757, "loss": 4.0527, "step": 39990 }, { "epoch": 0.08333333333333333, "grad_norm": 0.7752543091773987, "learning_rate": 0.0002953461347470977, "loss": 3.8529, "step": 40000 }, { "epoch": 0.08333333333333333, "eval_loss": 4.3160858154296875, "eval_runtime": 9.7171, "eval_samples_per_second": 1.029, "eval_steps_per_second": 0.309, "step": 40000 }, { "epoch": 0.08335416666666666, "grad_norm": 0.8810330033302307, "learning_rate": 0.00029534369777547997, "loss": 3.9633, "step": 40010 }, { "epoch": 0.083375, "grad_norm": 0.7451746463775635, "learning_rate": 0.0002953412601760351, "loss": 3.9719, "step": 40020 }, { "epoch": 0.08339583333333334, "grad_norm": 0.6635525822639465, "learning_rate": 0.00029533882194877345, "loss": 3.9893, "step": 40030 }, { "epoch": 0.08341666666666667, "grad_norm": 0.7034791707992554, "learning_rate": 0.0002953363830937056, "loss": 4.1368, "step": 40040 }, { "epoch": 0.0834375, "grad_norm": 0.8015502095222473, "learning_rate": 0.00029533394361084213, "loss": 4.0442, "step": 40050 }, { "epoch": 0.08345833333333333, "grad_norm": 0.9256530404090881, "learning_rate": 0.00029533150350019355, "loss": 3.9799, "step": 40060 }, { "epoch": 0.08347916666666666, "grad_norm": 0.7481572031974792, "learning_rate": 0.00029532906276177044, "loss": 3.7837, "step": 40070 }, { "epoch": 0.0835, "grad_norm": 0.8887359499931335, "learning_rate": 0.00029532662139558326, "loss": 4.0775, "step": 40080 }, { "epoch": 0.08352083333333334, "grad_norm": 0.7956116199493408, "learning_rate": 0.0002953241794016426, "loss": 4.0568, "step": 40090 }, { "epoch": 0.08354166666666667, "grad_norm": 0.8131878972053528, "learning_rate": 0.000295321736779959, "loss": 4.1487, "step": 40100 }, { "epoch": 0.0835625, "grad_norm": 0.8691834211349487, "learning_rate": 0.0002953192935305431, "loss": 4.1206, "step": 40110 }, { "epoch": 0.08358333333333333, "grad_norm": 0.8800872564315796, "learning_rate": 0.0002953168496534053, "loss": 3.9826, "step": 40120 }, { "epoch": 0.08360416666666666, "grad_norm": 0.8334797620773315, "learning_rate": 0.0002953144051485562, "loss": 3.9316, "step": 40130 }, { "epoch": 0.083625, "grad_norm": 0.7883142232894897, "learning_rate": 0.00029531196001600645, "loss": 4.0256, "step": 40140 }, { "epoch": 0.08364583333333334, "grad_norm": 0.7695050239562988, "learning_rate": 0.0002953095142557665, "loss": 4.1047, "step": 40150 }, { "epoch": 0.08366666666666667, "grad_norm": 0.7532522678375244, "learning_rate": 0.000295307067867847, "loss": 3.9578, "step": 40160 }, { "epoch": 0.0836875, "grad_norm": 0.8554174900054932, "learning_rate": 0.0002953046208522585, "loss": 4.0071, "step": 40170 }, { "epoch": 0.08370833333333333, "grad_norm": 1.0648465156555176, "learning_rate": 0.00029530217320901153, "loss": 3.8847, "step": 40180 }, { "epoch": 0.08372916666666666, "grad_norm": 0.9709292054176331, "learning_rate": 0.0002952997249381167, "loss": 3.94, "step": 40190 }, { "epoch": 0.08375, "grad_norm": 0.8761364221572876, "learning_rate": 0.00029529727603958456, "loss": 4.0095, "step": 40200 }, { "epoch": 0.08377083333333334, "grad_norm": 0.9817759394645691, "learning_rate": 0.00029529482651342566, "loss": 4.0573, "step": 40210 }, { "epoch": 0.08379166666666667, "grad_norm": 0.7559182643890381, "learning_rate": 0.0002952923763596507, "loss": 4.0911, "step": 40220 }, { "epoch": 0.0838125, "grad_norm": 0.7756284475326538, "learning_rate": 0.0002952899255782702, "loss": 4.0082, "step": 40230 }, { "epoch": 0.08383333333333333, "grad_norm": 0.6966274380683899, "learning_rate": 0.00029528747416929463, "loss": 3.974, "step": 40240 }, { "epoch": 0.08385416666666666, "grad_norm": 0.7456491589546204, "learning_rate": 0.0002952850221327347, "loss": 3.9915, "step": 40250 }, { "epoch": 0.083875, "grad_norm": 0.791057288646698, "learning_rate": 0.00029528256946860103, "loss": 4.0014, "step": 40260 }, { "epoch": 0.08389583333333334, "grad_norm": 0.781719982624054, "learning_rate": 0.0002952801161769042, "loss": 3.9367, "step": 40270 }, { "epoch": 0.08391666666666667, "grad_norm": 0.7719324231147766, "learning_rate": 0.00029527766225765473, "loss": 3.8893, "step": 40280 }, { "epoch": 0.0839375, "grad_norm": 0.8983016014099121, "learning_rate": 0.0002952752077108632, "loss": 3.9955, "step": 40290 }, { "epoch": 0.08395833333333333, "grad_norm": 0.8440729975700378, "learning_rate": 0.00029527275253654037, "loss": 4.2824, "step": 40300 }, { "epoch": 0.08397916666666666, "grad_norm": 0.8424513936042786, "learning_rate": 0.0002952702967346967, "loss": 4.0175, "step": 40310 }, { "epoch": 0.084, "grad_norm": 0.7515408992767334, "learning_rate": 0.0002952678403053429, "loss": 4.0967, "step": 40320 }, { "epoch": 0.08402083333333334, "grad_norm": 0.7701563239097595, "learning_rate": 0.0002952653832484895, "loss": 3.9375, "step": 40330 }, { "epoch": 0.08404166666666667, "grad_norm": 0.8456514477729797, "learning_rate": 0.0002952629255641471, "loss": 3.9784, "step": 40340 }, { "epoch": 0.0840625, "grad_norm": 0.793245792388916, "learning_rate": 0.0002952604672523264, "loss": 4.1198, "step": 40350 }, { "epoch": 0.08408333333333333, "grad_norm": 1.0205844640731812, "learning_rate": 0.000295258008313038, "loss": 4.1096, "step": 40360 }, { "epoch": 0.08410416666666666, "grad_norm": 0.8541035056114197, "learning_rate": 0.00029525554874629246, "loss": 4.0664, "step": 40370 }, { "epoch": 0.084125, "grad_norm": 0.8074439764022827, "learning_rate": 0.0002952530885521005, "loss": 4.182, "step": 40380 }, { "epoch": 0.08414583333333334, "grad_norm": 0.9555111527442932, "learning_rate": 0.00029525062773047263, "loss": 4.023, "step": 40390 }, { "epoch": 0.08416666666666667, "grad_norm": 0.8645537495613098, "learning_rate": 0.0002952481662814196, "loss": 3.9448, "step": 40400 }, { "epoch": 0.0841875, "grad_norm": 0.8022111654281616, "learning_rate": 0.00029524570420495197, "loss": 3.911, "step": 40410 }, { "epoch": 0.08420833333333333, "grad_norm": 0.7943487167358398, "learning_rate": 0.0002952432415010804, "loss": 3.9569, "step": 40420 }, { "epoch": 0.08422916666666666, "grad_norm": 0.8422197699546814, "learning_rate": 0.0002952407781698155, "loss": 4.0461, "step": 40430 }, { "epoch": 0.08425, "grad_norm": 0.8669431209564209, "learning_rate": 0.0002952383142111679, "loss": 3.9131, "step": 40440 }, { "epoch": 0.08427083333333334, "grad_norm": 0.8977519869804382, "learning_rate": 0.0002952358496251483, "loss": 4.0619, "step": 40450 }, { "epoch": 0.08429166666666667, "grad_norm": 0.8267379999160767, "learning_rate": 0.0002952333844117673, "loss": 3.9954, "step": 40460 }, { "epoch": 0.0843125, "grad_norm": 0.7932602167129517, "learning_rate": 0.0002952309185710356, "loss": 4.0215, "step": 40470 }, { "epoch": 0.08433333333333333, "grad_norm": 0.8399981260299683, "learning_rate": 0.00029522845210296376, "loss": 4.0082, "step": 40480 }, { "epoch": 0.08435416666666666, "grad_norm": 0.7943058609962463, "learning_rate": 0.00029522598500756253, "loss": 3.866, "step": 40490 }, { "epoch": 0.084375, "grad_norm": 0.9743422865867615, "learning_rate": 0.00029522351728484257, "loss": 3.8203, "step": 40500 }, { "epoch": 0.08439583333333334, "grad_norm": 0.8505024313926697, "learning_rate": 0.00029522104893481445, "loss": 3.9142, "step": 40510 }, { "epoch": 0.08441666666666667, "grad_norm": 0.9081649780273438, "learning_rate": 0.0002952185799574889, "loss": 3.9716, "step": 40520 }, { "epoch": 0.0844375, "grad_norm": 0.808097779750824, "learning_rate": 0.0002952161103528765, "loss": 3.8261, "step": 40530 }, { "epoch": 0.08445833333333333, "grad_norm": 0.6919296383857727, "learning_rate": 0.00029521364012098807, "loss": 3.9582, "step": 40540 }, { "epoch": 0.08447916666666666, "grad_norm": 0.8484278917312622, "learning_rate": 0.0002952111692618342, "loss": 4.0673, "step": 40550 }, { "epoch": 0.0845, "grad_norm": 0.8064979910850525, "learning_rate": 0.0002952086977754255, "loss": 3.9402, "step": 40560 }, { "epoch": 0.08452083333333334, "grad_norm": 1.082135796546936, "learning_rate": 0.00029520622566177275, "loss": 4.0787, "step": 40570 }, { "epoch": 0.08454166666666667, "grad_norm": 0.7906471490859985, "learning_rate": 0.0002952037529208865, "loss": 3.9984, "step": 40580 }, { "epoch": 0.0845625, "grad_norm": 0.7863172888755798, "learning_rate": 0.0002952012795527776, "loss": 3.9827, "step": 40590 }, { "epoch": 0.08458333333333333, "grad_norm": 0.7485764026641846, "learning_rate": 0.0002951988055574566, "loss": 3.9518, "step": 40600 }, { "epoch": 0.08460416666666666, "grad_norm": 0.8609005212783813, "learning_rate": 0.00029519633093493425, "loss": 3.9788, "step": 40610 }, { "epoch": 0.084625, "grad_norm": 0.9358100295066833, "learning_rate": 0.00029519385568522126, "loss": 3.9793, "step": 40620 }, { "epoch": 0.08464583333333334, "grad_norm": 0.7219364047050476, "learning_rate": 0.0002951913798083282, "loss": 3.9604, "step": 40630 }, { "epoch": 0.08466666666666667, "grad_norm": 0.8729304075241089, "learning_rate": 0.00029518890330426596, "loss": 3.9641, "step": 40640 }, { "epoch": 0.0846875, "grad_norm": 0.7921643853187561, "learning_rate": 0.00029518642617304506, "loss": 3.9851, "step": 40650 }, { "epoch": 0.08470833333333333, "grad_norm": 0.7497682571411133, "learning_rate": 0.00029518394841467624, "loss": 3.9941, "step": 40660 }, { "epoch": 0.08472916666666666, "grad_norm": 0.7908227443695068, "learning_rate": 0.0002951814700291703, "loss": 4.023, "step": 40670 }, { "epoch": 0.08475, "grad_norm": 1.077592372894287, "learning_rate": 0.0002951789910165378, "loss": 4.0483, "step": 40680 }, { "epoch": 0.08477083333333334, "grad_norm": 0.774064838886261, "learning_rate": 0.00029517651137678957, "loss": 4.1095, "step": 40690 }, { "epoch": 0.08479166666666667, "grad_norm": 0.748116135597229, "learning_rate": 0.0002951740311099363, "loss": 4.0148, "step": 40700 }, { "epoch": 0.0848125, "grad_norm": 0.8239189982414246, "learning_rate": 0.00029517155021598865, "loss": 3.9531, "step": 40710 }, { "epoch": 0.08483333333333333, "grad_norm": 0.8814311623573303, "learning_rate": 0.00029516906869495735, "loss": 3.8923, "step": 40720 }, { "epoch": 0.08485416666666666, "grad_norm": 0.809891402721405, "learning_rate": 0.00029516658654685316, "loss": 3.9542, "step": 40730 }, { "epoch": 0.084875, "grad_norm": 0.7630031108856201, "learning_rate": 0.00029516410377168677, "loss": 4.0421, "step": 40740 }, { "epoch": 0.08489583333333334, "grad_norm": 0.7674872279167175, "learning_rate": 0.0002951616203694689, "loss": 4.186, "step": 40750 }, { "epoch": 0.08491666666666667, "grad_norm": 0.7502391934394836, "learning_rate": 0.0002951591363402103, "loss": 3.8337, "step": 40760 }, { "epoch": 0.0849375, "grad_norm": 0.8281055092811584, "learning_rate": 0.0002951566516839217, "loss": 4.0981, "step": 40770 }, { "epoch": 0.08495833333333333, "grad_norm": 0.855686604976654, "learning_rate": 0.00029515416640061383, "loss": 4.0845, "step": 40780 }, { "epoch": 0.08497916666666666, "grad_norm": 0.7378755807876587, "learning_rate": 0.00029515168049029736, "loss": 4.0948, "step": 40790 }, { "epoch": 0.085, "grad_norm": 0.8163841366767883, "learning_rate": 0.00029514919395298315, "loss": 3.9258, "step": 40800 }, { "epoch": 0.08502083333333334, "grad_norm": 0.8995517492294312, "learning_rate": 0.00029514670678868187, "loss": 4.0832, "step": 40810 }, { "epoch": 0.08504166666666667, "grad_norm": 0.878119170665741, "learning_rate": 0.0002951442189974042, "loss": 3.8408, "step": 40820 }, { "epoch": 0.0850625, "grad_norm": 1.2731839418411255, "learning_rate": 0.00029514173057916104, "loss": 3.903, "step": 40830 }, { "epoch": 0.08508333333333333, "grad_norm": 1.034277319908142, "learning_rate": 0.000295139241533963, "loss": 3.9679, "step": 40840 }, { "epoch": 0.08510416666666666, "grad_norm": 0.830437421798706, "learning_rate": 0.00029513675186182095, "loss": 4.0398, "step": 40850 }, { "epoch": 0.085125, "grad_norm": 0.6920918822288513, "learning_rate": 0.0002951342615627455, "loss": 3.9986, "step": 40860 }, { "epoch": 0.08514583333333334, "grad_norm": 0.7269055247306824, "learning_rate": 0.0002951317706367475, "loss": 3.7516, "step": 40870 }, { "epoch": 0.08516666666666667, "grad_norm": 1.0029613971710205, "learning_rate": 0.00029512927908383773, "loss": 4.0711, "step": 40880 }, { "epoch": 0.0851875, "grad_norm": 0.9874579906463623, "learning_rate": 0.00029512678690402696, "loss": 4.0736, "step": 40890 }, { "epoch": 0.08520833333333333, "grad_norm": 0.935871422290802, "learning_rate": 0.0002951242940973258, "loss": 4.0241, "step": 40900 }, { "epoch": 0.08522916666666666, "grad_norm": 0.8807684183120728, "learning_rate": 0.00029512180066374523, "loss": 4.0884, "step": 40910 }, { "epoch": 0.08525, "grad_norm": 0.8946520686149597, "learning_rate": 0.0002951193066032959, "loss": 4.0403, "step": 40920 }, { "epoch": 0.08527083333333334, "grad_norm": 0.8201988935470581, "learning_rate": 0.00029511681191598865, "loss": 3.8645, "step": 40930 }, { "epoch": 0.08529166666666667, "grad_norm": 0.8593981862068176, "learning_rate": 0.0002951143166018342, "loss": 3.9542, "step": 40940 }, { "epoch": 0.0853125, "grad_norm": 0.8323739171028137, "learning_rate": 0.0002951118206608433, "loss": 4.1311, "step": 40950 }, { "epoch": 0.08533333333333333, "grad_norm": 1.0657445192337036, "learning_rate": 0.00029510932409302677, "loss": 3.9995, "step": 40960 }, { "epoch": 0.08535416666666666, "grad_norm": 0.8317513465881348, "learning_rate": 0.00029510682689839535, "loss": 4.0846, "step": 40970 }, { "epoch": 0.085375, "grad_norm": 0.7623651623725891, "learning_rate": 0.00029510432907696, "loss": 4.026, "step": 40980 }, { "epoch": 0.08539583333333334, "grad_norm": 0.8314976692199707, "learning_rate": 0.0002951018306287313, "loss": 4.0619, "step": 40990 }, { "epoch": 0.08541666666666667, "grad_norm": 0.7977052927017212, "learning_rate": 0.00029509933155372014, "loss": 3.8106, "step": 41000 }, { "epoch": 0.08541666666666667, "eval_loss": 4.3104071617126465, "eval_runtime": 9.1906, "eval_samples_per_second": 1.088, "eval_steps_per_second": 0.326, "step": 41000 }, { "epoch": 0.0854375, "grad_norm": 1.0024137496948242, "learning_rate": 0.00029509683185193733, "loss": 4.1206, "step": 41010 }, { "epoch": 0.08545833333333333, "grad_norm": 0.804386556148529, "learning_rate": 0.0002950943315233936, "loss": 3.9907, "step": 41020 }, { "epoch": 0.08547916666666666, "grad_norm": 0.87026447057724, "learning_rate": 0.0002950918305680998, "loss": 4.0517, "step": 41030 }, { "epoch": 0.0855, "grad_norm": 0.8320297598838806, "learning_rate": 0.00029508932898606675, "loss": 4.0589, "step": 41040 }, { "epoch": 0.08552083333333334, "grad_norm": 0.77891606092453, "learning_rate": 0.0002950868267773052, "loss": 4.1862, "step": 41050 }, { "epoch": 0.08554166666666667, "grad_norm": 0.7073086500167847, "learning_rate": 0.00029508432394182604, "loss": 4.2102, "step": 41060 }, { "epoch": 0.0855625, "grad_norm": 0.7883306741714478, "learning_rate": 0.00029508182047964, "loss": 4.0454, "step": 41070 }, { "epoch": 0.08558333333333333, "grad_norm": 0.7921274304389954, "learning_rate": 0.0002950793163907579, "loss": 3.9783, "step": 41080 }, { "epoch": 0.08560416666666666, "grad_norm": 0.7707151174545288, "learning_rate": 0.0002950768116751906, "loss": 3.9141, "step": 41090 }, { "epoch": 0.085625, "grad_norm": 0.7047751545906067, "learning_rate": 0.0002950743063329489, "loss": 4.0247, "step": 41100 }, { "epoch": 0.08564583333333334, "grad_norm": 0.8615541458129883, "learning_rate": 0.00029507180036404364, "loss": 3.9876, "step": 41110 }, { "epoch": 0.08566666666666667, "grad_norm": 0.799470067024231, "learning_rate": 0.0002950692937684856, "loss": 4.0256, "step": 41120 }, { "epoch": 0.0856875, "grad_norm": 0.8191009759902954, "learning_rate": 0.0002950667865462856, "loss": 3.9168, "step": 41130 }, { "epoch": 0.08570833333333333, "grad_norm": 0.7492142915725708, "learning_rate": 0.00029506427869745454, "loss": 4.0545, "step": 41140 }, { "epoch": 0.08572916666666666, "grad_norm": 0.8375064134597778, "learning_rate": 0.00029506177022200326, "loss": 3.8802, "step": 41150 }, { "epoch": 0.08575, "grad_norm": 0.8648855090141296, "learning_rate": 0.0002950592611199424, "loss": 4.0726, "step": 41160 }, { "epoch": 0.08577083333333334, "grad_norm": 0.7259910106658936, "learning_rate": 0.0002950567513912831, "loss": 4.066, "step": 41170 }, { "epoch": 0.08579166666666667, "grad_norm": 0.8060943484306335, "learning_rate": 0.000295054241036036, "loss": 4.0666, "step": 41180 }, { "epoch": 0.0858125, "grad_norm": 0.7671103477478027, "learning_rate": 0.000295051730054212, "loss": 3.9625, "step": 41190 }, { "epoch": 0.08583333333333333, "grad_norm": 0.841223955154419, "learning_rate": 0.00029504921844582195, "loss": 4.0131, "step": 41200 }, { "epoch": 0.08585416666666666, "grad_norm": 0.7629988789558411, "learning_rate": 0.0002950467062108767, "loss": 4.0356, "step": 41210 }, { "epoch": 0.085875, "grad_norm": 0.7619121074676514, "learning_rate": 0.0002950441933493871, "loss": 3.8937, "step": 41220 }, { "epoch": 0.08589583333333334, "grad_norm": 0.8851059079170227, "learning_rate": 0.000295041679861364, "loss": 3.804, "step": 41230 }, { "epoch": 0.08591666666666667, "grad_norm": 0.7782284617424011, "learning_rate": 0.00029503916574681816, "loss": 3.9107, "step": 41240 }, { "epoch": 0.0859375, "grad_norm": 0.8175980448722839, "learning_rate": 0.0002950366510057607, "loss": 4.1916, "step": 41250 }, { "epoch": 0.08595833333333333, "grad_norm": 0.7695065140724182, "learning_rate": 0.0002950341356382022, "loss": 4.1557, "step": 41260 }, { "epoch": 0.08597916666666666, "grad_norm": 0.7636656165122986, "learning_rate": 0.00029503161964415366, "loss": 3.7724, "step": 41270 }, { "epoch": 0.086, "grad_norm": 0.7548907995223999, "learning_rate": 0.00029502910302362586, "loss": 4.2182, "step": 41280 }, { "epoch": 0.08602083333333334, "grad_norm": 1.0109362602233887, "learning_rate": 0.0002950265857766299, "loss": 3.9992, "step": 41290 }, { "epoch": 0.08604166666666667, "grad_norm": 0.8251057863235474, "learning_rate": 0.00029502406790317637, "loss": 3.8969, "step": 41300 }, { "epoch": 0.0860625, "grad_norm": 0.8136770129203796, "learning_rate": 0.0002950215494032763, "loss": 3.885, "step": 41310 }, { "epoch": 0.08608333333333333, "grad_norm": 0.7827541828155518, "learning_rate": 0.00029501903027694056, "loss": 4.1324, "step": 41320 }, { "epoch": 0.08610416666666666, "grad_norm": 0.9810552597045898, "learning_rate": 0.00029501651052418, "loss": 4.1593, "step": 41330 }, { "epoch": 0.086125, "grad_norm": 0.7190760970115662, "learning_rate": 0.00029501399014500554, "loss": 4.0375, "step": 41340 }, { "epoch": 0.08614583333333334, "grad_norm": 0.8209031820297241, "learning_rate": 0.000295011469139428, "loss": 4.1421, "step": 41350 }, { "epoch": 0.08616666666666667, "grad_norm": 0.7525475025177002, "learning_rate": 0.0002950089475074583, "loss": 3.9547, "step": 41360 }, { "epoch": 0.0861875, "grad_norm": 0.7952344417572021, "learning_rate": 0.0002950064252491074, "loss": 3.9079, "step": 41370 }, { "epoch": 0.08620833333333333, "grad_norm": 0.9942291378974915, "learning_rate": 0.0002950039023643862, "loss": 3.957, "step": 41380 }, { "epoch": 0.08622916666666666, "grad_norm": 0.7972968220710754, "learning_rate": 0.00029500137885330537, "loss": 3.9557, "step": 41390 }, { "epoch": 0.08625, "grad_norm": 0.9264628887176514, "learning_rate": 0.00029499885471587613, "loss": 3.8431, "step": 41400 }, { "epoch": 0.08627083333333334, "grad_norm": 0.8071819543838501, "learning_rate": 0.00029499632995210915, "loss": 3.9863, "step": 41410 }, { "epoch": 0.08629166666666667, "grad_norm": 0.7748240828514099, "learning_rate": 0.00029499380456201544, "loss": 4.0571, "step": 41420 }, { "epoch": 0.0863125, "grad_norm": 0.9464485049247742, "learning_rate": 0.0002949912785456059, "loss": 4.0748, "step": 41430 }, { "epoch": 0.08633333333333333, "grad_norm": 0.8939986228942871, "learning_rate": 0.0002949887519028914, "loss": 4.0442, "step": 41440 }, { "epoch": 0.08635416666666666, "grad_norm": 0.8501853346824646, "learning_rate": 0.0002949862246338829, "loss": 4.1724, "step": 41450 }, { "epoch": 0.086375, "grad_norm": 0.8819860219955444, "learning_rate": 0.0002949836967385913, "loss": 3.9074, "step": 41460 }, { "epoch": 0.08639583333333334, "grad_norm": 0.8306633830070496, "learning_rate": 0.00029498116821702753, "loss": 4.1966, "step": 41470 }, { "epoch": 0.08641666666666667, "grad_norm": 0.83210289478302, "learning_rate": 0.00029497863906920244, "loss": 3.9871, "step": 41480 }, { "epoch": 0.0864375, "grad_norm": 0.7752358913421631, "learning_rate": 0.0002949761092951271, "loss": 3.937, "step": 41490 }, { "epoch": 0.08645833333333333, "grad_norm": 0.7553769946098328, "learning_rate": 0.0002949735788948123, "loss": 4.0719, "step": 41500 }, { "epoch": 0.08647916666666666, "grad_norm": 0.9787576794624329, "learning_rate": 0.000294971047868269, "loss": 3.9406, "step": 41510 }, { "epoch": 0.0865, "grad_norm": 0.8051668405532837, "learning_rate": 0.0002949685162155082, "loss": 3.9068, "step": 41520 }, { "epoch": 0.08652083333333334, "grad_norm": 0.8855612277984619, "learning_rate": 0.0002949659839365408, "loss": 4.0666, "step": 41530 }, { "epoch": 0.08654166666666667, "grad_norm": 0.7393046617507935, "learning_rate": 0.00029496345103137775, "loss": 3.8983, "step": 41540 }, { "epoch": 0.0865625, "grad_norm": 0.7981412410736084, "learning_rate": 0.0002949609175000299, "loss": 3.951, "step": 41550 }, { "epoch": 0.08658333333333333, "grad_norm": 0.8218230605125427, "learning_rate": 0.0002949583833425083, "loss": 4.0063, "step": 41560 }, { "epoch": 0.08660416666666666, "grad_norm": 0.9690958857536316, "learning_rate": 0.0002949558485588239, "loss": 4.0212, "step": 41570 }, { "epoch": 0.086625, "grad_norm": 0.7868458032608032, "learning_rate": 0.00029495331314898757, "loss": 4.0097, "step": 41580 }, { "epoch": 0.08664583333333334, "grad_norm": 0.7454489469528198, "learning_rate": 0.0002949507771130103, "loss": 4.1879, "step": 41590 }, { "epoch": 0.08666666666666667, "grad_norm": 0.744897186756134, "learning_rate": 0.00029494824045090307, "loss": 4.0635, "step": 41600 }, { "epoch": 0.0866875, "grad_norm": 0.91488116979599, "learning_rate": 0.0002949457031626768, "loss": 3.9935, "step": 41610 }, { "epoch": 0.08670833333333333, "grad_norm": 0.7015627026557922, "learning_rate": 0.0002949431652483425, "loss": 4.1563, "step": 41620 }, { "epoch": 0.08672916666666666, "grad_norm": 0.8471096754074097, "learning_rate": 0.0002949406267079111, "loss": 3.9515, "step": 41630 }, { "epoch": 0.08675, "grad_norm": 0.9333097338676453, "learning_rate": 0.00029493808754139353, "loss": 3.961, "step": 41640 }, { "epoch": 0.08677083333333334, "grad_norm": 0.6925346255302429, "learning_rate": 0.00029493554774880077, "loss": 4.0183, "step": 41650 }, { "epoch": 0.08679166666666667, "grad_norm": 0.8468007445335388, "learning_rate": 0.00029493300733014386, "loss": 3.9, "step": 41660 }, { "epoch": 0.0868125, "grad_norm": 0.6942992210388184, "learning_rate": 0.00029493046628543366, "loss": 3.9264, "step": 41670 }, { "epoch": 0.08683333333333333, "grad_norm": 0.8026946187019348, "learning_rate": 0.00029492792461468126, "loss": 4.0087, "step": 41680 }, { "epoch": 0.08685416666666666, "grad_norm": 0.7880997061729431, "learning_rate": 0.00029492538231789764, "loss": 4.0191, "step": 41690 }, { "epoch": 0.086875, "grad_norm": 0.667799711227417, "learning_rate": 0.00029492283939509367, "loss": 3.8421, "step": 41700 }, { "epoch": 0.08689583333333334, "grad_norm": 0.7299315333366394, "learning_rate": 0.0002949202958462804, "loss": 3.9682, "step": 41710 }, { "epoch": 0.08691666666666667, "grad_norm": 0.7824422717094421, "learning_rate": 0.00029491775167146884, "loss": 4.2277, "step": 41720 }, { "epoch": 0.0869375, "grad_norm": 0.8981888890266418, "learning_rate": 0.00029491520687067, "loss": 3.9808, "step": 41730 }, { "epoch": 0.08695833333333333, "grad_norm": 0.9400178790092468, "learning_rate": 0.00029491266144389476, "loss": 4.1659, "step": 41740 }, { "epoch": 0.08697916666666666, "grad_norm": 0.7555736899375916, "learning_rate": 0.00029491011539115416, "loss": 3.9537, "step": 41750 }, { "epoch": 0.087, "grad_norm": 1.0127240419387817, "learning_rate": 0.00029490756871245925, "loss": 4.1171, "step": 41760 }, { "epoch": 0.08702083333333334, "grad_norm": 0.8870262503623962, "learning_rate": 0.00029490502140782103, "loss": 3.8499, "step": 41770 }, { "epoch": 0.08704166666666667, "grad_norm": 0.8875594139099121, "learning_rate": 0.00029490247347725045, "loss": 4.0795, "step": 41780 }, { "epoch": 0.0870625, "grad_norm": 0.8134050965309143, "learning_rate": 0.0002948999249207585, "loss": 3.8866, "step": 41790 }, { "epoch": 0.08708333333333333, "grad_norm": 0.7487722635269165, "learning_rate": 0.00029489737573835636, "loss": 4.0487, "step": 41800 }, { "epoch": 0.08710416666666666, "grad_norm": 0.8432722687721252, "learning_rate": 0.0002948948259300548, "loss": 3.8691, "step": 41810 }, { "epoch": 0.087125, "grad_norm": 0.7739296555519104, "learning_rate": 0.00029489227549586494, "loss": 4.0131, "step": 41820 }, { "epoch": 0.08714583333333334, "grad_norm": 0.7204379439353943, "learning_rate": 0.00029488972443579786, "loss": 4.0794, "step": 41830 }, { "epoch": 0.08716666666666667, "grad_norm": 1.6656044721603394, "learning_rate": 0.0002948871727498645, "loss": 3.9797, "step": 41840 }, { "epoch": 0.0871875, "grad_norm": 0.8357318639755249, "learning_rate": 0.0002948846204380759, "loss": 3.867, "step": 41850 }, { "epoch": 0.08720833333333333, "grad_norm": 0.7823435664176941, "learning_rate": 0.00029488206750044306, "loss": 4.1889, "step": 41860 }, { "epoch": 0.08722916666666666, "grad_norm": 1.0176388025283813, "learning_rate": 0.00029487951393697713, "loss": 4.0583, "step": 41870 }, { "epoch": 0.08725, "grad_norm": 0.833292543888092, "learning_rate": 0.00029487695974768894, "loss": 4.1123, "step": 41880 }, { "epoch": 0.08727083333333334, "grad_norm": 0.8002665042877197, "learning_rate": 0.00029487440493258967, "loss": 4.0134, "step": 41890 }, { "epoch": 0.08729166666666667, "grad_norm": 0.8142883777618408, "learning_rate": 0.00029487184949169036, "loss": 3.9468, "step": 41900 }, { "epoch": 0.0873125, "grad_norm": 0.6887205243110657, "learning_rate": 0.0002948692934250019, "loss": 3.9504, "step": 41910 }, { "epoch": 0.08733333333333333, "grad_norm": 0.79004967212677, "learning_rate": 0.0002948667367325355, "loss": 3.9669, "step": 41920 }, { "epoch": 0.08735416666666666, "grad_norm": 0.8711952567100525, "learning_rate": 0.0002948641794143022, "loss": 4.0087, "step": 41930 }, { "epoch": 0.087375, "grad_norm": 0.9570350050926208, "learning_rate": 0.00029486162147031287, "loss": 4.1573, "step": 41940 }, { "epoch": 0.08739583333333334, "grad_norm": 0.7846853137016296, "learning_rate": 0.00029485906290057875, "loss": 3.9937, "step": 41950 }, { "epoch": 0.08741666666666667, "grad_norm": 0.8267229199409485, "learning_rate": 0.0002948565037051108, "loss": 3.9589, "step": 41960 }, { "epoch": 0.0874375, "grad_norm": 0.8485077023506165, "learning_rate": 0.0002948539438839201, "loss": 3.9785, "step": 41970 }, { "epoch": 0.08745833333333333, "grad_norm": 0.8363606333732605, "learning_rate": 0.0002948513834370177, "loss": 4.0692, "step": 41980 }, { "epoch": 0.08747916666666666, "grad_norm": 0.8509315848350525, "learning_rate": 0.00029484882236441464, "loss": 4.0852, "step": 41990 }, { "epoch": 0.0875, "grad_norm": 0.8326745629310608, "learning_rate": 0.000294846260666122, "loss": 3.969, "step": 42000 }, { "epoch": 0.0875, "eval_loss": 4.3201904296875, "eval_runtime": 11.1793, "eval_samples_per_second": 0.895, "eval_steps_per_second": 0.268, "step": 42000 }, { "epoch": 0.08752083333333334, "grad_norm": 0.8001047968864441, "learning_rate": 0.00029484369834215085, "loss": 4.0541, "step": 42010 }, { "epoch": 0.08754166666666667, "grad_norm": 0.7435680627822876, "learning_rate": 0.0002948411353925123, "loss": 4.0293, "step": 42020 }, { "epoch": 0.0875625, "grad_norm": 1.0736318826675415, "learning_rate": 0.0002948385718172173, "loss": 4.1049, "step": 42030 }, { "epoch": 0.08758333333333333, "grad_norm": 0.8425572514533997, "learning_rate": 0.00029483600761627706, "loss": 4.2352, "step": 42040 }, { "epoch": 0.08760416666666666, "grad_norm": 0.8880539536476135, "learning_rate": 0.0002948334427897026, "loss": 3.9055, "step": 42050 }, { "epoch": 0.087625, "grad_norm": 0.9886736869812012, "learning_rate": 0.00029483087733750494, "loss": 3.8333, "step": 42060 }, { "epoch": 0.08764583333333334, "grad_norm": 0.7548125982284546, "learning_rate": 0.0002948283112596953, "loss": 4.0807, "step": 42070 }, { "epoch": 0.08766666666666667, "grad_norm": 0.8209026455879211, "learning_rate": 0.0002948257445562846, "loss": 3.8522, "step": 42080 }, { "epoch": 0.0876875, "grad_norm": 0.8678532838821411, "learning_rate": 0.00029482317722728406, "loss": 3.8797, "step": 42090 }, { "epoch": 0.08770833333333333, "grad_norm": 0.825298547744751, "learning_rate": 0.0002948206092727047, "loss": 3.9976, "step": 42100 }, { "epoch": 0.08772916666666666, "grad_norm": 0.7295336723327637, "learning_rate": 0.00029481804069255764, "loss": 4.1985, "step": 42110 }, { "epoch": 0.08775, "grad_norm": 0.8599714040756226, "learning_rate": 0.000294815471486854, "loss": 4.2141, "step": 42120 }, { "epoch": 0.08777083333333334, "grad_norm": 0.7893913984298706, "learning_rate": 0.00029481290165560476, "loss": 4.1094, "step": 42130 }, { "epoch": 0.08779166666666667, "grad_norm": 0.8628185391426086, "learning_rate": 0.0002948103311988212, "loss": 4.068, "step": 42140 }, { "epoch": 0.0878125, "grad_norm": 0.8842236399650574, "learning_rate": 0.00029480776011651423, "loss": 4.0787, "step": 42150 }, { "epoch": 0.08783333333333333, "grad_norm": 0.9375674724578857, "learning_rate": 0.00029480518840869515, "loss": 4.1803, "step": 42160 }, { "epoch": 0.08785416666666666, "grad_norm": 0.8143283724784851, "learning_rate": 0.00029480261607537495, "loss": 4.0892, "step": 42170 }, { "epoch": 0.087875, "grad_norm": 0.7836846113204956, "learning_rate": 0.00029480004311656474, "loss": 4.1025, "step": 42180 }, { "epoch": 0.08789583333333334, "grad_norm": 0.7979072332382202, "learning_rate": 0.00029479746953227565, "loss": 4.0188, "step": 42190 }, { "epoch": 0.08791666666666667, "grad_norm": 0.6883796453475952, "learning_rate": 0.00029479489532251884, "loss": 4.0588, "step": 42200 }, { "epoch": 0.0879375, "grad_norm": 0.8415140509605408, "learning_rate": 0.0002947923204873054, "loss": 3.9833, "step": 42210 }, { "epoch": 0.08795833333333333, "grad_norm": 0.8844811916351318, "learning_rate": 0.0002947897450266464, "loss": 4.0496, "step": 42220 }, { "epoch": 0.08797916666666666, "grad_norm": 0.7492492198944092, "learning_rate": 0.00029478716894055303, "loss": 3.9183, "step": 42230 }, { "epoch": 0.088, "grad_norm": 0.7968578934669495, "learning_rate": 0.00029478459222903646, "loss": 3.9996, "step": 42240 }, { "epoch": 0.08802083333333334, "grad_norm": 0.7849067449569702, "learning_rate": 0.0002947820148921077, "loss": 4.0639, "step": 42250 }, { "epoch": 0.08804166666666667, "grad_norm": 0.7851508855819702, "learning_rate": 0.00029477943692977795, "loss": 4.1146, "step": 42260 }, { "epoch": 0.0880625, "grad_norm": 0.6927087903022766, "learning_rate": 0.00029477685834205836, "loss": 4.0646, "step": 42270 }, { "epoch": 0.08808333333333333, "grad_norm": 0.7478302717208862, "learning_rate": 0.00029477427912896, "loss": 3.7984, "step": 42280 }, { "epoch": 0.08810416666666666, "grad_norm": 0.841584324836731, "learning_rate": 0.00029477169929049415, "loss": 4.0292, "step": 42290 }, { "epoch": 0.088125, "grad_norm": 0.9672145843505859, "learning_rate": 0.00029476911882667177, "loss": 3.9544, "step": 42300 }, { "epoch": 0.08814583333333334, "grad_norm": 0.8598831295967102, "learning_rate": 0.00029476653773750417, "loss": 4.062, "step": 42310 }, { "epoch": 0.08816666666666667, "grad_norm": 0.7894582748413086, "learning_rate": 0.0002947639560230024, "loss": 4.2106, "step": 42320 }, { "epoch": 0.0881875, "grad_norm": 0.8132268190383911, "learning_rate": 0.0002947613736831776, "loss": 4.1068, "step": 42330 }, { "epoch": 0.08820833333333333, "grad_norm": 0.8068294525146484, "learning_rate": 0.00029475879071804106, "loss": 4.0633, "step": 42340 }, { "epoch": 0.08822916666666666, "grad_norm": 0.890400767326355, "learning_rate": 0.0002947562071276038, "loss": 4.1362, "step": 42350 }, { "epoch": 0.08825, "grad_norm": 0.9333928823471069, "learning_rate": 0.000294753622911877, "loss": 3.8704, "step": 42360 }, { "epoch": 0.08827083333333334, "grad_norm": 0.9823259115219116, "learning_rate": 0.00029475103807087186, "loss": 4.1766, "step": 42370 }, { "epoch": 0.08829166666666667, "grad_norm": 0.7210860848426819, "learning_rate": 0.00029474845260459953, "loss": 4.057, "step": 42380 }, { "epoch": 0.0883125, "grad_norm": 0.9392378330230713, "learning_rate": 0.0002947458665130712, "loss": 4.0108, "step": 42390 }, { "epoch": 0.08833333333333333, "grad_norm": 0.7329999804496765, "learning_rate": 0.000294743279796298, "loss": 3.9424, "step": 42400 }, { "epoch": 0.08835416666666666, "grad_norm": 0.7590989470481873, "learning_rate": 0.0002947406924542911, "loss": 4.0665, "step": 42410 }, { "epoch": 0.088375, "grad_norm": 0.7778558731079102, "learning_rate": 0.00029473810448706175, "loss": 4.0113, "step": 42420 }, { "epoch": 0.08839583333333334, "grad_norm": 0.7191833257675171, "learning_rate": 0.0002947355158946211, "loss": 3.9296, "step": 42430 }, { "epoch": 0.08841666666666667, "grad_norm": 0.8321976661682129, "learning_rate": 0.00029473292667698024, "loss": 3.8711, "step": 42440 }, { "epoch": 0.0884375, "grad_norm": 0.8250235319137573, "learning_rate": 0.00029473033683415046, "loss": 4.0509, "step": 42450 }, { "epoch": 0.08845833333333333, "grad_norm": 0.731683611869812, "learning_rate": 0.00029472774636614293, "loss": 4.1734, "step": 42460 }, { "epoch": 0.08847916666666666, "grad_norm": 0.7778027057647705, "learning_rate": 0.0002947251552729688, "loss": 3.9395, "step": 42470 }, { "epoch": 0.0885, "grad_norm": 0.9636765718460083, "learning_rate": 0.00029472256355463934, "loss": 3.9252, "step": 42480 }, { "epoch": 0.08852083333333334, "grad_norm": 0.762139618396759, "learning_rate": 0.0002947199712111656, "loss": 4.1019, "step": 42490 }, { "epoch": 0.08854166666666667, "grad_norm": 0.7652614116668701, "learning_rate": 0.0002947173782425589, "loss": 4.1016, "step": 42500 }, { "epoch": 0.0885625, "grad_norm": 0.7420979738235474, "learning_rate": 0.0002947147846488304, "loss": 4.0403, "step": 42510 }, { "epoch": 0.08858333333333333, "grad_norm": 0.8781409859657288, "learning_rate": 0.00029471219042999136, "loss": 4.0363, "step": 42520 }, { "epoch": 0.08860416666666666, "grad_norm": 0.768880307674408, "learning_rate": 0.0002947095955860529, "loss": 4.1245, "step": 42530 }, { "epoch": 0.088625, "grad_norm": 0.8779938220977783, "learning_rate": 0.0002947070001170263, "loss": 3.9514, "step": 42540 }, { "epoch": 0.08864583333333333, "grad_norm": 0.8695088624954224, "learning_rate": 0.0002947044040229227, "loss": 3.9135, "step": 42550 }, { "epoch": 0.08866666666666667, "grad_norm": 0.7756330966949463, "learning_rate": 0.0002947018073037534, "loss": 3.8999, "step": 42560 }, { "epoch": 0.0886875, "grad_norm": 0.7573769688606262, "learning_rate": 0.0002946992099595295, "loss": 3.9569, "step": 42570 }, { "epoch": 0.08870833333333333, "grad_norm": 0.8245770931243896, "learning_rate": 0.00029469661199026234, "loss": 4.1479, "step": 42580 }, { "epoch": 0.08872916666666666, "grad_norm": 0.7074221968650818, "learning_rate": 0.00029469401339596307, "loss": 3.8665, "step": 42590 }, { "epoch": 0.08875, "grad_norm": 0.9191860556602478, "learning_rate": 0.00029469141417664293, "loss": 4.078, "step": 42600 }, { "epoch": 0.08877083333333333, "grad_norm": 0.8054348826408386, "learning_rate": 0.0002946888143323132, "loss": 3.859, "step": 42610 }, { "epoch": 0.08879166666666667, "grad_norm": 0.8052231669425964, "learning_rate": 0.00029468621386298505, "loss": 3.8963, "step": 42620 }, { "epoch": 0.0888125, "grad_norm": 0.6955286860466003, "learning_rate": 0.0002946836127686697, "loss": 3.9914, "step": 42630 }, { "epoch": 0.08883333333333333, "grad_norm": 0.7722811698913574, "learning_rate": 0.0002946810110493784, "loss": 3.9208, "step": 42640 }, { "epoch": 0.08885416666666666, "grad_norm": 0.8139607906341553, "learning_rate": 0.0002946784087051224, "loss": 4.097, "step": 42650 }, { "epoch": 0.088875, "grad_norm": 0.7836417555809021, "learning_rate": 0.000294675805735913, "loss": 3.9195, "step": 42660 }, { "epoch": 0.08889583333333333, "grad_norm": 0.9406384229660034, "learning_rate": 0.00029467320214176135, "loss": 3.9594, "step": 42670 }, { "epoch": 0.08891666666666667, "grad_norm": 0.7045599222183228, "learning_rate": 0.00029467059792267873, "loss": 3.8917, "step": 42680 }, { "epoch": 0.0889375, "grad_norm": 0.7611586451530457, "learning_rate": 0.0002946679930786764, "loss": 4.0687, "step": 42690 }, { "epoch": 0.08895833333333333, "grad_norm": 0.7552801966667175, "learning_rate": 0.0002946653876097656, "loss": 3.8939, "step": 42700 }, { "epoch": 0.08897916666666666, "grad_norm": 0.8357509970664978, "learning_rate": 0.0002946627815159576, "loss": 3.9682, "step": 42710 }, { "epoch": 0.089, "grad_norm": 0.8289886713027954, "learning_rate": 0.0002946601747972636, "loss": 3.9234, "step": 42720 }, { "epoch": 0.08902083333333333, "grad_norm": 0.9537912607192993, "learning_rate": 0.00029465756745369496, "loss": 4.0941, "step": 42730 }, { "epoch": 0.08904166666666667, "grad_norm": 0.7569817304611206, "learning_rate": 0.0002946549594852628, "loss": 3.7998, "step": 42740 }, { "epoch": 0.0890625, "grad_norm": 0.8027034401893616, "learning_rate": 0.00029465235089197857, "loss": 3.8901, "step": 42750 }, { "epoch": 0.08908333333333333, "grad_norm": 0.8456350564956665, "learning_rate": 0.0002946497416738534, "loss": 4.0097, "step": 42760 }, { "epoch": 0.08910416666666666, "grad_norm": 0.7440257668495178, "learning_rate": 0.00029464713183089867, "loss": 4.0463, "step": 42770 }, { "epoch": 0.089125, "grad_norm": 0.7810341715812683, "learning_rate": 0.0002946445213631255, "loss": 3.9267, "step": 42780 }, { "epoch": 0.08914583333333333, "grad_norm": 0.8820784091949463, "learning_rate": 0.0002946419102705453, "loss": 3.9428, "step": 42790 }, { "epoch": 0.08916666666666667, "grad_norm": 0.8829526305198669, "learning_rate": 0.0002946392985531693, "loss": 4.1117, "step": 42800 }, { "epoch": 0.0891875, "grad_norm": 0.8675321936607361, "learning_rate": 0.0002946366862110087, "loss": 3.9114, "step": 42810 }, { "epoch": 0.08920833333333333, "grad_norm": 0.7255529761314392, "learning_rate": 0.0002946340732440749, "loss": 3.8804, "step": 42820 }, { "epoch": 0.08922916666666666, "grad_norm": 0.86192387342453, "learning_rate": 0.0002946314596523792, "loss": 4.0199, "step": 42830 }, { "epoch": 0.08925, "grad_norm": 0.8590792417526245, "learning_rate": 0.00029462884543593286, "loss": 3.9187, "step": 42840 }, { "epoch": 0.08927083333333333, "grad_norm": 0.7454255223274231, "learning_rate": 0.0002946262305947471, "loss": 3.8774, "step": 42850 }, { "epoch": 0.08929166666666667, "grad_norm": 0.8704246878623962, "learning_rate": 0.00029462361512883333, "loss": 3.9811, "step": 42860 }, { "epoch": 0.0893125, "grad_norm": 0.9386780261993408, "learning_rate": 0.00029462099903820275, "loss": 4.0645, "step": 42870 }, { "epoch": 0.08933333333333333, "grad_norm": 0.9384982585906982, "learning_rate": 0.0002946183823228667, "loss": 4.0321, "step": 42880 }, { "epoch": 0.08935416666666667, "grad_norm": 0.9046117067337036, "learning_rate": 0.0002946157649828365, "loss": 4.1029, "step": 42890 }, { "epoch": 0.089375, "grad_norm": 0.77730393409729, "learning_rate": 0.0002946131470181234, "loss": 4.0287, "step": 42900 }, { "epoch": 0.08939583333333333, "grad_norm": 0.8170323371887207, "learning_rate": 0.00029461052842873875, "loss": 3.8487, "step": 42910 }, { "epoch": 0.08941666666666667, "grad_norm": 0.9389057159423828, "learning_rate": 0.0002946079092146939, "loss": 4.0167, "step": 42920 }, { "epoch": 0.0894375, "grad_norm": 1.011751413345337, "learning_rate": 0.0002946052893760001, "loss": 4.0095, "step": 42930 }, { "epoch": 0.08945833333333333, "grad_norm": 0.7465471625328064, "learning_rate": 0.0002946026689126687, "loss": 3.9126, "step": 42940 }, { "epoch": 0.08947916666666667, "grad_norm": 0.8126702308654785, "learning_rate": 0.00029460004782471094, "loss": 4.1007, "step": 42950 }, { "epoch": 0.0895, "grad_norm": 0.7804241180419922, "learning_rate": 0.0002945974261121383, "loss": 4.1154, "step": 42960 }, { "epoch": 0.08952083333333333, "grad_norm": 0.7789965867996216, "learning_rate": 0.00029459480377496197, "loss": 4.0101, "step": 42970 }, { "epoch": 0.08954166666666667, "grad_norm": 0.7300752401351929, "learning_rate": 0.00029459218081319334, "loss": 4.0277, "step": 42980 }, { "epoch": 0.0895625, "grad_norm": 0.7931423187255859, "learning_rate": 0.0002945895572268437, "loss": 4.0004, "step": 42990 }, { "epoch": 0.08958333333333333, "grad_norm": 0.8203656673431396, "learning_rate": 0.00029458693301592445, "loss": 3.9867, "step": 43000 }, { "epoch": 0.08958333333333333, "eval_loss": 4.30694580078125, "eval_runtime": 9.2713, "eval_samples_per_second": 1.079, "eval_steps_per_second": 0.324, "step": 43000 }, { "epoch": 0.08960416666666667, "grad_norm": 0.8444095253944397, "learning_rate": 0.00029458430818044684, "loss": 4.1082, "step": 43010 }, { "epoch": 0.089625, "grad_norm": 0.7924345135688782, "learning_rate": 0.0002945816827204222, "loss": 4.0802, "step": 43020 }, { "epoch": 0.08964583333333333, "grad_norm": 0.8866179585456848, "learning_rate": 0.000294579056635862, "loss": 3.7033, "step": 43030 }, { "epoch": 0.08966666666666667, "grad_norm": 0.6647859215736389, "learning_rate": 0.0002945764299267775, "loss": 3.9889, "step": 43040 }, { "epoch": 0.0896875, "grad_norm": 0.9313936829566956, "learning_rate": 0.00029457380259318, "loss": 4.2468, "step": 43050 }, { "epoch": 0.08970833333333333, "grad_norm": 0.8196076154708862, "learning_rate": 0.00029457117463508096, "loss": 3.8843, "step": 43060 }, { "epoch": 0.08972916666666667, "grad_norm": 0.8146063089370728, "learning_rate": 0.0002945685460524916, "loss": 3.9114, "step": 43070 }, { "epoch": 0.08975, "grad_norm": 0.8637206554412842, "learning_rate": 0.00029456591684542347, "loss": 3.8681, "step": 43080 }, { "epoch": 0.08977083333333333, "grad_norm": 0.7244358062744141, "learning_rate": 0.0002945632870138877, "loss": 3.9057, "step": 43090 }, { "epoch": 0.08979166666666667, "grad_norm": 0.7465149760246277, "learning_rate": 0.0002945606565578958, "loss": 4.0943, "step": 43100 }, { "epoch": 0.0898125, "grad_norm": 0.8507609367370605, "learning_rate": 0.00029455802547745906, "loss": 3.9996, "step": 43110 }, { "epoch": 0.08983333333333333, "grad_norm": 0.8512088060379028, "learning_rate": 0.00029455539377258886, "loss": 3.9068, "step": 43120 }, { "epoch": 0.08985416666666667, "grad_norm": 0.9440413117408752, "learning_rate": 0.00029455276144329655, "loss": 4.1447, "step": 43130 }, { "epoch": 0.089875, "grad_norm": 0.7424771189689636, "learning_rate": 0.0002945501284895936, "loss": 4.0837, "step": 43140 }, { "epoch": 0.08989583333333333, "grad_norm": 0.8660104870796204, "learning_rate": 0.0002945474949114913, "loss": 4.1466, "step": 43150 }, { "epoch": 0.08991666666666667, "grad_norm": 0.946259081363678, "learning_rate": 0.000294544860709001, "loss": 4.1048, "step": 43160 }, { "epoch": 0.0899375, "grad_norm": 0.8100252747535706, "learning_rate": 0.00029454222588213414, "loss": 3.934, "step": 43170 }, { "epoch": 0.08995833333333333, "grad_norm": 0.8373037576675415, "learning_rate": 0.00029453959043090205, "loss": 4.03, "step": 43180 }, { "epoch": 0.08997916666666667, "grad_norm": 0.7830778956413269, "learning_rate": 0.00029453695435531616, "loss": 3.8243, "step": 43190 }, { "epoch": 0.09, "grad_norm": 0.7190396189689636, "learning_rate": 0.00029453431765538783, "loss": 4.0928, "step": 43200 }, { "epoch": 0.09002083333333333, "grad_norm": 0.7575730085372925, "learning_rate": 0.00029453168033112846, "loss": 3.9815, "step": 43210 }, { "epoch": 0.09004166666666667, "grad_norm": 0.8525782227516174, "learning_rate": 0.0002945290423825494, "loss": 4.0159, "step": 43220 }, { "epoch": 0.0900625, "grad_norm": 0.7220017313957214, "learning_rate": 0.0002945264038096622, "loss": 3.9679, "step": 43230 }, { "epoch": 0.09008333333333333, "grad_norm": 0.8263263702392578, "learning_rate": 0.0002945237646124781, "loss": 4.069, "step": 43240 }, { "epoch": 0.09010416666666667, "grad_norm": 0.8334963321685791, "learning_rate": 0.00029452112479100854, "loss": 4.0371, "step": 43250 }, { "epoch": 0.090125, "grad_norm": 0.7859172821044922, "learning_rate": 0.00029451848434526486, "loss": 4.1109, "step": 43260 }, { "epoch": 0.09014583333333333, "grad_norm": 0.7925332188606262, "learning_rate": 0.00029451584327525856, "loss": 4.0525, "step": 43270 }, { "epoch": 0.09016666666666667, "grad_norm": 0.8517751097679138, "learning_rate": 0.00029451320158100107, "loss": 4.0617, "step": 43280 }, { "epoch": 0.0901875, "grad_norm": 0.742668092250824, "learning_rate": 0.0002945105592625037, "loss": 4.0383, "step": 43290 }, { "epoch": 0.09020833333333333, "grad_norm": 0.7760559320449829, "learning_rate": 0.0002945079163197779, "loss": 4.2101, "step": 43300 }, { "epoch": 0.09022916666666667, "grad_norm": 0.7289953827857971, "learning_rate": 0.0002945052727528352, "loss": 4.1305, "step": 43310 }, { "epoch": 0.09025, "grad_norm": 0.7664659023284912, "learning_rate": 0.00029450262856168684, "loss": 3.8662, "step": 43320 }, { "epoch": 0.09027083333333333, "grad_norm": 0.7196354269981384, "learning_rate": 0.00029449998374634435, "loss": 3.9908, "step": 43330 }, { "epoch": 0.09029166666666667, "grad_norm": 0.7771369218826294, "learning_rate": 0.00029449733830681915, "loss": 4.0429, "step": 43340 }, { "epoch": 0.0903125, "grad_norm": 0.7446789145469666, "learning_rate": 0.00029449469224312254, "loss": 3.9545, "step": 43350 }, { "epoch": 0.09033333333333333, "grad_norm": 0.6919028162956238, "learning_rate": 0.00029449204555526614, "loss": 3.9462, "step": 43360 }, { "epoch": 0.09035416666666667, "grad_norm": 0.7410955429077148, "learning_rate": 0.00029448939824326133, "loss": 4.0917, "step": 43370 }, { "epoch": 0.090375, "grad_norm": 0.7941297888755798, "learning_rate": 0.00029448675030711944, "loss": 3.9621, "step": 43380 }, { "epoch": 0.09039583333333333, "grad_norm": 0.9332024455070496, "learning_rate": 0.000294484101746852, "loss": 3.9202, "step": 43390 }, { "epoch": 0.09041666666666667, "grad_norm": 0.813433051109314, "learning_rate": 0.00029448145256247044, "loss": 3.8454, "step": 43400 }, { "epoch": 0.0904375, "grad_norm": 0.7347939610481262, "learning_rate": 0.0002944788027539862, "loss": 3.9784, "step": 43410 }, { "epoch": 0.09045833333333334, "grad_norm": 0.8219919800758362, "learning_rate": 0.0002944761523214107, "loss": 3.8413, "step": 43420 }, { "epoch": 0.09047916666666667, "grad_norm": 0.8722334504127502, "learning_rate": 0.00029447350126475546, "loss": 4.2205, "step": 43430 }, { "epoch": 0.0905, "grad_norm": 0.7705649733543396, "learning_rate": 0.00029447084958403183, "loss": 3.8749, "step": 43440 }, { "epoch": 0.09052083333333333, "grad_norm": 0.7951213121414185, "learning_rate": 0.00029446819727925135, "loss": 3.9178, "step": 43450 }, { "epoch": 0.09054166666666667, "grad_norm": 0.9023249745368958, "learning_rate": 0.0002944655443504254, "loss": 4.0634, "step": 43460 }, { "epoch": 0.0905625, "grad_norm": 0.8448863625526428, "learning_rate": 0.0002944628907975655, "loss": 4.1661, "step": 43470 }, { "epoch": 0.09058333333333334, "grad_norm": 0.8534286022186279, "learning_rate": 0.0002944602366206831, "loss": 3.8676, "step": 43480 }, { "epoch": 0.09060416666666667, "grad_norm": 0.7605075836181641, "learning_rate": 0.00029445758181978964, "loss": 4.1006, "step": 43490 }, { "epoch": 0.090625, "grad_norm": 0.7552652955055237, "learning_rate": 0.00029445492639489665, "loss": 4.0717, "step": 43500 }, { "epoch": 0.09064583333333333, "grad_norm": 0.8378645777702332, "learning_rate": 0.00029445227034601555, "loss": 3.9799, "step": 43510 }, { "epoch": 0.09066666666666667, "grad_norm": 0.7651781439781189, "learning_rate": 0.0002944496136731578, "loss": 4.0429, "step": 43520 }, { "epoch": 0.0906875, "grad_norm": 0.6993163824081421, "learning_rate": 0.00029444695637633486, "loss": 4.0011, "step": 43530 }, { "epoch": 0.09070833333333334, "grad_norm": 0.7793441414833069, "learning_rate": 0.0002944442984555583, "loss": 3.6606, "step": 43540 }, { "epoch": 0.09072916666666667, "grad_norm": 0.9402686357498169, "learning_rate": 0.00029444163991083954, "loss": 4.0064, "step": 43550 }, { "epoch": 0.09075, "grad_norm": 0.760085940361023, "learning_rate": 0.00029443898074219004, "loss": 3.9307, "step": 43560 }, { "epoch": 0.09077083333333333, "grad_norm": 0.8862836360931396, "learning_rate": 0.0002944363209496214, "loss": 3.9405, "step": 43570 }, { "epoch": 0.09079166666666667, "grad_norm": 0.8694409132003784, "learning_rate": 0.0002944336605331449, "loss": 4.1352, "step": 43580 }, { "epoch": 0.0908125, "grad_norm": 0.8726516366004944, "learning_rate": 0.0002944309994927722, "loss": 3.978, "step": 43590 }, { "epoch": 0.09083333333333334, "grad_norm": 1.0999330282211304, "learning_rate": 0.0002944283378285148, "loss": 4.0615, "step": 43600 }, { "epoch": 0.09085416666666667, "grad_norm": 0.88246750831604, "learning_rate": 0.0002944256755403841, "loss": 4.0006, "step": 43610 }, { "epoch": 0.090875, "grad_norm": 0.7008848190307617, "learning_rate": 0.0002944230126283917, "loss": 3.9439, "step": 43620 }, { "epoch": 0.09089583333333333, "grad_norm": 0.7714446187019348, "learning_rate": 0.00029442034909254897, "loss": 4.076, "step": 43630 }, { "epoch": 0.09091666666666667, "grad_norm": 0.7801547050476074, "learning_rate": 0.0002944176849328676, "loss": 4.0407, "step": 43640 }, { "epoch": 0.0909375, "grad_norm": 0.7807552814483643, "learning_rate": 0.0002944150201493589, "loss": 4.1463, "step": 43650 }, { "epoch": 0.09095833333333334, "grad_norm": 0.7293252944946289, "learning_rate": 0.00029441235474203455, "loss": 3.982, "step": 43660 }, { "epoch": 0.09097916666666667, "grad_norm": 0.9320241212844849, "learning_rate": 0.00029440968871090594, "loss": 4.0733, "step": 43670 }, { "epoch": 0.091, "grad_norm": 0.9199652075767517, "learning_rate": 0.0002944070220559847, "loss": 3.9163, "step": 43680 }, { "epoch": 0.09102083333333333, "grad_norm": 0.7276955246925354, "learning_rate": 0.0002944043547772822, "loss": 3.9544, "step": 43690 }, { "epoch": 0.09104166666666667, "grad_norm": 0.8825798034667969, "learning_rate": 0.0002944016868748101, "loss": 4.0254, "step": 43700 }, { "epoch": 0.0910625, "grad_norm": 0.8884842991828918, "learning_rate": 0.00029439901834857986, "loss": 4.0696, "step": 43710 }, { "epoch": 0.09108333333333334, "grad_norm": 0.7425711750984192, "learning_rate": 0.000294396349198603, "loss": 3.8903, "step": 43720 }, { "epoch": 0.09110416666666667, "grad_norm": 0.7916253805160522, "learning_rate": 0.0002943936794248911, "loss": 4.0976, "step": 43730 }, { "epoch": 0.091125, "grad_norm": 0.7162860035896301, "learning_rate": 0.00029439100902745567, "loss": 3.8368, "step": 43740 }, { "epoch": 0.09114583333333333, "grad_norm": 0.7752361297607422, "learning_rate": 0.00029438833800630814, "loss": 3.9273, "step": 43750 }, { "epoch": 0.09116666666666666, "grad_norm": 0.8526679277420044, "learning_rate": 0.00029438566636146024, "loss": 4.1703, "step": 43760 }, { "epoch": 0.0911875, "grad_norm": 0.6934775114059448, "learning_rate": 0.00029438299409292336, "loss": 3.8559, "step": 43770 }, { "epoch": 0.09120833333333334, "grad_norm": 0.7945747375488281, "learning_rate": 0.00029438032120070916, "loss": 4.0018, "step": 43780 }, { "epoch": 0.09122916666666667, "grad_norm": 0.7631188631057739, "learning_rate": 0.00029437764768482907, "loss": 3.8231, "step": 43790 }, { "epoch": 0.09125, "grad_norm": 0.7077094912528992, "learning_rate": 0.00029437497354529464, "loss": 4.0938, "step": 43800 }, { "epoch": 0.09127083333333333, "grad_norm": 0.7636808753013611, "learning_rate": 0.0002943722987821176, "loss": 4.0502, "step": 43810 }, { "epoch": 0.09129166666666666, "grad_norm": 0.739537239074707, "learning_rate": 0.0002943696233953093, "loss": 3.885, "step": 43820 }, { "epoch": 0.0913125, "grad_norm": 0.7227054238319397, "learning_rate": 0.0002943669473848814, "loss": 4.128, "step": 43830 }, { "epoch": 0.09133333333333334, "grad_norm": 0.7580694556236267, "learning_rate": 0.0002943642707508454, "loss": 4.0698, "step": 43840 }, { "epoch": 0.09135416666666667, "grad_norm": 0.8221091032028198, "learning_rate": 0.0002943615934932129, "loss": 3.9216, "step": 43850 }, { "epoch": 0.091375, "grad_norm": 0.906349778175354, "learning_rate": 0.00029435891561199545, "loss": 4.1842, "step": 43860 }, { "epoch": 0.09139583333333333, "grad_norm": 1.0237438678741455, "learning_rate": 0.00029435623710720465, "loss": 4.1169, "step": 43870 }, { "epoch": 0.09141666666666666, "grad_norm": 0.7215884327888489, "learning_rate": 0.00029435355797885205, "loss": 4.1899, "step": 43880 }, { "epoch": 0.0914375, "grad_norm": 0.8715304136276245, "learning_rate": 0.00029435087822694925, "loss": 4.2171, "step": 43890 }, { "epoch": 0.09145833333333334, "grad_norm": 0.8521788120269775, "learning_rate": 0.0002943481978515077, "loss": 4.1204, "step": 43900 }, { "epoch": 0.09147916666666667, "grad_norm": 0.728003203868866, "learning_rate": 0.0002943455168525391, "loss": 3.8925, "step": 43910 }, { "epoch": 0.0915, "grad_norm": 0.8462696671485901, "learning_rate": 0.00029434283523005505, "loss": 3.9204, "step": 43920 }, { "epoch": 0.09152083333333333, "grad_norm": 0.8120107054710388, "learning_rate": 0.00029434015298406707, "loss": 4.0471, "step": 43930 }, { "epoch": 0.09154166666666666, "grad_norm": 0.8170748949050903, "learning_rate": 0.0002943374701145868, "loss": 3.9965, "step": 43940 }, { "epoch": 0.0915625, "grad_norm": 0.8082450032234192, "learning_rate": 0.0002943347866216257, "loss": 3.9468, "step": 43950 }, { "epoch": 0.09158333333333334, "grad_norm": 0.7852224707603455, "learning_rate": 0.0002943321025051955, "loss": 4.002, "step": 43960 }, { "epoch": 0.09160416666666667, "grad_norm": 0.8908083438873291, "learning_rate": 0.0002943294177653077, "loss": 3.984, "step": 43970 }, { "epoch": 0.091625, "grad_norm": 0.7960920333862305, "learning_rate": 0.00029432673240197406, "loss": 4.0694, "step": 43980 }, { "epoch": 0.09164583333333333, "grad_norm": 0.8103930950164795, "learning_rate": 0.000294324046415206, "loss": 3.8609, "step": 43990 }, { "epoch": 0.09166666666666666, "grad_norm": 0.7782918810844421, "learning_rate": 0.00029432135980501516, "loss": 3.8601, "step": 44000 }, { "epoch": 0.09166666666666666, "eval_loss": 4.309880256652832, "eval_runtime": 10.7923, "eval_samples_per_second": 0.927, "eval_steps_per_second": 0.278, "step": 44000 }, { "epoch": 0.0916875, "grad_norm": 0.8031482696533203, "learning_rate": 0.00029431867257141323, "loss": 3.9053, "step": 44010 }, { "epoch": 0.09170833333333334, "grad_norm": 0.8081420063972473, "learning_rate": 0.0002943159847144117, "loss": 4.0059, "step": 44020 }, { "epoch": 0.09172916666666667, "grad_norm": 0.9997856020927429, "learning_rate": 0.00029431329623402227, "loss": 4.0293, "step": 44030 }, { "epoch": 0.09175, "grad_norm": 0.8736863732337952, "learning_rate": 0.00029431060713025654, "loss": 3.989, "step": 44040 }, { "epoch": 0.09177083333333333, "grad_norm": 0.8917863368988037, "learning_rate": 0.00029430791740312607, "loss": 4.0851, "step": 44050 }, { "epoch": 0.09179166666666666, "grad_norm": 0.7598302364349365, "learning_rate": 0.0002943052270526425, "loss": 3.8692, "step": 44060 }, { "epoch": 0.0918125, "grad_norm": 0.8449472188949585, "learning_rate": 0.00029430253607881754, "loss": 3.9616, "step": 44070 }, { "epoch": 0.09183333333333334, "grad_norm": 1.12465500831604, "learning_rate": 0.00029429984448166275, "loss": 3.9584, "step": 44080 }, { "epoch": 0.09185416666666667, "grad_norm": 0.8481159210205078, "learning_rate": 0.00029429715226118966, "loss": 3.9025, "step": 44090 }, { "epoch": 0.091875, "grad_norm": 0.7610899209976196, "learning_rate": 0.00029429445941741005, "loss": 3.9541, "step": 44100 }, { "epoch": 0.09189583333333333, "grad_norm": 0.7248851656913757, "learning_rate": 0.00029429176595033546, "loss": 4.0956, "step": 44110 }, { "epoch": 0.09191666666666666, "grad_norm": 0.9137314558029175, "learning_rate": 0.0002942890718599776, "loss": 4.086, "step": 44120 }, { "epoch": 0.0919375, "grad_norm": 0.7797259092330933, "learning_rate": 0.00029428637714634805, "loss": 3.9841, "step": 44130 }, { "epoch": 0.09195833333333334, "grad_norm": 0.7513639330863953, "learning_rate": 0.00029428368180945845, "loss": 3.9826, "step": 44140 }, { "epoch": 0.09197916666666667, "grad_norm": 0.8210268616676331, "learning_rate": 0.0002942809858493204, "loss": 3.9355, "step": 44150 }, { "epoch": 0.092, "grad_norm": 0.7558812499046326, "learning_rate": 0.0002942782892659457, "loss": 4.013, "step": 44160 }, { "epoch": 0.09202083333333333, "grad_norm": 0.7633086442947388, "learning_rate": 0.00029427559205934587, "loss": 3.9024, "step": 44170 }, { "epoch": 0.09204166666666666, "grad_norm": 0.767743706703186, "learning_rate": 0.0002942728942295326, "loss": 3.9907, "step": 44180 }, { "epoch": 0.0920625, "grad_norm": 0.8723000884056091, "learning_rate": 0.00029427019577651746, "loss": 4.0468, "step": 44190 }, { "epoch": 0.09208333333333334, "grad_norm": 0.8200768828392029, "learning_rate": 0.00029426749670031225, "loss": 3.9864, "step": 44200 }, { "epoch": 0.09210416666666667, "grad_norm": 0.8050898909568787, "learning_rate": 0.00029426479700092855, "loss": 4.0267, "step": 44210 }, { "epoch": 0.092125, "grad_norm": 0.8020004630088806, "learning_rate": 0.000294262096678378, "loss": 4.0856, "step": 44220 }, { "epoch": 0.09214583333333333, "grad_norm": 0.7998018264770508, "learning_rate": 0.00029425939573267233, "loss": 4.019, "step": 44230 }, { "epoch": 0.09216666666666666, "grad_norm": 0.7449648976325989, "learning_rate": 0.00029425669416382317, "loss": 3.9596, "step": 44240 }, { "epoch": 0.0921875, "grad_norm": 0.6878941655158997, "learning_rate": 0.00029425399197184214, "loss": 4.1458, "step": 44250 }, { "epoch": 0.09220833333333334, "grad_norm": 0.8168017268180847, "learning_rate": 0.000294251289156741, "loss": 3.9638, "step": 44260 }, { "epoch": 0.09222916666666667, "grad_norm": 0.817136287689209, "learning_rate": 0.00029424858571853145, "loss": 3.9468, "step": 44270 }, { "epoch": 0.09225, "grad_norm": 0.840815544128418, "learning_rate": 0.0002942458816572251, "loss": 4.0618, "step": 44280 }, { "epoch": 0.09227083333333333, "grad_norm": 0.7990142107009888, "learning_rate": 0.00029424317697283355, "loss": 4.0276, "step": 44290 }, { "epoch": 0.09229166666666666, "grad_norm": 0.8356457948684692, "learning_rate": 0.00029424047166536863, "loss": 3.8558, "step": 44300 }, { "epoch": 0.0923125, "grad_norm": 0.7452893257141113, "learning_rate": 0.00029423776573484194, "loss": 4.0359, "step": 44310 }, { "epoch": 0.09233333333333334, "grad_norm": 0.7052478790283203, "learning_rate": 0.0002942350591812652, "loss": 3.9242, "step": 44320 }, { "epoch": 0.09235416666666667, "grad_norm": 0.8979045152664185, "learning_rate": 0.0002942323520046501, "loss": 3.9457, "step": 44330 }, { "epoch": 0.092375, "grad_norm": 1.0779821872711182, "learning_rate": 0.00029422964420500837, "loss": 3.7695, "step": 44340 }, { "epoch": 0.09239583333333333, "grad_norm": 0.9096167683601379, "learning_rate": 0.0002942269357823516, "loss": 4.0696, "step": 44350 }, { "epoch": 0.09241666666666666, "grad_norm": 0.8481919169425964, "learning_rate": 0.0002942242267366916, "loss": 4.0181, "step": 44360 }, { "epoch": 0.0924375, "grad_norm": 0.8121992349624634, "learning_rate": 0.00029422151706804, "loss": 3.9174, "step": 44370 }, { "epoch": 0.09245833333333334, "grad_norm": 0.793554425239563, "learning_rate": 0.00029421880677640855, "loss": 4.1729, "step": 44380 }, { "epoch": 0.09247916666666667, "grad_norm": 0.8427684903144836, "learning_rate": 0.0002942160958618089, "loss": 3.9512, "step": 44390 }, { "epoch": 0.0925, "grad_norm": 0.7466145753860474, "learning_rate": 0.00029421338432425285, "loss": 4.1747, "step": 44400 }, { "epoch": 0.09252083333333333, "grad_norm": 0.8613093495368958, "learning_rate": 0.00029421067216375206, "loss": 3.9326, "step": 44410 }, { "epoch": 0.09254166666666666, "grad_norm": 0.9479051828384399, "learning_rate": 0.00029420795938031824, "loss": 3.962, "step": 44420 }, { "epoch": 0.0925625, "grad_norm": 0.799017071723938, "learning_rate": 0.0002942052459739631, "loss": 4.1779, "step": 44430 }, { "epoch": 0.09258333333333334, "grad_norm": 0.8353898525238037, "learning_rate": 0.00029420253194469844, "loss": 4.0461, "step": 44440 }, { "epoch": 0.09260416666666667, "grad_norm": 0.8265305161476135, "learning_rate": 0.0002941998172925359, "loss": 4.0738, "step": 44450 }, { "epoch": 0.092625, "grad_norm": 0.7532750964164734, "learning_rate": 0.0002941971020174871, "loss": 3.9548, "step": 44460 }, { "epoch": 0.09264583333333333, "grad_norm": 0.7125318646430969, "learning_rate": 0.000294194386119564, "loss": 4.0091, "step": 44470 }, { "epoch": 0.09266666666666666, "grad_norm": 0.9766756296157837, "learning_rate": 0.0002941916695987783, "loss": 3.9721, "step": 44480 }, { "epoch": 0.0926875, "grad_norm": 0.9519219398498535, "learning_rate": 0.0002941889524551416, "loss": 4.0673, "step": 44490 }, { "epoch": 0.09270833333333334, "grad_norm": 1.026418685913086, "learning_rate": 0.0002941862346886657, "loss": 3.9473, "step": 44500 }, { "epoch": 0.09272916666666667, "grad_norm": 0.7453073859214783, "learning_rate": 0.0002941835162993623, "loss": 3.9278, "step": 44510 }, { "epoch": 0.09275, "grad_norm": 0.7474458813667297, "learning_rate": 0.00029418079728724323, "loss": 4.0404, "step": 44520 }, { "epoch": 0.09277083333333333, "grad_norm": 0.7959873676300049, "learning_rate": 0.00029417807765232015, "loss": 4.0546, "step": 44530 }, { "epoch": 0.09279166666666666, "grad_norm": 0.8463065028190613, "learning_rate": 0.0002941753573946049, "loss": 4.0388, "step": 44540 }, { "epoch": 0.0928125, "grad_norm": 0.890550434589386, "learning_rate": 0.0002941726365141091, "loss": 4.1776, "step": 44550 }, { "epoch": 0.09283333333333334, "grad_norm": 0.8318566083908081, "learning_rate": 0.0002941699150108446, "loss": 3.9651, "step": 44560 }, { "epoch": 0.09285416666666667, "grad_norm": 0.8426151871681213, "learning_rate": 0.00029416719288482315, "loss": 4.1016, "step": 44570 }, { "epoch": 0.092875, "grad_norm": 0.9810061454772949, "learning_rate": 0.0002941644701360565, "loss": 3.9551, "step": 44580 }, { "epoch": 0.09289583333333333, "grad_norm": 0.7402470707893372, "learning_rate": 0.00029416174676455637, "loss": 4.0274, "step": 44590 }, { "epoch": 0.09291666666666666, "grad_norm": 0.7677028775215149, "learning_rate": 0.0002941590227703346, "loss": 3.9278, "step": 44600 }, { "epoch": 0.0929375, "grad_norm": 0.7599290013313293, "learning_rate": 0.0002941562981534029, "loss": 3.8236, "step": 44610 }, { "epoch": 0.09295833333333334, "grad_norm": 0.7853174805641174, "learning_rate": 0.000294153572913773, "loss": 4.0376, "step": 44620 }, { "epoch": 0.09297916666666667, "grad_norm": 0.7803577184677124, "learning_rate": 0.0002941508470514568, "loss": 4.0135, "step": 44630 }, { "epoch": 0.093, "grad_norm": 0.7701123952865601, "learning_rate": 0.000294148120566466, "loss": 3.7755, "step": 44640 }, { "epoch": 0.09302083333333333, "grad_norm": 0.7495555877685547, "learning_rate": 0.0002941453934588123, "loss": 4.0453, "step": 44650 }, { "epoch": 0.09304166666666666, "grad_norm": 0.7904362678527832, "learning_rate": 0.00029414266572850764, "loss": 4.0224, "step": 44660 }, { "epoch": 0.0930625, "grad_norm": 0.7230803966522217, "learning_rate": 0.00029413993737556363, "loss": 3.9792, "step": 44670 }, { "epoch": 0.09308333333333334, "grad_norm": 0.7681822776794434, "learning_rate": 0.0002941372083999923, "loss": 3.9467, "step": 44680 }, { "epoch": 0.09310416666666667, "grad_norm": 0.8920527100563049, "learning_rate": 0.0002941344788018051, "loss": 3.9088, "step": 44690 }, { "epoch": 0.093125, "grad_norm": 0.8506249189376831, "learning_rate": 0.0002941317485810141, "loss": 4.0252, "step": 44700 }, { "epoch": 0.09314583333333333, "grad_norm": 0.8420354723930359, "learning_rate": 0.000294129017737631, "loss": 3.9802, "step": 44710 }, { "epoch": 0.09316666666666666, "grad_norm": 0.895836353302002, "learning_rate": 0.0002941262862716676, "loss": 3.9476, "step": 44720 }, { "epoch": 0.0931875, "grad_norm": 0.7952171564102173, "learning_rate": 0.0002941235541831356, "loss": 4.0108, "step": 44730 }, { "epoch": 0.09320833333333334, "grad_norm": 0.771656334400177, "learning_rate": 0.000294120821472047, "loss": 3.7503, "step": 44740 }, { "epoch": 0.09322916666666667, "grad_norm": 0.8233175873756409, "learning_rate": 0.00029411808813841346, "loss": 3.9324, "step": 44750 }, { "epoch": 0.09325, "grad_norm": 0.725185751914978, "learning_rate": 0.00029411535418224686, "loss": 4.0691, "step": 44760 }, { "epoch": 0.09327083333333333, "grad_norm": 0.925599217414856, "learning_rate": 0.0002941126196035589, "loss": 3.9398, "step": 44770 }, { "epoch": 0.09329166666666666, "grad_norm": 0.82265305519104, "learning_rate": 0.00029410988440236154, "loss": 3.957, "step": 44780 }, { "epoch": 0.0933125, "grad_norm": 0.6767252087593079, "learning_rate": 0.0002941071485786665, "loss": 3.9486, "step": 44790 }, { "epoch": 0.09333333333333334, "grad_norm": 0.6712161898612976, "learning_rate": 0.0002941044121324856, "loss": 4.0286, "step": 44800 }, { "epoch": 0.09335416666666667, "grad_norm": 0.8490703701972961, "learning_rate": 0.0002941016750638307, "loss": 3.9294, "step": 44810 }, { "epoch": 0.093375, "grad_norm": 0.8026022911071777, "learning_rate": 0.0002940989373727136, "loss": 3.9291, "step": 44820 }, { "epoch": 0.09339583333333333, "grad_norm": 0.8459638357162476, "learning_rate": 0.0002940961990591461, "loss": 3.8912, "step": 44830 }, { "epoch": 0.09341666666666666, "grad_norm": 0.7248906493186951, "learning_rate": 0.0002940934601231401, "loss": 4.0817, "step": 44840 }, { "epoch": 0.0934375, "grad_norm": 0.8020398616790771, "learning_rate": 0.00029409072056470735, "loss": 4.0784, "step": 44850 }, { "epoch": 0.09345833333333334, "grad_norm": 0.7141355872154236, "learning_rate": 0.00029408798038385977, "loss": 3.8319, "step": 44860 }, { "epoch": 0.09347916666666667, "grad_norm": 0.7934810519218445, "learning_rate": 0.00029408523958060907, "loss": 3.8135, "step": 44870 }, { "epoch": 0.0935, "grad_norm": 0.836158275604248, "learning_rate": 0.00029408249815496724, "loss": 3.8558, "step": 44880 }, { "epoch": 0.09352083333333333, "grad_norm": 0.8332101702690125, "learning_rate": 0.00029407975610694603, "loss": 4.0214, "step": 44890 }, { "epoch": 0.09354166666666666, "grad_norm": 0.6936440467834473, "learning_rate": 0.0002940770134365573, "loss": 3.8844, "step": 44900 }, { "epoch": 0.0935625, "grad_norm": 0.7573991417884827, "learning_rate": 0.0002940742701438129, "loss": 3.8361, "step": 44910 }, { "epoch": 0.09358333333333334, "grad_norm": 0.9917488098144531, "learning_rate": 0.0002940715262287247, "loss": 4.0734, "step": 44920 }, { "epoch": 0.09360416666666667, "grad_norm": 0.7606675624847412, "learning_rate": 0.0002940687816913045, "loss": 4.1563, "step": 44930 }, { "epoch": 0.093625, "grad_norm": 0.8295557498931885, "learning_rate": 0.00029406603653156423, "loss": 4.028, "step": 44940 }, { "epoch": 0.09364583333333333, "grad_norm": 0.7171760201454163, "learning_rate": 0.00029406329074951567, "loss": 4.0998, "step": 44950 }, { "epoch": 0.09366666666666666, "grad_norm": 0.7178971767425537, "learning_rate": 0.00029406054434517073, "loss": 3.9458, "step": 44960 }, { "epoch": 0.0936875, "grad_norm": 0.7910643815994263, "learning_rate": 0.0002940577973185413, "loss": 4.0222, "step": 44970 }, { "epoch": 0.09370833333333334, "grad_norm": 0.8305575251579285, "learning_rate": 0.0002940550496696391, "loss": 3.9458, "step": 44980 }, { "epoch": 0.09372916666666667, "grad_norm": 0.8426964282989502, "learning_rate": 0.0002940523013984762, "loss": 3.8022, "step": 44990 }, { "epoch": 0.09375, "grad_norm": 0.8178642392158508, "learning_rate": 0.0002940495525050644, "loss": 3.9873, "step": 45000 }, { "epoch": 0.09375, "eval_loss": 4.296371936798096, "eval_runtime": 12.0787, "eval_samples_per_second": 0.828, "eval_steps_per_second": 0.248, "step": 45000 }, { "epoch": 0.09377083333333333, "grad_norm": 0.7109588980674744, "learning_rate": 0.0002940468029894155, "loss": 4.0379, "step": 45010 }, { "epoch": 0.09379166666666666, "grad_norm": 0.8486259579658508, "learning_rate": 0.0002940440528515414, "loss": 4.0466, "step": 45020 }, { "epoch": 0.0938125, "grad_norm": 0.800613522529602, "learning_rate": 0.0002940413020914541, "loss": 4.1292, "step": 45030 }, { "epoch": 0.09383333333333334, "grad_norm": 1.1333023309707642, "learning_rate": 0.00029403855070916533, "loss": 3.9438, "step": 45040 }, { "epoch": 0.09385416666666667, "grad_norm": 0.8522650003433228, "learning_rate": 0.0002940357987046871, "loss": 4.079, "step": 45050 }, { "epoch": 0.093875, "grad_norm": 0.8141242861747742, "learning_rate": 0.0002940330460780311, "loss": 3.8797, "step": 45060 }, { "epoch": 0.09389583333333333, "grad_norm": 0.857005774974823, "learning_rate": 0.0002940302928292094, "loss": 4.068, "step": 45070 }, { "epoch": 0.09391666666666666, "grad_norm": 0.8024482131004333, "learning_rate": 0.0002940275389582339, "loss": 3.853, "step": 45080 }, { "epoch": 0.0939375, "grad_norm": 0.8534786701202393, "learning_rate": 0.00029402478446511644, "loss": 3.9696, "step": 45090 }, { "epoch": 0.09395833333333334, "grad_norm": 0.7749423980712891, "learning_rate": 0.0002940220293498689, "loss": 4.1012, "step": 45100 }, { "epoch": 0.09397916666666667, "grad_norm": 0.7832701802253723, "learning_rate": 0.00029401927361250317, "loss": 3.947, "step": 45110 }, { "epoch": 0.094, "grad_norm": 0.9558160305023193, "learning_rate": 0.00029401651725303123, "loss": 3.9801, "step": 45120 }, { "epoch": 0.09402083333333333, "grad_norm": 0.7724518179893494, "learning_rate": 0.0002940137602714649, "loss": 4.1078, "step": 45130 }, { "epoch": 0.09404166666666666, "grad_norm": 0.8304344415664673, "learning_rate": 0.00029401100266781616, "loss": 3.8744, "step": 45140 }, { "epoch": 0.0940625, "grad_norm": 0.7467166781425476, "learning_rate": 0.00029400824444209694, "loss": 4.0119, "step": 45150 }, { "epoch": 0.09408333333333334, "grad_norm": 0.8301234841346741, "learning_rate": 0.000294005485594319, "loss": 4.256, "step": 45160 }, { "epoch": 0.09410416666666667, "grad_norm": 1.1241601705551147, "learning_rate": 0.00029400272612449443, "loss": 4.052, "step": 45170 }, { "epoch": 0.094125, "grad_norm": 0.8703656792640686, "learning_rate": 0.00029399996603263505, "loss": 3.9461, "step": 45180 }, { "epoch": 0.09414583333333333, "grad_norm": 0.8705021739006042, "learning_rate": 0.00029399720531875283, "loss": 4.2238, "step": 45190 }, { "epoch": 0.09416666666666666, "grad_norm": 0.9271725416183472, "learning_rate": 0.0002939944439828597, "loss": 3.9347, "step": 45200 }, { "epoch": 0.0941875, "grad_norm": 0.8943268060684204, "learning_rate": 0.00029399168202496755, "loss": 4.0175, "step": 45210 }, { "epoch": 0.09420833333333334, "grad_norm": 1.001630425453186, "learning_rate": 0.00029398891944508833, "loss": 4.1536, "step": 45220 }, { "epoch": 0.09422916666666667, "grad_norm": 0.9092263579368591, "learning_rate": 0.000293986156243234, "loss": 3.9834, "step": 45230 }, { "epoch": 0.09425, "grad_norm": 0.7717384099960327, "learning_rate": 0.0002939833924194164, "loss": 3.9915, "step": 45240 }, { "epoch": 0.09427083333333333, "grad_norm": 0.8637787699699402, "learning_rate": 0.00029398062797364764, "loss": 3.8991, "step": 45250 }, { "epoch": 0.09429166666666666, "grad_norm": 0.7466741800308228, "learning_rate": 0.0002939778629059395, "loss": 3.9533, "step": 45260 }, { "epoch": 0.0943125, "grad_norm": 0.7700151801109314, "learning_rate": 0.000293975097216304, "loss": 3.9861, "step": 45270 }, { "epoch": 0.09433333333333334, "grad_norm": 1.0047454833984375, "learning_rate": 0.00029397233090475307, "loss": 4.013, "step": 45280 }, { "epoch": 0.09435416666666667, "grad_norm": 0.7972248196601868, "learning_rate": 0.0002939695639712986, "loss": 3.9734, "step": 45290 }, { "epoch": 0.094375, "grad_norm": 0.9308408498764038, "learning_rate": 0.00029396679641595266, "loss": 3.9484, "step": 45300 }, { "epoch": 0.09439583333333333, "grad_norm": 0.7517308592796326, "learning_rate": 0.0002939640282387271, "loss": 3.9754, "step": 45310 }, { "epoch": 0.09441666666666666, "grad_norm": 1.0082979202270508, "learning_rate": 0.000293961259439634, "loss": 3.8777, "step": 45320 }, { "epoch": 0.0944375, "grad_norm": 0.8289642930030823, "learning_rate": 0.00029395849001868517, "loss": 3.9432, "step": 45330 }, { "epoch": 0.09445833333333334, "grad_norm": 0.7206010818481445, "learning_rate": 0.00029395571997589264, "loss": 4.063, "step": 45340 }, { "epoch": 0.09447916666666667, "grad_norm": 0.7974848747253418, "learning_rate": 0.0002939529493112684, "loss": 3.9781, "step": 45350 }, { "epoch": 0.0945, "grad_norm": 0.7889509201049805, "learning_rate": 0.00029395017802482444, "loss": 4.0573, "step": 45360 }, { "epoch": 0.09452083333333333, "grad_norm": 0.7368786334991455, "learning_rate": 0.0002939474061165727, "loss": 3.9438, "step": 45370 }, { "epoch": 0.09454166666666666, "grad_norm": 0.81927090883255, "learning_rate": 0.00029394463358652507, "loss": 4.0366, "step": 45380 }, { "epoch": 0.0945625, "grad_norm": 0.8469406366348267, "learning_rate": 0.00029394186043469364, "loss": 4.0023, "step": 45390 }, { "epoch": 0.09458333333333334, "grad_norm": 0.9143786430358887, "learning_rate": 0.00029393908666109036, "loss": 4.0786, "step": 45400 }, { "epoch": 0.09460416666666667, "grad_norm": 0.8098400235176086, "learning_rate": 0.0002939363122657272, "loss": 4.0473, "step": 45410 }, { "epoch": 0.094625, "grad_norm": 0.9839364886283875, "learning_rate": 0.0002939335372486161, "loss": 3.7376, "step": 45420 }, { "epoch": 0.09464583333333333, "grad_norm": 0.8267048597335815, "learning_rate": 0.00029393076160976915, "loss": 3.9923, "step": 45430 }, { "epoch": 0.09466666666666666, "grad_norm": 0.8272232413291931, "learning_rate": 0.0002939279853491982, "loss": 4.1674, "step": 45440 }, { "epoch": 0.0946875, "grad_norm": 0.7564824819564819, "learning_rate": 0.0002939252084669154, "loss": 4.0907, "step": 45450 }, { "epoch": 0.09470833333333334, "grad_norm": 0.7972956895828247, "learning_rate": 0.00029392243096293267, "loss": 3.9741, "step": 45460 }, { "epoch": 0.09472916666666667, "grad_norm": 0.851256787776947, "learning_rate": 0.00029391965283726197, "loss": 3.9542, "step": 45470 }, { "epoch": 0.09475, "grad_norm": 0.7839607000350952, "learning_rate": 0.0002939168740899153, "loss": 4.078, "step": 45480 }, { "epoch": 0.09477083333333333, "grad_norm": 0.7978137135505676, "learning_rate": 0.0002939140947209048, "loss": 4.011, "step": 45490 }, { "epoch": 0.09479166666666666, "grad_norm": 0.7750713229179382, "learning_rate": 0.0002939113147302423, "loss": 4.0348, "step": 45500 }, { "epoch": 0.0948125, "grad_norm": 0.8086476922035217, "learning_rate": 0.00029390853411793993, "loss": 4.1319, "step": 45510 }, { "epoch": 0.09483333333333334, "grad_norm": 0.7548931837081909, "learning_rate": 0.00029390575288400965, "loss": 3.9, "step": 45520 }, { "epoch": 0.09485416666666667, "grad_norm": 0.8632543683052063, "learning_rate": 0.00029390297102846344, "loss": 4.1245, "step": 45530 }, { "epoch": 0.094875, "grad_norm": 0.8787257075309753, "learning_rate": 0.0002939001885513134, "loss": 3.9381, "step": 45540 }, { "epoch": 0.09489583333333333, "grad_norm": 0.8995476961135864, "learning_rate": 0.00029389740545257147, "loss": 4.0267, "step": 45550 }, { "epoch": 0.09491666666666666, "grad_norm": 0.8561380505561829, "learning_rate": 0.0002938946217322498, "loss": 4.1564, "step": 45560 }, { "epoch": 0.0949375, "grad_norm": 0.7836742997169495, "learning_rate": 0.0002938918373903602, "loss": 3.9547, "step": 45570 }, { "epoch": 0.09495833333333334, "grad_norm": 0.7427635192871094, "learning_rate": 0.00029388905242691484, "loss": 4.0397, "step": 45580 }, { "epoch": 0.09497916666666667, "grad_norm": 0.856387734413147, "learning_rate": 0.00029388626684192576, "loss": 4.0324, "step": 45590 }, { "epoch": 0.095, "grad_norm": 0.8420458436012268, "learning_rate": 0.00029388348063540495, "loss": 4.0306, "step": 45600 }, { "epoch": 0.09502083333333333, "grad_norm": 0.8015421032905579, "learning_rate": 0.0002938806938073645, "loss": 3.9155, "step": 45610 }, { "epoch": 0.09504166666666666, "grad_norm": 0.763532280921936, "learning_rate": 0.0002938779063578164, "loss": 4.0875, "step": 45620 }, { "epoch": 0.0950625, "grad_norm": 0.8707883954048157, "learning_rate": 0.0002938751182867726, "loss": 4.0439, "step": 45630 }, { "epoch": 0.09508333333333334, "grad_norm": 0.7776477336883545, "learning_rate": 0.00029387232959424527, "loss": 4.099, "step": 45640 }, { "epoch": 0.09510416666666667, "grad_norm": 0.8542993068695068, "learning_rate": 0.00029386954028024653, "loss": 3.9848, "step": 45650 }, { "epoch": 0.095125, "grad_norm": 0.9668006300926208, "learning_rate": 0.0002938667503447882, "loss": 3.8554, "step": 45660 }, { "epoch": 0.09514583333333333, "grad_norm": 0.8329102993011475, "learning_rate": 0.00029386395978788253, "loss": 4.0377, "step": 45670 }, { "epoch": 0.09516666666666666, "grad_norm": 0.7556877136230469, "learning_rate": 0.00029386116860954145, "loss": 3.9923, "step": 45680 }, { "epoch": 0.0951875, "grad_norm": 0.8933076858520508, "learning_rate": 0.0002938583768097771, "loss": 4.0122, "step": 45690 }, { "epoch": 0.09520833333333334, "grad_norm": 0.7948035001754761, "learning_rate": 0.0002938555843886015, "loss": 3.8089, "step": 45700 }, { "epoch": 0.09522916666666667, "grad_norm": 0.7730541825294495, "learning_rate": 0.00029385279134602673, "loss": 4.0102, "step": 45710 }, { "epoch": 0.09525, "grad_norm": 0.7822456359863281, "learning_rate": 0.0002938499976820648, "loss": 3.9779, "step": 45720 }, { "epoch": 0.09527083333333333, "grad_norm": 0.7689204812049866, "learning_rate": 0.0002938472033967278, "loss": 4.1424, "step": 45730 }, { "epoch": 0.09529166666666666, "grad_norm": 0.8548687696456909, "learning_rate": 0.0002938444084900279, "loss": 4.1685, "step": 45740 }, { "epoch": 0.0953125, "grad_norm": 0.7702450752258301, "learning_rate": 0.00029384161296197705, "loss": 3.897, "step": 45750 }, { "epoch": 0.09533333333333334, "grad_norm": 0.9607065320014954, "learning_rate": 0.0002938388168125874, "loss": 4.0562, "step": 45760 }, { "epoch": 0.09535416666666667, "grad_norm": 0.6935707926750183, "learning_rate": 0.00029383602004187095, "loss": 3.9475, "step": 45770 }, { "epoch": 0.095375, "grad_norm": 0.9489383101463318, "learning_rate": 0.0002938332226498398, "loss": 3.8986, "step": 45780 }, { "epoch": 0.09539583333333333, "grad_norm": 0.6949952840805054, "learning_rate": 0.00029383042463650616, "loss": 3.7916, "step": 45790 }, { "epoch": 0.09541666666666666, "grad_norm": 0.8038750886917114, "learning_rate": 0.000293827626001882, "loss": 3.9577, "step": 45800 }, { "epoch": 0.0954375, "grad_norm": 0.8259865045547485, "learning_rate": 0.00029382482674597933, "loss": 4.1713, "step": 45810 }, { "epoch": 0.09545833333333334, "grad_norm": 0.7633161544799805, "learning_rate": 0.00029382202686881046, "loss": 4.1554, "step": 45820 }, { "epoch": 0.09547916666666667, "grad_norm": 0.905838668346405, "learning_rate": 0.0002938192263703873, "loss": 3.9201, "step": 45830 }, { "epoch": 0.0955, "grad_norm": 0.7080432772636414, "learning_rate": 0.00029381642525072197, "loss": 4.0738, "step": 45840 }, { "epoch": 0.09552083333333333, "grad_norm": 0.7999567985534668, "learning_rate": 0.0002938136235098267, "loss": 3.9494, "step": 45850 }, { "epoch": 0.09554166666666666, "grad_norm": 0.859424352645874, "learning_rate": 0.00029381082114771345, "loss": 3.9803, "step": 45860 }, { "epoch": 0.0955625, "grad_norm": 0.8311036825180054, "learning_rate": 0.00029380801816439436, "loss": 3.8966, "step": 45870 }, { "epoch": 0.09558333333333334, "grad_norm": 0.8434373736381531, "learning_rate": 0.00029380521455988164, "loss": 3.8801, "step": 45880 }, { "epoch": 0.09560416666666667, "grad_norm": 0.8669942617416382, "learning_rate": 0.0002938024103341872, "loss": 3.9971, "step": 45890 }, { "epoch": 0.095625, "grad_norm": 0.8655198216438293, "learning_rate": 0.00029379960548732334, "loss": 3.9539, "step": 45900 }, { "epoch": 0.09564583333333333, "grad_norm": 0.8112446069717407, "learning_rate": 0.0002937968000193021, "loss": 4.0565, "step": 45910 }, { "epoch": 0.09566666666666666, "grad_norm": 0.8392683267593384, "learning_rate": 0.00029379399393013555, "loss": 4.0648, "step": 45920 }, { "epoch": 0.0956875, "grad_norm": 0.6865496635437012, "learning_rate": 0.0002937911872198359, "loss": 3.9448, "step": 45930 }, { "epoch": 0.09570833333333334, "grad_norm": 0.777849555015564, "learning_rate": 0.0002937883798884152, "loss": 4.0476, "step": 45940 }, { "epoch": 0.09572916666666667, "grad_norm": 0.776465117931366, "learning_rate": 0.0002937855719358857, "loss": 3.9991, "step": 45950 }, { "epoch": 0.09575, "grad_norm": 0.7091624140739441, "learning_rate": 0.0002937827633622594, "loss": 4.024, "step": 45960 }, { "epoch": 0.09577083333333333, "grad_norm": 0.7408348321914673, "learning_rate": 0.0002937799541675485, "loss": 3.955, "step": 45970 }, { "epoch": 0.09579166666666666, "grad_norm": 0.7853039503097534, "learning_rate": 0.00029377714435176503, "loss": 4.1042, "step": 45980 }, { "epoch": 0.0958125, "grad_norm": 0.6806604266166687, "learning_rate": 0.0002937743339149213, "loss": 3.9942, "step": 45990 }, { "epoch": 0.09583333333333334, "grad_norm": 0.8249806761741638, "learning_rate": 0.00029377152285702934, "loss": 3.8743, "step": 46000 }, { "epoch": 0.09583333333333334, "eval_loss": 4.299300193786621, "eval_runtime": 12.5369, "eval_samples_per_second": 0.798, "eval_steps_per_second": 0.239, "step": 46000 }, { "epoch": 0.09585416666666667, "grad_norm": 0.8441017270088196, "learning_rate": 0.00029376871117810124, "loss": 3.6973, "step": 46010 }, { "epoch": 0.095875, "grad_norm": 0.8141298890113831, "learning_rate": 0.0002937658988781493, "loss": 3.9546, "step": 46020 }, { "epoch": 0.09589583333333333, "grad_norm": 0.8308836817741394, "learning_rate": 0.00029376308595718554, "loss": 4.0225, "step": 46030 }, { "epoch": 0.09591666666666666, "grad_norm": 0.8066573143005371, "learning_rate": 0.00029376027241522217, "loss": 4.0748, "step": 46040 }, { "epoch": 0.0959375, "grad_norm": 0.6995230913162231, "learning_rate": 0.0002937574582522713, "loss": 4.0718, "step": 46050 }, { "epoch": 0.09595833333333334, "grad_norm": 1.101096272468567, "learning_rate": 0.00029375464346834514, "loss": 4.1021, "step": 46060 }, { "epoch": 0.09597916666666667, "grad_norm": 0.8136130571365356, "learning_rate": 0.00029375182806345583, "loss": 4.1025, "step": 46070 }, { "epoch": 0.096, "grad_norm": 0.8257946372032166, "learning_rate": 0.0002937490120376155, "loss": 3.9366, "step": 46080 }, { "epoch": 0.09602083333333333, "grad_norm": 0.9192647933959961, "learning_rate": 0.0002937461953908363, "loss": 4.0374, "step": 46090 }, { "epoch": 0.09604166666666666, "grad_norm": 0.8636994957923889, "learning_rate": 0.00029374337812313047, "loss": 4.038, "step": 46100 }, { "epoch": 0.0960625, "grad_norm": 0.7460533976554871, "learning_rate": 0.00029374056023451017, "loss": 4.0881, "step": 46110 }, { "epoch": 0.09608333333333334, "grad_norm": 0.7628961801528931, "learning_rate": 0.00029373774172498755, "loss": 3.8599, "step": 46120 }, { "epoch": 0.09610416666666667, "grad_norm": 0.8539522886276245, "learning_rate": 0.00029373492259457477, "loss": 3.9737, "step": 46130 }, { "epoch": 0.096125, "grad_norm": 0.7865321040153503, "learning_rate": 0.000293732102843284, "loss": 3.9836, "step": 46140 }, { "epoch": 0.09614583333333333, "grad_norm": 0.8417372107505798, "learning_rate": 0.0002937292824711275, "loss": 3.9105, "step": 46150 }, { "epoch": 0.09616666666666666, "grad_norm": 0.7831483483314514, "learning_rate": 0.0002937264614781173, "loss": 4.1743, "step": 46160 }, { "epoch": 0.0961875, "grad_norm": 0.8776770830154419, "learning_rate": 0.0002937236398642657, "loss": 4.1245, "step": 46170 }, { "epoch": 0.09620833333333334, "grad_norm": 0.7629642486572266, "learning_rate": 0.0002937208176295849, "loss": 3.7795, "step": 46180 }, { "epoch": 0.09622916666666667, "grad_norm": 0.8218974471092224, "learning_rate": 0.00029371799477408703, "loss": 3.8597, "step": 46190 }, { "epoch": 0.09625, "grad_norm": 0.7103642225265503, "learning_rate": 0.00029371517129778434, "loss": 3.9874, "step": 46200 }, { "epoch": 0.09627083333333333, "grad_norm": 0.9606780409812927, "learning_rate": 0.00029371234720068894, "loss": 3.8169, "step": 46210 }, { "epoch": 0.09629166666666666, "grad_norm": 0.9901225566864014, "learning_rate": 0.00029370952248281316, "loss": 4.1948, "step": 46220 }, { "epoch": 0.0963125, "grad_norm": 0.8903389573097229, "learning_rate": 0.0002937066971441691, "loss": 4.0652, "step": 46230 }, { "epoch": 0.09633333333333334, "grad_norm": 0.834360659122467, "learning_rate": 0.00029370387118476894, "loss": 4.1544, "step": 46240 }, { "epoch": 0.09635416666666667, "grad_norm": 0.8067901730537415, "learning_rate": 0.000293701044604625, "loss": 4.1274, "step": 46250 }, { "epoch": 0.096375, "grad_norm": 0.8308467268943787, "learning_rate": 0.0002936982174037494, "loss": 4.0566, "step": 46260 }, { "epoch": 0.09639583333333333, "grad_norm": 0.7196791768074036, "learning_rate": 0.00029369538958215436, "loss": 3.9862, "step": 46270 }, { "epoch": 0.09641666666666666, "grad_norm": 0.714933454990387, "learning_rate": 0.00029369256113985216, "loss": 3.9886, "step": 46280 }, { "epoch": 0.0964375, "grad_norm": 0.8049482107162476, "learning_rate": 0.00029368973207685495, "loss": 4.0938, "step": 46290 }, { "epoch": 0.09645833333333333, "grad_norm": 0.8619410395622253, "learning_rate": 0.000293686902393175, "loss": 3.9439, "step": 46300 }, { "epoch": 0.09647916666666667, "grad_norm": 0.7825434803962708, "learning_rate": 0.0002936840720888245, "loss": 3.9062, "step": 46310 }, { "epoch": 0.0965, "grad_norm": 1.0062544345855713, "learning_rate": 0.00029368124116381565, "loss": 3.8805, "step": 46320 }, { "epoch": 0.09652083333333333, "grad_norm": 0.7943782210350037, "learning_rate": 0.0002936784096181607, "loss": 3.9866, "step": 46330 }, { "epoch": 0.09654166666666666, "grad_norm": 0.9655819535255432, "learning_rate": 0.00029367557745187193, "loss": 3.9531, "step": 46340 }, { "epoch": 0.0965625, "grad_norm": 0.9315405488014221, "learning_rate": 0.00029367274466496156, "loss": 3.9954, "step": 46350 }, { "epoch": 0.09658333333333333, "grad_norm": 0.8463749289512634, "learning_rate": 0.0002936699112574418, "loss": 4.0735, "step": 46360 }, { "epoch": 0.09660416666666667, "grad_norm": 0.716788649559021, "learning_rate": 0.00029366707722932483, "loss": 4.0551, "step": 46370 }, { "epoch": 0.096625, "grad_norm": 0.7077880501747131, "learning_rate": 0.000293664242580623, "loss": 3.922, "step": 46380 }, { "epoch": 0.09664583333333333, "grad_norm": 0.8764641880989075, "learning_rate": 0.00029366140731134846, "loss": 3.9687, "step": 46390 }, { "epoch": 0.09666666666666666, "grad_norm": 0.7916440367698669, "learning_rate": 0.00029365857142151354, "loss": 4.2179, "step": 46400 }, { "epoch": 0.0966875, "grad_norm": 0.7199515104293823, "learning_rate": 0.00029365573491113047, "loss": 4.0171, "step": 46410 }, { "epoch": 0.09670833333333333, "grad_norm": 0.8514782786369324, "learning_rate": 0.0002936528977802115, "loss": 4.006, "step": 46420 }, { "epoch": 0.09672916666666667, "grad_norm": 0.8852013945579529, "learning_rate": 0.0002936500600287688, "loss": 3.9036, "step": 46430 }, { "epoch": 0.09675, "grad_norm": 0.8588011860847473, "learning_rate": 0.00029364722165681477, "loss": 4.0568, "step": 46440 }, { "epoch": 0.09677083333333333, "grad_norm": 0.8685310482978821, "learning_rate": 0.0002936443826643616, "loss": 3.9223, "step": 46450 }, { "epoch": 0.09679166666666666, "grad_norm": 0.7856481075286865, "learning_rate": 0.0002936415430514215, "loss": 3.8483, "step": 46460 }, { "epoch": 0.0968125, "grad_norm": 0.7501025795936584, "learning_rate": 0.00029363870281800685, "loss": 4.1985, "step": 46470 }, { "epoch": 0.09683333333333333, "grad_norm": 0.7500737309455872, "learning_rate": 0.00029363586196412984, "loss": 4.0021, "step": 46480 }, { "epoch": 0.09685416666666667, "grad_norm": 0.9198769330978394, "learning_rate": 0.00029363302048980274, "loss": 3.984, "step": 46490 }, { "epoch": 0.096875, "grad_norm": 0.7681224942207336, "learning_rate": 0.0002936301783950379, "loss": 4.0098, "step": 46500 }, { "epoch": 0.09689583333333333, "grad_norm": 0.9878162741661072, "learning_rate": 0.0002936273356798475, "loss": 3.9974, "step": 46510 }, { "epoch": 0.09691666666666666, "grad_norm": 0.7782607078552246, "learning_rate": 0.00029362449234424386, "loss": 4.0058, "step": 46520 }, { "epoch": 0.0969375, "grad_norm": 0.7389387488365173, "learning_rate": 0.0002936216483882393, "loss": 4.0637, "step": 46530 }, { "epoch": 0.09695833333333333, "grad_norm": 0.8099526762962341, "learning_rate": 0.000293618803811846, "loss": 4.0899, "step": 46540 }, { "epoch": 0.09697916666666667, "grad_norm": 0.8525927066802979, "learning_rate": 0.00029361595861507637, "loss": 3.9868, "step": 46550 }, { "epoch": 0.097, "grad_norm": 0.7432307004928589, "learning_rate": 0.0002936131127979426, "loss": 4.008, "step": 46560 }, { "epoch": 0.09702083333333333, "grad_norm": 0.849456250667572, "learning_rate": 0.0002936102663604571, "loss": 4.0013, "step": 46570 }, { "epoch": 0.09704166666666666, "grad_norm": 0.8985823392868042, "learning_rate": 0.0002936074193026321, "loss": 4.0003, "step": 46580 }, { "epoch": 0.0970625, "grad_norm": 0.7941288352012634, "learning_rate": 0.0002936045716244798, "loss": 3.9512, "step": 46590 }, { "epoch": 0.09708333333333333, "grad_norm": 0.7117406725883484, "learning_rate": 0.00029360172332601264, "loss": 4.107, "step": 46600 }, { "epoch": 0.09710416666666667, "grad_norm": 0.8271649479866028, "learning_rate": 0.0002935988744072429, "loss": 4.0049, "step": 46610 }, { "epoch": 0.097125, "grad_norm": 0.8262935876846313, "learning_rate": 0.00029359602486818284, "loss": 3.9537, "step": 46620 }, { "epoch": 0.09714583333333333, "grad_norm": 0.813737154006958, "learning_rate": 0.00029359317470884476, "loss": 3.9909, "step": 46630 }, { "epoch": 0.09716666666666667, "grad_norm": 0.8304045796394348, "learning_rate": 0.00029359032392924106, "loss": 4.2131, "step": 46640 }, { "epoch": 0.0971875, "grad_norm": 0.825265109539032, "learning_rate": 0.00029358747252938394, "loss": 4.1037, "step": 46650 }, { "epoch": 0.09720833333333333, "grad_norm": 0.7475466728210449, "learning_rate": 0.0002935846205092858, "loss": 4.085, "step": 46660 }, { "epoch": 0.09722916666666667, "grad_norm": 0.8651233911514282, "learning_rate": 0.00029358176786895896, "loss": 4.0821, "step": 46670 }, { "epoch": 0.09725, "grad_norm": 0.7834148406982422, "learning_rate": 0.0002935789146084157, "loss": 3.9834, "step": 46680 }, { "epoch": 0.09727083333333333, "grad_norm": 0.9636504650115967, "learning_rate": 0.0002935760607276684, "loss": 4.084, "step": 46690 }, { "epoch": 0.09729166666666667, "grad_norm": 0.8700416684150696, "learning_rate": 0.00029357320622672926, "loss": 3.9454, "step": 46700 }, { "epoch": 0.0973125, "grad_norm": 0.8495625257492065, "learning_rate": 0.0002935703511056108, "loss": 4.0206, "step": 46710 }, { "epoch": 0.09733333333333333, "grad_norm": 0.8255255222320557, "learning_rate": 0.00029356749536432514, "loss": 4.0458, "step": 46720 }, { "epoch": 0.09735416666666667, "grad_norm": 0.8789747953414917, "learning_rate": 0.0002935646390028848, "loss": 4.0792, "step": 46730 }, { "epoch": 0.097375, "grad_norm": 0.7113121747970581, "learning_rate": 0.00029356178202130206, "loss": 4.0351, "step": 46740 }, { "epoch": 0.09739583333333333, "grad_norm": 0.7882273197174072, "learning_rate": 0.00029355892441958924, "loss": 4.0773, "step": 46750 }, { "epoch": 0.09741666666666667, "grad_norm": 0.8116236329078674, "learning_rate": 0.00029355606619775864, "loss": 3.9887, "step": 46760 }, { "epoch": 0.0974375, "grad_norm": 0.8258769512176514, "learning_rate": 0.00029355320735582267, "loss": 4.1052, "step": 46770 }, { "epoch": 0.09745833333333333, "grad_norm": 0.7701417803764343, "learning_rate": 0.00029355034789379375, "loss": 4.0449, "step": 46780 }, { "epoch": 0.09747916666666667, "grad_norm": 0.7965903282165527, "learning_rate": 0.00029354748781168407, "loss": 3.9912, "step": 46790 }, { "epoch": 0.0975, "grad_norm": 0.7308945059776306, "learning_rate": 0.00029354462710950605, "loss": 3.9834, "step": 46800 }, { "epoch": 0.09752083333333333, "grad_norm": 0.7368971705436707, "learning_rate": 0.0002935417657872721, "loss": 3.8771, "step": 46810 }, { "epoch": 0.09754166666666667, "grad_norm": 0.8631055355072021, "learning_rate": 0.00029353890384499454, "loss": 3.939, "step": 46820 }, { "epoch": 0.0975625, "grad_norm": 0.7141445279121399, "learning_rate": 0.0002935360412826857, "loss": 3.7813, "step": 46830 }, { "epoch": 0.09758333333333333, "grad_norm": 0.8616940975189209, "learning_rate": 0.000293533178100358, "loss": 4.0156, "step": 46840 }, { "epoch": 0.09760416666666667, "grad_norm": 0.7957085967063904, "learning_rate": 0.00029353031429802377, "loss": 4.0405, "step": 46850 }, { "epoch": 0.097625, "grad_norm": 0.7393426299095154, "learning_rate": 0.0002935274498756954, "loss": 3.7949, "step": 46860 }, { "epoch": 0.09764583333333333, "grad_norm": 0.7329308390617371, "learning_rate": 0.0002935245848333853, "loss": 3.9535, "step": 46870 }, { "epoch": 0.09766666666666667, "grad_norm": 0.8251875042915344, "learning_rate": 0.0002935217191711058, "loss": 3.9549, "step": 46880 }, { "epoch": 0.0976875, "grad_norm": 0.8141350150108337, "learning_rate": 0.0002935188528888692, "loss": 3.8621, "step": 46890 }, { "epoch": 0.09770833333333333, "grad_norm": 1.0813504457473755, "learning_rate": 0.000293515985986688, "loss": 4.182, "step": 46900 }, { "epoch": 0.09772916666666667, "grad_norm": 0.7639939785003662, "learning_rate": 0.0002935131184645746, "loss": 3.9977, "step": 46910 }, { "epoch": 0.09775, "grad_norm": 0.7103754878044128, "learning_rate": 0.00029351025032254126, "loss": 4.1002, "step": 46920 }, { "epoch": 0.09777083333333333, "grad_norm": 0.69572913646698, "learning_rate": 0.00029350738156060053, "loss": 4.0071, "step": 46930 }, { "epoch": 0.09779166666666667, "grad_norm": 0.6946271061897278, "learning_rate": 0.00029350451217876466, "loss": 4.1441, "step": 46940 }, { "epoch": 0.0978125, "grad_norm": 0.7504689693450928, "learning_rate": 0.0002935016421770461, "loss": 3.9185, "step": 46950 }, { "epoch": 0.09783333333333333, "grad_norm": 0.7509973049163818, "learning_rate": 0.0002934987715554573, "loss": 3.9402, "step": 46960 }, { "epoch": 0.09785416666666667, "grad_norm": 0.6871477961540222, "learning_rate": 0.0002934959003140105, "loss": 3.9295, "step": 46970 }, { "epoch": 0.097875, "grad_norm": 0.8557692170143127, "learning_rate": 0.0002934930284527183, "loss": 4.1306, "step": 46980 }, { "epoch": 0.09789583333333333, "grad_norm": 1.0151721239089966, "learning_rate": 0.000293490155971593, "loss": 4.1212, "step": 46990 }, { "epoch": 0.09791666666666667, "grad_norm": 0.7988532781600952, "learning_rate": 0.00029348728287064704, "loss": 3.956, "step": 47000 }, { "epoch": 0.09791666666666667, "eval_loss": 4.286574363708496, "eval_runtime": 12.837, "eval_samples_per_second": 0.779, "eval_steps_per_second": 0.234, "step": 47000 }, { "epoch": 0.0979375, "grad_norm": 0.8488372564315796, "learning_rate": 0.00029348440914989273, "loss": 4.0811, "step": 47010 }, { "epoch": 0.09795833333333333, "grad_norm": 0.9412222504615784, "learning_rate": 0.00029348153480934265, "loss": 4.0637, "step": 47020 }, { "epoch": 0.09797916666666667, "grad_norm": 0.7563731670379639, "learning_rate": 0.0002934786598490091, "loss": 3.9543, "step": 47030 }, { "epoch": 0.098, "grad_norm": 0.8456201553344727, "learning_rate": 0.00029347578426890456, "loss": 3.9229, "step": 47040 }, { "epoch": 0.09802083333333333, "grad_norm": 0.8371520638465881, "learning_rate": 0.00029347290806904143, "loss": 3.8122, "step": 47050 }, { "epoch": 0.09804166666666667, "grad_norm": 0.7771221995353699, "learning_rate": 0.00029347003124943207, "loss": 4.1252, "step": 47060 }, { "epoch": 0.0980625, "grad_norm": 0.7986473441123962, "learning_rate": 0.000293467153810089, "loss": 3.9943, "step": 47070 }, { "epoch": 0.09808333333333333, "grad_norm": 0.8942128419876099, "learning_rate": 0.0002934642757510246, "loss": 3.9841, "step": 47080 }, { "epoch": 0.09810416666666667, "grad_norm": 0.9035899639129639, "learning_rate": 0.00029346139707225134, "loss": 3.7435, "step": 47090 }, { "epoch": 0.098125, "grad_norm": 0.8319689035415649, "learning_rate": 0.0002934585177737816, "loss": 3.894, "step": 47100 }, { "epoch": 0.09814583333333333, "grad_norm": 0.7116249203681946, "learning_rate": 0.0002934556378556279, "loss": 4.0223, "step": 47110 }, { "epoch": 0.09816666666666667, "grad_norm": 0.8204658031463623, "learning_rate": 0.0002934527573178026, "loss": 4.0601, "step": 47120 }, { "epoch": 0.0981875, "grad_norm": 0.883533239364624, "learning_rate": 0.00029344987616031817, "loss": 3.8983, "step": 47130 }, { "epoch": 0.09820833333333333, "grad_norm": 0.9911308884620667, "learning_rate": 0.000293446994383187, "loss": 4.0151, "step": 47140 }, { "epoch": 0.09822916666666667, "grad_norm": 0.7664318680763245, "learning_rate": 0.0002934441119864217, "loss": 4.0221, "step": 47150 }, { "epoch": 0.09825, "grad_norm": 0.8289836645126343, "learning_rate": 0.0002934412289700345, "loss": 4.1253, "step": 47160 }, { "epoch": 0.09827083333333334, "grad_norm": 0.8632632493972778, "learning_rate": 0.00029343834533403804, "loss": 3.9823, "step": 47170 }, { "epoch": 0.09829166666666667, "grad_norm": 0.895704984664917, "learning_rate": 0.0002934354610784447, "loss": 4.089, "step": 47180 }, { "epoch": 0.0983125, "grad_norm": 0.734760582447052, "learning_rate": 0.00029343257620326695, "loss": 3.9753, "step": 47190 }, { "epoch": 0.09833333333333333, "grad_norm": 0.9424364566802979, "learning_rate": 0.0002934296907085173, "loss": 3.9707, "step": 47200 }, { "epoch": 0.09835416666666667, "grad_norm": 0.8086329102516174, "learning_rate": 0.00029342680459420805, "loss": 4.017, "step": 47210 }, { "epoch": 0.098375, "grad_norm": 0.7572298645973206, "learning_rate": 0.0002934239178603518, "loss": 4.1001, "step": 47220 }, { "epoch": 0.09839583333333334, "grad_norm": 0.7728487253189087, "learning_rate": 0.00029342103050696103, "loss": 4.1189, "step": 47230 }, { "epoch": 0.09841666666666667, "grad_norm": 0.8716822862625122, "learning_rate": 0.0002934181425340482, "loss": 3.9293, "step": 47240 }, { "epoch": 0.0984375, "grad_norm": 0.8844538331031799, "learning_rate": 0.0002934152539416257, "loss": 4.1568, "step": 47250 }, { "epoch": 0.09845833333333333, "grad_norm": 0.7625339031219482, "learning_rate": 0.0002934123647297061, "loss": 3.91, "step": 47260 }, { "epoch": 0.09847916666666667, "grad_norm": 0.7267929315567017, "learning_rate": 0.00029340947489830184, "loss": 4.0305, "step": 47270 }, { "epoch": 0.0985, "grad_norm": 0.8579215407371521, "learning_rate": 0.0002934065844474254, "loss": 3.9841, "step": 47280 }, { "epoch": 0.09852083333333334, "grad_norm": 0.7883702516555786, "learning_rate": 0.00029340369337708933, "loss": 4.2355, "step": 47290 }, { "epoch": 0.09854166666666667, "grad_norm": 0.7911539673805237, "learning_rate": 0.00029340080168730603, "loss": 3.8045, "step": 47300 }, { "epoch": 0.0985625, "grad_norm": 0.7253926396369934, "learning_rate": 0.00029339790937808806, "loss": 4.0086, "step": 47310 }, { "epoch": 0.09858333333333333, "grad_norm": 0.8216734528541565, "learning_rate": 0.0002933950164494479, "loss": 3.9209, "step": 47320 }, { "epoch": 0.09860416666666667, "grad_norm": 0.8695818781852722, "learning_rate": 0.00029339212290139795, "loss": 4.2289, "step": 47330 }, { "epoch": 0.098625, "grad_norm": 0.7620000243186951, "learning_rate": 0.0002933892287339508, "loss": 3.9978, "step": 47340 }, { "epoch": 0.09864583333333334, "grad_norm": 0.7502625584602356, "learning_rate": 0.00029338633394711895, "loss": 4.2342, "step": 47350 }, { "epoch": 0.09866666666666667, "grad_norm": 0.8333707451820374, "learning_rate": 0.00029338343854091493, "loss": 4.1377, "step": 47360 }, { "epoch": 0.0986875, "grad_norm": 0.7773231863975525, "learning_rate": 0.0002933805425153512, "loss": 3.899, "step": 47370 }, { "epoch": 0.09870833333333333, "grad_norm": 0.7568817138671875, "learning_rate": 0.0002933776458704403, "loss": 3.919, "step": 47380 }, { "epoch": 0.09872916666666667, "grad_norm": 0.7336480021476746, "learning_rate": 0.0002933747486061947, "loss": 3.9067, "step": 47390 }, { "epoch": 0.09875, "grad_norm": 0.9175287485122681, "learning_rate": 0.0002933718507226269, "loss": 4.1145, "step": 47400 }, { "epoch": 0.09877083333333334, "grad_norm": 0.6970336437225342, "learning_rate": 0.00029336895221974946, "loss": 3.9954, "step": 47410 }, { "epoch": 0.09879166666666667, "grad_norm": 0.7734704613685608, "learning_rate": 0.00029336605309757493, "loss": 3.9061, "step": 47420 }, { "epoch": 0.0988125, "grad_norm": 0.8274029493331909, "learning_rate": 0.0002933631533561158, "loss": 3.8471, "step": 47430 }, { "epoch": 0.09883333333333333, "grad_norm": 0.788686215877533, "learning_rate": 0.0002933602529953846, "loss": 4.0784, "step": 47440 }, { "epoch": 0.09885416666666667, "grad_norm": 0.9297365546226501, "learning_rate": 0.00029335735201539383, "loss": 3.8914, "step": 47450 }, { "epoch": 0.098875, "grad_norm": 0.7887527942657471, "learning_rate": 0.0002933544504161561, "loss": 3.8535, "step": 47460 }, { "epoch": 0.09889583333333334, "grad_norm": 0.7966414093971252, "learning_rate": 0.0002933515481976838, "loss": 4.0694, "step": 47470 }, { "epoch": 0.09891666666666667, "grad_norm": 0.7667539119720459, "learning_rate": 0.0002933486453599896, "loss": 4.0607, "step": 47480 }, { "epoch": 0.0989375, "grad_norm": 0.9922259449958801, "learning_rate": 0.000293345741903086, "loss": 3.9776, "step": 47490 }, { "epoch": 0.09895833333333333, "grad_norm": 0.8321512937545776, "learning_rate": 0.0002933428378269855, "loss": 3.941, "step": 47500 }, { "epoch": 0.09897916666666666, "grad_norm": 0.873842179775238, "learning_rate": 0.00029333993313170075, "loss": 4.1358, "step": 47510 }, { "epoch": 0.099, "grad_norm": 0.7720524072647095, "learning_rate": 0.00029333702781724413, "loss": 3.946, "step": 47520 }, { "epoch": 0.09902083333333334, "grad_norm": 0.7630630731582642, "learning_rate": 0.0002933341218836284, "loss": 3.9112, "step": 47530 }, { "epoch": 0.09904166666666667, "grad_norm": 0.7275964617729187, "learning_rate": 0.0002933312153308659, "loss": 4.081, "step": 47540 }, { "epoch": 0.0990625, "grad_norm": 0.9284539222717285, "learning_rate": 0.0002933283081589693, "loss": 4.0526, "step": 47550 }, { "epoch": 0.09908333333333333, "grad_norm": 0.9822106957435608, "learning_rate": 0.0002933254003679512, "loss": 4.1105, "step": 47560 }, { "epoch": 0.09910416666666666, "grad_norm": 0.8202856779098511, "learning_rate": 0.0002933224919578241, "loss": 3.9995, "step": 47570 }, { "epoch": 0.099125, "grad_norm": 0.8212708234786987, "learning_rate": 0.0002933195829286005, "loss": 4.076, "step": 47580 }, { "epoch": 0.09914583333333334, "grad_norm": 0.7797238230705261, "learning_rate": 0.000293316673280293, "loss": 3.9969, "step": 47590 }, { "epoch": 0.09916666666666667, "grad_norm": 0.8424199819564819, "learning_rate": 0.0002933137630129143, "loss": 3.9508, "step": 47600 }, { "epoch": 0.0991875, "grad_norm": 0.7882276177406311, "learning_rate": 0.0002933108521264768, "loss": 4.0074, "step": 47610 }, { "epoch": 0.09920833333333333, "grad_norm": 0.8117292523384094, "learning_rate": 0.00029330794062099323, "loss": 4.1246, "step": 47620 }, { "epoch": 0.09922916666666666, "grad_norm": 0.8007997870445251, "learning_rate": 0.000293305028496476, "loss": 4.1091, "step": 47630 }, { "epoch": 0.09925, "grad_norm": 0.8753410577774048, "learning_rate": 0.00029330211575293784, "loss": 3.9582, "step": 47640 }, { "epoch": 0.09927083333333334, "grad_norm": 0.8327863812446594, "learning_rate": 0.00029329920239039124, "loss": 4.1667, "step": 47650 }, { "epoch": 0.09929166666666667, "grad_norm": 0.6958761811256409, "learning_rate": 0.00029329628840884874, "loss": 3.9031, "step": 47660 }, { "epoch": 0.0993125, "grad_norm": 0.7629930973052979, "learning_rate": 0.0002932933738083231, "loss": 3.8925, "step": 47670 }, { "epoch": 0.09933333333333333, "grad_norm": 0.7567424178123474, "learning_rate": 0.00029329045858882667, "loss": 4.1094, "step": 47680 }, { "epoch": 0.09935416666666666, "grad_norm": 0.7268300652503967, "learning_rate": 0.0002932875427503723, "loss": 4.152, "step": 47690 }, { "epoch": 0.099375, "grad_norm": 0.7327772378921509, "learning_rate": 0.00029328462629297245, "loss": 3.9603, "step": 47700 }, { "epoch": 0.09939583333333334, "grad_norm": 0.709102988243103, "learning_rate": 0.0002932817092166397, "loss": 3.9712, "step": 47710 }, { "epoch": 0.09941666666666667, "grad_norm": 0.8208205103874207, "learning_rate": 0.0002932787915213867, "loss": 3.9861, "step": 47720 }, { "epoch": 0.0994375, "grad_norm": 0.7061445713043213, "learning_rate": 0.000293275873207226, "loss": 4.0136, "step": 47730 }, { "epoch": 0.09945833333333333, "grad_norm": 0.7958305478096008, "learning_rate": 0.00029327295427417023, "loss": 3.8072, "step": 47740 }, { "epoch": 0.09947916666666666, "grad_norm": 0.9317709803581238, "learning_rate": 0.000293270034722232, "loss": 4.0987, "step": 47750 }, { "epoch": 0.0995, "grad_norm": 0.7192344665527344, "learning_rate": 0.000293267114551424, "loss": 3.8612, "step": 47760 }, { "epoch": 0.09952083333333334, "grad_norm": 0.8794879913330078, "learning_rate": 0.00029326419376175876, "loss": 3.9788, "step": 47770 }, { "epoch": 0.09954166666666667, "grad_norm": 0.9681157469749451, "learning_rate": 0.00029326127235324885, "loss": 3.8749, "step": 47780 }, { "epoch": 0.0995625, "grad_norm": 0.8535354733467102, "learning_rate": 0.000293258350325907, "loss": 3.8568, "step": 47790 }, { "epoch": 0.09958333333333333, "grad_norm": 0.7619017958641052, "learning_rate": 0.00029325542767974575, "loss": 4.014, "step": 47800 }, { "epoch": 0.09960416666666666, "grad_norm": 0.802689790725708, "learning_rate": 0.0002932525044147778, "loss": 3.9159, "step": 47810 }, { "epoch": 0.099625, "grad_norm": 0.8904974460601807, "learning_rate": 0.0002932495805310157, "loss": 4.0193, "step": 47820 }, { "epoch": 0.09964583333333334, "grad_norm": 0.8420990705490112, "learning_rate": 0.00029324665602847215, "loss": 3.9607, "step": 47830 }, { "epoch": 0.09966666666666667, "grad_norm": 0.7978883981704712, "learning_rate": 0.0002932437309071597, "loss": 4.1455, "step": 47840 }, { "epoch": 0.0996875, "grad_norm": 0.8461341261863708, "learning_rate": 0.0002932408051670911, "loss": 3.8847, "step": 47850 }, { "epoch": 0.09970833333333333, "grad_norm": 0.7385954260826111, "learning_rate": 0.00029323787880827887, "loss": 3.8897, "step": 47860 }, { "epoch": 0.09972916666666666, "grad_norm": 0.7400155067443848, "learning_rate": 0.0002932349518307357, "loss": 4.0359, "step": 47870 }, { "epoch": 0.09975, "grad_norm": 0.7641866207122803, "learning_rate": 0.0002932320242344743, "loss": 3.9807, "step": 47880 }, { "epoch": 0.09977083333333334, "grad_norm": 0.7876996397972107, "learning_rate": 0.00029322909601950717, "loss": 3.977, "step": 47890 }, { "epoch": 0.09979166666666667, "grad_norm": 0.8762141466140747, "learning_rate": 0.00029322616718584704, "loss": 3.8671, "step": 47900 }, { "epoch": 0.0998125, "grad_norm": 0.78408282995224, "learning_rate": 0.0002932232377335066, "loss": 3.9272, "step": 47910 }, { "epoch": 0.09983333333333333, "grad_norm": 0.791938304901123, "learning_rate": 0.0002932203076624984, "loss": 4.1735, "step": 47920 }, { "epoch": 0.09985416666666666, "grad_norm": 0.8397022485733032, "learning_rate": 0.00029321737697283524, "loss": 4.0246, "step": 47930 }, { "epoch": 0.099875, "grad_norm": 0.845992922782898, "learning_rate": 0.00029321444566452967, "loss": 4.0681, "step": 47940 }, { "epoch": 0.09989583333333334, "grad_norm": 0.8215623497962952, "learning_rate": 0.0002932115137375944, "loss": 3.9697, "step": 47950 }, { "epoch": 0.09991666666666667, "grad_norm": 0.8136407136917114, "learning_rate": 0.00029320858119204207, "loss": 4.074, "step": 47960 }, { "epoch": 0.0999375, "grad_norm": 0.8700049519538879, "learning_rate": 0.0002932056480278853, "loss": 4.0678, "step": 47970 }, { "epoch": 0.09995833333333333, "grad_norm": 0.7943379282951355, "learning_rate": 0.0002932027142451369, "loss": 3.9094, "step": 47980 }, { "epoch": 0.09997916666666666, "grad_norm": 0.857939600944519, "learning_rate": 0.00029319977984380944, "loss": 4.0355, "step": 47990 }, { "epoch": 0.1, "grad_norm": 0.8543757796287537, "learning_rate": 0.0002931968448239156, "loss": 4.0474, "step": 48000 }, { "epoch": 0.1, "eval_loss": 4.289906978607178, "eval_runtime": 10.053, "eval_samples_per_second": 0.995, "eval_steps_per_second": 0.298, "step": 48000 }, { "epoch": 0.10002083333333334, "grad_norm": 0.8843062520027161, "learning_rate": 0.00029319390918546804, "loss": 3.9355, "step": 48010 }, { "epoch": 0.10004166666666667, "grad_norm": 0.816810131072998, "learning_rate": 0.0002931909729284795, "loss": 3.9121, "step": 48020 }, { "epoch": 0.1000625, "grad_norm": 0.773061215877533, "learning_rate": 0.00029318803605296264, "loss": 3.8712, "step": 48030 }, { "epoch": 0.10008333333333333, "grad_norm": 0.8586753010749817, "learning_rate": 0.0002931850985589301, "loss": 4.0974, "step": 48040 }, { "epoch": 0.10010416666666666, "grad_norm": 0.8092135190963745, "learning_rate": 0.00029318216044639463, "loss": 4.0471, "step": 48050 }, { "epoch": 0.100125, "grad_norm": 0.7748659253120422, "learning_rate": 0.00029317922171536896, "loss": 4.0627, "step": 48060 }, { "epoch": 0.10014583333333334, "grad_norm": 0.8715799450874329, "learning_rate": 0.0002931762823658657, "loss": 4.0038, "step": 48070 }, { "epoch": 0.10016666666666667, "grad_norm": 0.8398181200027466, "learning_rate": 0.0002931733423978975, "loss": 3.9143, "step": 48080 }, { "epoch": 0.1001875, "grad_norm": 0.8415820002555847, "learning_rate": 0.0002931704018114772, "loss": 4.1442, "step": 48090 }, { "epoch": 0.10020833333333333, "grad_norm": 0.7531724572181702, "learning_rate": 0.00029316746060661746, "loss": 3.9571, "step": 48100 }, { "epoch": 0.10022916666666666, "grad_norm": 0.752133309841156, "learning_rate": 0.0002931645187833309, "loss": 3.8803, "step": 48110 }, { "epoch": 0.10025, "grad_norm": 0.9217782020568848, "learning_rate": 0.00029316157634163035, "loss": 4.0354, "step": 48120 }, { "epoch": 0.10027083333333334, "grad_norm": 0.8473939895629883, "learning_rate": 0.0002931586332815284, "loss": 3.9859, "step": 48130 }, { "epoch": 0.10029166666666667, "grad_norm": 0.8177861571311951, "learning_rate": 0.00029315568960303784, "loss": 4.085, "step": 48140 }, { "epoch": 0.1003125, "grad_norm": 0.8352412581443787, "learning_rate": 0.0002931527453061714, "loss": 3.9094, "step": 48150 }, { "epoch": 0.10033333333333333, "grad_norm": 0.7417232394218445, "learning_rate": 0.0002931498003909417, "loss": 4.0231, "step": 48160 }, { "epoch": 0.10035416666666666, "grad_norm": 0.8653228878974915, "learning_rate": 0.0002931468548573616, "loss": 3.9814, "step": 48170 }, { "epoch": 0.100375, "grad_norm": 0.8144654035568237, "learning_rate": 0.0002931439087054436, "loss": 4.063, "step": 48180 }, { "epoch": 0.10039583333333334, "grad_norm": 0.7889935970306396, "learning_rate": 0.00029314096193520077, "loss": 3.8462, "step": 48190 }, { "epoch": 0.10041666666666667, "grad_norm": 0.8404820561408997, "learning_rate": 0.00029313801454664554, "loss": 4.0805, "step": 48200 }, { "epoch": 0.1004375, "grad_norm": 0.7923071384429932, "learning_rate": 0.00029313506653979074, "loss": 3.9353, "step": 48210 }, { "epoch": 0.10045833333333333, "grad_norm": 0.8893242478370667, "learning_rate": 0.0002931321179146491, "loss": 4.1147, "step": 48220 }, { "epoch": 0.10047916666666666, "grad_norm": 0.886955976486206, "learning_rate": 0.00029312916867123344, "loss": 4.1148, "step": 48230 }, { "epoch": 0.1005, "grad_norm": 0.7061347365379333, "learning_rate": 0.00029312621880955636, "loss": 3.8669, "step": 48240 }, { "epoch": 0.10052083333333334, "grad_norm": 0.8133607506752014, "learning_rate": 0.0002931232683296307, "loss": 4.0559, "step": 48250 }, { "epoch": 0.10054166666666667, "grad_norm": 0.7835643887519836, "learning_rate": 0.00029312031723146913, "loss": 3.9161, "step": 48260 }, { "epoch": 0.1005625, "grad_norm": 0.8083547353744507, "learning_rate": 0.00029311736551508453, "loss": 4.1201, "step": 48270 }, { "epoch": 0.10058333333333333, "grad_norm": 0.8246859908103943, "learning_rate": 0.00029311441318048947, "loss": 3.9337, "step": 48280 }, { "epoch": 0.10060416666666666, "grad_norm": 0.801796019077301, "learning_rate": 0.0002931114602276968, "loss": 4.0163, "step": 48290 }, { "epoch": 0.100625, "grad_norm": 0.7840844392776489, "learning_rate": 0.0002931085066567193, "loss": 4.0318, "step": 48300 }, { "epoch": 0.10064583333333334, "grad_norm": 0.7900235056877136, "learning_rate": 0.00029310555246756973, "loss": 4.0952, "step": 48310 }, { "epoch": 0.10066666666666667, "grad_norm": 0.8517465591430664, "learning_rate": 0.00029310259766026075, "loss": 4.0203, "step": 48320 }, { "epoch": 0.1006875, "grad_norm": 0.7868654131889343, "learning_rate": 0.0002930996422348052, "loss": 3.9934, "step": 48330 }, { "epoch": 0.10070833333333333, "grad_norm": 0.8206043839454651, "learning_rate": 0.0002930966861912159, "loss": 4.0506, "step": 48340 }, { "epoch": 0.10072916666666666, "grad_norm": 1.0599678754806519, "learning_rate": 0.0002930937295295055, "loss": 3.7486, "step": 48350 }, { "epoch": 0.10075, "grad_norm": 0.714768648147583, "learning_rate": 0.00029309077224968686, "loss": 4.0196, "step": 48360 }, { "epoch": 0.10077083333333334, "grad_norm": 0.7742012739181519, "learning_rate": 0.00029308781435177274, "loss": 4.3208, "step": 48370 }, { "epoch": 0.10079166666666667, "grad_norm": 0.7835144400596619, "learning_rate": 0.0002930848558357758, "loss": 3.9986, "step": 48380 }, { "epoch": 0.1008125, "grad_norm": 0.8875382542610168, "learning_rate": 0.00029308189670170903, "loss": 3.8927, "step": 48390 }, { "epoch": 0.10083333333333333, "grad_norm": 0.8478334546089172, "learning_rate": 0.00029307893694958503, "loss": 3.9623, "step": 48400 }, { "epoch": 0.10085416666666666, "grad_norm": 0.7733252644538879, "learning_rate": 0.0002930759765794167, "loss": 3.9346, "step": 48410 }, { "epoch": 0.100875, "grad_norm": 0.7413328886032104, "learning_rate": 0.0002930730155912168, "loss": 3.9085, "step": 48420 }, { "epoch": 0.10089583333333334, "grad_norm": 0.9449418783187866, "learning_rate": 0.0002930700539849981, "loss": 4.0404, "step": 48430 }, { "epoch": 0.10091666666666667, "grad_norm": 0.7948735952377319, "learning_rate": 0.00029306709176077334, "loss": 3.927, "step": 48440 }, { "epoch": 0.1009375, "grad_norm": 0.7707638740539551, "learning_rate": 0.0002930641289185554, "loss": 3.8619, "step": 48450 }, { "epoch": 0.10095833333333333, "grad_norm": 0.8079097867012024, "learning_rate": 0.0002930611654583571, "loss": 4.0775, "step": 48460 }, { "epoch": 0.10097916666666666, "grad_norm": 0.7329848408699036, "learning_rate": 0.0002930582013801911, "loss": 4.0869, "step": 48470 }, { "epoch": 0.101, "grad_norm": 0.8265479207038879, "learning_rate": 0.00029305523668407037, "loss": 3.9796, "step": 48480 }, { "epoch": 0.10102083333333334, "grad_norm": 0.8349348306655884, "learning_rate": 0.0002930522713700076, "loss": 3.9687, "step": 48490 }, { "epoch": 0.10104166666666667, "grad_norm": 0.7911477088928223, "learning_rate": 0.0002930493054380157, "loss": 4.054, "step": 48500 }, { "epoch": 0.1010625, "grad_norm": 0.9646768569946289, "learning_rate": 0.0002930463388881074, "loss": 3.9227, "step": 48510 }, { "epoch": 0.10108333333333333, "grad_norm": 0.6918789744377136, "learning_rate": 0.0002930433717202955, "loss": 3.9203, "step": 48520 }, { "epoch": 0.10110416666666666, "grad_norm": 0.8314200639724731, "learning_rate": 0.0002930404039345929, "loss": 4.0931, "step": 48530 }, { "epoch": 0.101125, "grad_norm": 0.8475630879402161, "learning_rate": 0.00029303743553101236, "loss": 4.1129, "step": 48540 }, { "epoch": 0.10114583333333334, "grad_norm": 0.8553993105888367, "learning_rate": 0.00029303446650956667, "loss": 4.0284, "step": 48550 }, { "epoch": 0.10116666666666667, "grad_norm": 0.6581719517707825, "learning_rate": 0.0002930314968702688, "loss": 3.8942, "step": 48560 }, { "epoch": 0.1011875, "grad_norm": 0.6285997033119202, "learning_rate": 0.0002930285266131314, "loss": 4.0276, "step": 48570 }, { "epoch": 0.10120833333333333, "grad_norm": 0.7463507652282715, "learning_rate": 0.0002930255557381674, "loss": 3.9576, "step": 48580 }, { "epoch": 0.10122916666666666, "grad_norm": 0.8259686231613159, "learning_rate": 0.00029302258424538963, "loss": 4.0482, "step": 48590 }, { "epoch": 0.10125, "grad_norm": 0.8114915490150452, "learning_rate": 0.0002930196121348109, "loss": 4.0009, "step": 48600 }, { "epoch": 0.10127083333333334, "grad_norm": 0.8224873542785645, "learning_rate": 0.000293016639406444, "loss": 3.9391, "step": 48610 }, { "epoch": 0.10129166666666667, "grad_norm": 0.78005051612854, "learning_rate": 0.00029301366606030186, "loss": 3.8487, "step": 48620 }, { "epoch": 0.1013125, "grad_norm": 0.8872798085212708, "learning_rate": 0.00029301069209639735, "loss": 4.0259, "step": 48630 }, { "epoch": 0.10133333333333333, "grad_norm": 0.7924345135688782, "learning_rate": 0.0002930077175147432, "loss": 3.8465, "step": 48640 }, { "epoch": 0.10135416666666666, "grad_norm": 0.7517092823982239, "learning_rate": 0.00029300474231535234, "loss": 4.0916, "step": 48650 }, { "epoch": 0.101375, "grad_norm": 0.7913499474525452, "learning_rate": 0.0002930017664982376, "loss": 4.0741, "step": 48660 }, { "epoch": 0.10139583333333334, "grad_norm": 0.7412816286087036, "learning_rate": 0.0002929987900634118, "loss": 3.8859, "step": 48670 }, { "epoch": 0.10141666666666667, "grad_norm": 0.7289633750915527, "learning_rate": 0.0002929958130108879, "loss": 4.1113, "step": 48680 }, { "epoch": 0.1014375, "grad_norm": 0.7767918109893799, "learning_rate": 0.00029299283534067863, "loss": 4.0098, "step": 48690 }, { "epoch": 0.10145833333333333, "grad_norm": 0.7512784004211426, "learning_rate": 0.00029298985705279696, "loss": 3.9756, "step": 48700 }, { "epoch": 0.10147916666666666, "grad_norm": 0.7407847046852112, "learning_rate": 0.0002929868781472556, "loss": 4.0508, "step": 48710 }, { "epoch": 0.1015, "grad_norm": 0.7690333724021912, "learning_rate": 0.00029298389862406765, "loss": 3.9943, "step": 48720 }, { "epoch": 0.10152083333333334, "grad_norm": 0.7743546366691589, "learning_rate": 0.00029298091848324576, "loss": 4.0104, "step": 48730 }, { "epoch": 0.10154166666666667, "grad_norm": 0.8832343816757202, "learning_rate": 0.00029297793772480296, "loss": 3.9181, "step": 48740 }, { "epoch": 0.1015625, "grad_norm": 0.8318539261817932, "learning_rate": 0.000292974956348752, "loss": 3.9926, "step": 48750 }, { "epoch": 0.10158333333333333, "grad_norm": 0.8682903051376343, "learning_rate": 0.0002929719743551059, "loss": 3.9908, "step": 48760 }, { "epoch": 0.10160416666666666, "grad_norm": 0.8463100790977478, "learning_rate": 0.0002929689917438774, "loss": 4.0358, "step": 48770 }, { "epoch": 0.101625, "grad_norm": 0.9606810808181763, "learning_rate": 0.0002929660085150795, "loss": 3.8609, "step": 48780 }, { "epoch": 0.10164583333333334, "grad_norm": 0.8414937853813171, "learning_rate": 0.00029296302466872505, "loss": 4.0187, "step": 48790 }, { "epoch": 0.10166666666666667, "grad_norm": 0.753025233745575, "learning_rate": 0.00029296004020482687, "loss": 3.9163, "step": 48800 }, { "epoch": 0.1016875, "grad_norm": 0.7454790472984314, "learning_rate": 0.0002929570551233979, "loss": 4.1404, "step": 48810 }, { "epoch": 0.10170833333333333, "grad_norm": 0.8382830619812012, "learning_rate": 0.00029295406942445105, "loss": 4.0039, "step": 48820 }, { "epoch": 0.10172916666666666, "grad_norm": 0.8115407824516296, "learning_rate": 0.0002929510831079992, "loss": 4.0264, "step": 48830 }, { "epoch": 0.10175, "grad_norm": 0.8527920246124268, "learning_rate": 0.0002929480961740553, "loss": 4.0552, "step": 48840 }, { "epoch": 0.10177083333333334, "grad_norm": 0.6670491099357605, "learning_rate": 0.0002929451086226321, "loss": 3.9676, "step": 48850 }, { "epoch": 0.10179166666666667, "grad_norm": 0.9203506112098694, "learning_rate": 0.00029294212045374277, "loss": 3.9041, "step": 48860 }, { "epoch": 0.1018125, "grad_norm": 1.0079104900360107, "learning_rate": 0.00029293913166739995, "loss": 4.2032, "step": 48870 }, { "epoch": 0.10183333333333333, "grad_norm": 0.7375483512878418, "learning_rate": 0.0002929361422636167, "loss": 4.0414, "step": 48880 }, { "epoch": 0.10185416666666666, "grad_norm": 0.7357567548751831, "learning_rate": 0.00029293315224240585, "loss": 3.8608, "step": 48890 }, { "epoch": 0.101875, "grad_norm": 0.872169554233551, "learning_rate": 0.0002929301616037804, "loss": 3.8202, "step": 48900 }, { "epoch": 0.10189583333333334, "grad_norm": 0.7828966379165649, "learning_rate": 0.00029292717034775317, "loss": 4.0236, "step": 48910 }, { "epoch": 0.10191666666666667, "grad_norm": 0.744910478591919, "learning_rate": 0.0002929241784743372, "loss": 3.7734, "step": 48920 }, { "epoch": 0.1019375, "grad_norm": 0.8325081467628479, "learning_rate": 0.0002929211859835453, "loss": 4.1502, "step": 48930 }, { "epoch": 0.10195833333333333, "grad_norm": 0.7611968517303467, "learning_rate": 0.0002929181928753905, "loss": 4.1402, "step": 48940 }, { "epoch": 0.10197916666666666, "grad_norm": 0.7041853666305542, "learning_rate": 0.0002929151991498857, "loss": 3.8247, "step": 48950 }, { "epoch": 0.102, "grad_norm": 1.2178140878677368, "learning_rate": 0.00029291220480704376, "loss": 3.9907, "step": 48960 }, { "epoch": 0.10202083333333334, "grad_norm": 0.8013404607772827, "learning_rate": 0.00029290920984687766, "loss": 4.0456, "step": 48970 }, { "epoch": 0.10204166666666667, "grad_norm": 0.911751925945282, "learning_rate": 0.00029290621426940035, "loss": 3.9297, "step": 48980 }, { "epoch": 0.1020625, "grad_norm": 0.7358882427215576, "learning_rate": 0.0002929032180746248, "loss": 4.0997, "step": 48990 }, { "epoch": 0.10208333333333333, "grad_norm": 0.7615472078323364, "learning_rate": 0.00029290022126256384, "loss": 3.9868, "step": 49000 }, { "epoch": 0.10208333333333333, "eval_loss": 4.279221534729004, "eval_runtime": 11.132, "eval_samples_per_second": 0.898, "eval_steps_per_second": 0.269, "step": 49000 }, { "epoch": 0.10210416666666666, "grad_norm": 0.9754301309585571, "learning_rate": 0.0002928972238332305, "loss": 3.9163, "step": 49010 }, { "epoch": 0.102125, "grad_norm": 0.7644997835159302, "learning_rate": 0.0002928942257866378, "loss": 3.9264, "step": 49020 }, { "epoch": 0.10214583333333334, "grad_norm": 0.9104974865913391, "learning_rate": 0.0002928912271227985, "loss": 3.9533, "step": 49030 }, { "epoch": 0.10216666666666667, "grad_norm": 0.7123526334762573, "learning_rate": 0.0002928882278417257, "loss": 4.0344, "step": 49040 }, { "epoch": 0.1021875, "grad_norm": 0.7307769060134888, "learning_rate": 0.0002928852279434323, "loss": 4.0587, "step": 49050 }, { "epoch": 0.10220833333333333, "grad_norm": 0.7550917863845825, "learning_rate": 0.0002928822274279313, "loss": 3.9351, "step": 49060 }, { "epoch": 0.10222916666666666, "grad_norm": 0.7527019381523132, "learning_rate": 0.00029287922629523566, "loss": 4.1098, "step": 49070 }, { "epoch": 0.10225, "grad_norm": 0.8842973709106445, "learning_rate": 0.0002928762245453583, "loss": 3.9981, "step": 49080 }, { "epoch": 0.10227083333333334, "grad_norm": 0.8290863037109375, "learning_rate": 0.0002928732221783122, "loss": 4.0481, "step": 49090 }, { "epoch": 0.10229166666666667, "grad_norm": 0.7998533248901367, "learning_rate": 0.00029287021919411027, "loss": 4.0834, "step": 49100 }, { "epoch": 0.1023125, "grad_norm": 0.762007474899292, "learning_rate": 0.00029286721559276563, "loss": 3.982, "step": 49110 }, { "epoch": 0.10233333333333333, "grad_norm": 0.8979332447052002, "learning_rate": 0.0002928642113742911, "loss": 4.0194, "step": 49120 }, { "epoch": 0.10235416666666666, "grad_norm": 0.9974207878112793, "learning_rate": 0.0002928612065386998, "loss": 4.1009, "step": 49130 }, { "epoch": 0.102375, "grad_norm": 0.9366331100463867, "learning_rate": 0.00029285820108600457, "loss": 4.029, "step": 49140 }, { "epoch": 0.10239583333333334, "grad_norm": 0.8985358476638794, "learning_rate": 0.0002928551950162185, "loss": 3.9376, "step": 49150 }, { "epoch": 0.10241666666666667, "grad_norm": 0.746322512626648, "learning_rate": 0.0002928521883293546, "loss": 4.0996, "step": 49160 }, { "epoch": 0.1024375, "grad_norm": 0.9474925398826599, "learning_rate": 0.0002928491810254257, "loss": 3.8871, "step": 49170 }, { "epoch": 0.10245833333333333, "grad_norm": 0.7851362824440002, "learning_rate": 0.0002928461731044448, "loss": 4.1091, "step": 49180 }, { "epoch": 0.10247916666666666, "grad_norm": 0.783072292804718, "learning_rate": 0.00029284316456642515, "loss": 3.7817, "step": 49190 }, { "epoch": 0.1025, "grad_norm": 0.9836112260818481, "learning_rate": 0.00029284015541137945, "loss": 3.905, "step": 49200 }, { "epoch": 0.10252083333333334, "grad_norm": 0.8573542237281799, "learning_rate": 0.00029283714563932086, "loss": 3.9814, "step": 49210 }, { "epoch": 0.10254166666666667, "grad_norm": 0.7882057428359985, "learning_rate": 0.0002928341352502624, "loss": 4.1734, "step": 49220 }, { "epoch": 0.1025625, "grad_norm": 0.9768480658531189, "learning_rate": 0.0002928311242442169, "loss": 3.9894, "step": 49230 }, { "epoch": 0.10258333333333333, "grad_norm": 0.9667037129402161, "learning_rate": 0.00029282811262119755, "loss": 4.0288, "step": 49240 }, { "epoch": 0.10260416666666666, "grad_norm": 0.8566751480102539, "learning_rate": 0.00029282510038121726, "loss": 3.8351, "step": 49250 }, { "epoch": 0.102625, "grad_norm": 0.7664220333099365, "learning_rate": 0.00029282208752428907, "loss": 3.6883, "step": 49260 }, { "epoch": 0.10264583333333334, "grad_norm": 0.9574827551841736, "learning_rate": 0.000292819074050426, "loss": 3.7981, "step": 49270 }, { "epoch": 0.10266666666666667, "grad_norm": 0.7889763712882996, "learning_rate": 0.00029281605995964114, "loss": 4.1148, "step": 49280 }, { "epoch": 0.1026875, "grad_norm": 0.829759955406189, "learning_rate": 0.0002928130452519473, "loss": 3.9801, "step": 49290 }, { "epoch": 0.10270833333333333, "grad_norm": 0.8234230279922485, "learning_rate": 0.00029281002992735775, "loss": 4.0917, "step": 49300 }, { "epoch": 0.10272916666666666, "grad_norm": 0.7281298637390137, "learning_rate": 0.00029280701398588533, "loss": 3.9818, "step": 49310 }, { "epoch": 0.10275, "grad_norm": 0.7572320699691772, "learning_rate": 0.00029280399742754313, "loss": 4.1521, "step": 49320 }, { "epoch": 0.10277083333333334, "grad_norm": 0.8192873597145081, "learning_rate": 0.0002928009802523442, "loss": 4.0046, "step": 49330 }, { "epoch": 0.10279166666666667, "grad_norm": 0.8160560727119446, "learning_rate": 0.0002927979624603016, "loss": 4.0175, "step": 49340 }, { "epoch": 0.1028125, "grad_norm": 0.7159867286682129, "learning_rate": 0.00029279494405142826, "loss": 4.0199, "step": 49350 }, { "epoch": 0.10283333333333333, "grad_norm": 0.766180157661438, "learning_rate": 0.0002927919250257373, "loss": 3.9971, "step": 49360 }, { "epoch": 0.10285416666666666, "grad_norm": 0.9074235558509827, "learning_rate": 0.0002927889053832418, "loss": 4.0298, "step": 49370 }, { "epoch": 0.102875, "grad_norm": 0.7642560005187988, "learning_rate": 0.0002927858851239547, "loss": 3.898, "step": 49380 }, { "epoch": 0.10289583333333334, "grad_norm": 0.829748809337616, "learning_rate": 0.0002927828642478891, "loss": 3.9329, "step": 49390 }, { "epoch": 0.10291666666666667, "grad_norm": 0.7976492643356323, "learning_rate": 0.000292779842755058, "loss": 3.9423, "step": 49400 }, { "epoch": 0.1029375, "grad_norm": 0.7786514163017273, "learning_rate": 0.0002927768206454746, "loss": 3.9403, "step": 49410 }, { "epoch": 0.10295833333333333, "grad_norm": 0.7262424230575562, "learning_rate": 0.0002927737979191518, "loss": 4.1115, "step": 49420 }, { "epoch": 0.10297916666666666, "grad_norm": 0.7670385837554932, "learning_rate": 0.00029277077457610267, "loss": 4.1396, "step": 49430 }, { "epoch": 0.103, "grad_norm": 0.82208251953125, "learning_rate": 0.0002927677506163404, "loss": 4.142, "step": 49440 }, { "epoch": 0.10302083333333334, "grad_norm": 0.7978679537773132, "learning_rate": 0.00029276472603987784, "loss": 4.1244, "step": 49450 }, { "epoch": 0.10304166666666667, "grad_norm": 0.7851456999778748, "learning_rate": 0.00029276170084672825, "loss": 3.9971, "step": 49460 }, { "epoch": 0.1030625, "grad_norm": 0.7363708019256592, "learning_rate": 0.0002927586750369046, "loss": 3.9513, "step": 49470 }, { "epoch": 0.10308333333333333, "grad_norm": 0.7379972338676453, "learning_rate": 0.00029275564861042, "loss": 4.002, "step": 49480 }, { "epoch": 0.10310416666666666, "grad_norm": 0.816502571105957, "learning_rate": 0.0002927526215672874, "loss": 3.9003, "step": 49490 }, { "epoch": 0.103125, "grad_norm": 0.6890751123428345, "learning_rate": 0.00029274959390752014, "loss": 4.088, "step": 49500 }, { "epoch": 0.10314583333333334, "grad_norm": 0.9515795111656189, "learning_rate": 0.000292746565631131, "loss": 4.0423, "step": 49510 }, { "epoch": 0.10316666666666667, "grad_norm": 0.8364551663398743, "learning_rate": 0.0002927435367381333, "loss": 4.1687, "step": 49520 }, { "epoch": 0.1031875, "grad_norm": 0.8386387228965759, "learning_rate": 0.00029274050722854003, "loss": 3.9976, "step": 49530 }, { "epoch": 0.10320833333333333, "grad_norm": 0.7329249382019043, "learning_rate": 0.0002927374771023642, "loss": 4.0518, "step": 49540 }, { "epoch": 0.10322916666666666, "grad_norm": 0.7842952609062195, "learning_rate": 0.000292734446359619, "loss": 4.1366, "step": 49550 }, { "epoch": 0.10325, "grad_norm": 1.1091388463974, "learning_rate": 0.00029273141500031744, "loss": 3.8086, "step": 49560 }, { "epoch": 0.10327083333333334, "grad_norm": 0.853715181350708, "learning_rate": 0.00029272838302447273, "loss": 4.2191, "step": 49570 }, { "epoch": 0.10329166666666667, "grad_norm": 0.7744817733764648, "learning_rate": 0.00029272535043209786, "loss": 3.8953, "step": 49580 }, { "epoch": 0.1033125, "grad_norm": 0.9503114223480225, "learning_rate": 0.000292722317223206, "loss": 4.0883, "step": 49590 }, { "epoch": 0.10333333333333333, "grad_norm": 0.9309439063072205, "learning_rate": 0.00029271928339781025, "loss": 3.9083, "step": 49600 }, { "epoch": 0.10335416666666666, "grad_norm": 0.7342001795768738, "learning_rate": 0.00029271624895592363, "loss": 4.1028, "step": 49610 }, { "epoch": 0.103375, "grad_norm": 0.7266141176223755, "learning_rate": 0.00029271321389755933, "loss": 3.969, "step": 49620 }, { "epoch": 0.10339583333333334, "grad_norm": 0.9200646281242371, "learning_rate": 0.0002927101782227304, "loss": 4.0235, "step": 49630 }, { "epoch": 0.10341666666666667, "grad_norm": 0.6631282567977905, "learning_rate": 0.00029270714193145006, "loss": 4.1643, "step": 49640 }, { "epoch": 0.1034375, "grad_norm": 0.7198712229728699, "learning_rate": 0.0002927041050237313, "loss": 4.0177, "step": 49650 }, { "epoch": 0.10345833333333333, "grad_norm": 0.9006595611572266, "learning_rate": 0.00029270106749958733, "loss": 4.0086, "step": 49660 }, { "epoch": 0.10347916666666666, "grad_norm": 0.8360154032707214, "learning_rate": 0.0002926980293590312, "loss": 3.8695, "step": 49670 }, { "epoch": 0.1035, "grad_norm": 0.9182197451591492, "learning_rate": 0.0002926949906020761, "loss": 3.9632, "step": 49680 }, { "epoch": 0.10352083333333334, "grad_norm": 0.9201945662498474, "learning_rate": 0.0002926919512287351, "loss": 3.9462, "step": 49690 }, { "epoch": 0.10354166666666667, "grad_norm": 0.7564398646354675, "learning_rate": 0.00029268891123902135, "loss": 4.0421, "step": 49700 }, { "epoch": 0.1035625, "grad_norm": 0.744978129863739, "learning_rate": 0.000292685870632948, "loss": 3.9736, "step": 49710 }, { "epoch": 0.10358333333333333, "grad_norm": 0.8487722873687744, "learning_rate": 0.0002926828294105281, "loss": 3.9147, "step": 49720 }, { "epoch": 0.10360416666666666, "grad_norm": 0.7436109185218811, "learning_rate": 0.00029267978757177495, "loss": 4.0179, "step": 49730 }, { "epoch": 0.103625, "grad_norm": 0.8878900408744812, "learning_rate": 0.00029267674511670154, "loss": 4.1525, "step": 49740 }, { "epoch": 0.10364583333333334, "grad_norm": 0.7143101692199707, "learning_rate": 0.0002926737020453211, "loss": 4.0508, "step": 49750 }, { "epoch": 0.10366666666666667, "grad_norm": 0.7519477605819702, "learning_rate": 0.0002926706583576467, "loss": 4.0238, "step": 49760 }, { "epoch": 0.1036875, "grad_norm": 0.7808490991592407, "learning_rate": 0.0002926676140536916, "loss": 4.1462, "step": 49770 }, { "epoch": 0.10370833333333333, "grad_norm": 0.8784478902816772, "learning_rate": 0.0002926645691334688, "loss": 4.0128, "step": 49780 }, { "epoch": 0.10372916666666666, "grad_norm": 1.1122761964797974, "learning_rate": 0.00029266152359699155, "loss": 3.9807, "step": 49790 }, { "epoch": 0.10375, "grad_norm": 0.7357746958732605, "learning_rate": 0.00029265847744427303, "loss": 3.9639, "step": 49800 }, { "epoch": 0.10377083333333334, "grad_norm": 0.7455911636352539, "learning_rate": 0.0002926554306753263, "loss": 3.8197, "step": 49810 }, { "epoch": 0.10379166666666667, "grad_norm": 1.1235969066619873, "learning_rate": 0.0002926523832901646, "loss": 3.9328, "step": 49820 }, { "epoch": 0.1038125, "grad_norm": 0.7532281279563904, "learning_rate": 0.0002926493352888011, "loss": 4.0109, "step": 49830 }, { "epoch": 0.10383333333333333, "grad_norm": 0.7917546629905701, "learning_rate": 0.0002926462866712489, "loss": 4.0569, "step": 49840 }, { "epoch": 0.10385416666666666, "grad_norm": 0.864628791809082, "learning_rate": 0.0002926432374375212, "loss": 3.9632, "step": 49850 }, { "epoch": 0.103875, "grad_norm": 0.8916741013526917, "learning_rate": 0.00029264018758763124, "loss": 4.0212, "step": 49860 }, { "epoch": 0.10389583333333334, "grad_norm": 0.7745014429092407, "learning_rate": 0.00029263713712159207, "loss": 3.7903, "step": 49870 }, { "epoch": 0.10391666666666667, "grad_norm": 0.7800654768943787, "learning_rate": 0.0002926340860394169, "loss": 3.9733, "step": 49880 }, { "epoch": 0.1039375, "grad_norm": 0.82977694272995, "learning_rate": 0.000292631034341119, "loss": 3.9504, "step": 49890 }, { "epoch": 0.10395833333333333, "grad_norm": 0.8692675828933716, "learning_rate": 0.00029262798202671147, "loss": 3.7943, "step": 49900 }, { "epoch": 0.10397916666666666, "grad_norm": 0.9102606177330017, "learning_rate": 0.0002926249290962075, "loss": 4.0497, "step": 49910 }, { "epoch": 0.104, "grad_norm": 0.7787212133407593, "learning_rate": 0.0002926218755496203, "loss": 3.9585, "step": 49920 }, { "epoch": 0.10402083333333334, "grad_norm": 0.7164571285247803, "learning_rate": 0.000292618821386963, "loss": 3.9474, "step": 49930 }, { "epoch": 0.10404166666666667, "grad_norm": 0.8608791828155518, "learning_rate": 0.0002926157666082489, "loss": 3.8387, "step": 49940 }, { "epoch": 0.1040625, "grad_norm": 0.8274163007736206, "learning_rate": 0.0002926127112134912, "loss": 4.2699, "step": 49950 }, { "epoch": 0.10408333333333333, "grad_norm": 0.7702623605728149, "learning_rate": 0.0002926096552027029, "loss": 3.9437, "step": 49960 }, { "epoch": 0.10410416666666666, "grad_norm": 0.9424062371253967, "learning_rate": 0.0002926065985758974, "loss": 4.0845, "step": 49970 }, { "epoch": 0.104125, "grad_norm": 0.7174128890037537, "learning_rate": 0.0002926035413330879, "loss": 3.8873, "step": 49980 }, { "epoch": 0.10414583333333334, "grad_norm": 0.84706050157547, "learning_rate": 0.00029260048347428747, "loss": 4.1487, "step": 49990 }, { "epoch": 0.10416666666666667, "grad_norm": 0.8415717482566833, "learning_rate": 0.0002925974249995094, "loss": 4.1809, "step": 50000 }, { "epoch": 0.10416666666666667, "eval_loss": 4.297389984130859, "eval_runtime": 10.293, "eval_samples_per_second": 0.972, "eval_steps_per_second": 0.291, "step": 50000 }, { "epoch": 0.1041875, "grad_norm": 0.7332421541213989, "learning_rate": 0.00029259436590876696, "loss": 4.0715, "step": 50010 }, { "epoch": 0.10420833333333333, "grad_norm": 0.7491800785064697, "learning_rate": 0.0002925913062020733, "loss": 3.9114, "step": 50020 }, { "epoch": 0.10422916666666666, "grad_norm": 0.9135246872901917, "learning_rate": 0.0002925882458794416, "loss": 4.0655, "step": 50030 }, { "epoch": 0.10425, "grad_norm": 0.6985059380531311, "learning_rate": 0.0002925851849408851, "loss": 3.8971, "step": 50040 }, { "epoch": 0.10427083333333333, "grad_norm": 1.4761148691177368, "learning_rate": 0.000292582123386417, "loss": 4.0234, "step": 50050 }, { "epoch": 0.10429166666666667, "grad_norm": 0.664412260055542, "learning_rate": 0.0002925790612160507, "loss": 3.9561, "step": 50060 }, { "epoch": 0.1043125, "grad_norm": 0.9128052592277527, "learning_rate": 0.0002925759984297992, "loss": 4.0387, "step": 50070 }, { "epoch": 0.10433333333333333, "grad_norm": 0.9343786835670471, "learning_rate": 0.00029257293502767584, "loss": 3.8637, "step": 50080 }, { "epoch": 0.10435416666666666, "grad_norm": 0.7153036594390869, "learning_rate": 0.0002925698710096938, "loss": 3.7199, "step": 50090 }, { "epoch": 0.104375, "grad_norm": 1.027160406112671, "learning_rate": 0.00029256680637586643, "loss": 4.066, "step": 50100 }, { "epoch": 0.10439583333333333, "grad_norm": 0.8474220633506775, "learning_rate": 0.0002925637411262068, "loss": 4.0601, "step": 50110 }, { "epoch": 0.10441666666666667, "grad_norm": 0.7367342710494995, "learning_rate": 0.00029256067526072833, "loss": 4.1273, "step": 50120 }, { "epoch": 0.1044375, "grad_norm": 0.7844774127006531, "learning_rate": 0.0002925576087794441, "loss": 4.0051, "step": 50130 }, { "epoch": 0.10445833333333333, "grad_norm": 0.8256841897964478, "learning_rate": 0.00029255454168236746, "loss": 4.1477, "step": 50140 }, { "epoch": 0.10447916666666666, "grad_norm": 0.7564240097999573, "learning_rate": 0.00029255147396951164, "loss": 4.0054, "step": 50150 }, { "epoch": 0.1045, "grad_norm": 0.8072596192359924, "learning_rate": 0.00029254840564088986, "loss": 4.0328, "step": 50160 }, { "epoch": 0.10452083333333333, "grad_norm": 0.7570194602012634, "learning_rate": 0.00029254533669651535, "loss": 4.1092, "step": 50170 }, { "epoch": 0.10454166666666667, "grad_norm": 0.7939029932022095, "learning_rate": 0.00029254226713640145, "loss": 4.0607, "step": 50180 }, { "epoch": 0.1045625, "grad_norm": 0.8470191955566406, "learning_rate": 0.0002925391969605614, "loss": 3.9466, "step": 50190 }, { "epoch": 0.10458333333333333, "grad_norm": 0.8378742933273315, "learning_rate": 0.00029253612616900843, "loss": 3.8653, "step": 50200 }, { "epoch": 0.10460416666666666, "grad_norm": 0.7377639412879944, "learning_rate": 0.0002925330547617558, "loss": 3.9531, "step": 50210 }, { "epoch": 0.104625, "grad_norm": 0.7611543536186218, "learning_rate": 0.0002925299827388168, "loss": 3.9893, "step": 50220 }, { "epoch": 0.10464583333333333, "grad_norm": 0.8976886868476868, "learning_rate": 0.0002925269101002047, "loss": 3.8919, "step": 50230 }, { "epoch": 0.10466666666666667, "grad_norm": 0.7549887895584106, "learning_rate": 0.0002925238368459327, "loss": 4.0386, "step": 50240 }, { "epoch": 0.1046875, "grad_norm": 0.8677572011947632, "learning_rate": 0.00029252076297601423, "loss": 3.9659, "step": 50250 }, { "epoch": 0.10470833333333333, "grad_norm": 0.762859582901001, "learning_rate": 0.0002925176884904624, "loss": 4.075, "step": 50260 }, { "epoch": 0.10472916666666666, "grad_norm": 0.8148066997528076, "learning_rate": 0.00029251461338929065, "loss": 3.7264, "step": 50270 }, { "epoch": 0.10475, "grad_norm": 0.8349539637565613, "learning_rate": 0.0002925115376725121, "loss": 3.913, "step": 50280 }, { "epoch": 0.10477083333333333, "grad_norm": 0.7816223502159119, "learning_rate": 0.0002925084613401402, "loss": 3.8862, "step": 50290 }, { "epoch": 0.10479166666666667, "grad_norm": 0.7295699119567871, "learning_rate": 0.0002925053843921881, "loss": 4.0102, "step": 50300 }, { "epoch": 0.1048125, "grad_norm": 0.8120856881141663, "learning_rate": 0.0002925023068286692, "loss": 3.8875, "step": 50310 }, { "epoch": 0.10483333333333333, "grad_norm": 1.1395620107650757, "learning_rate": 0.00029249922864959664, "loss": 3.9359, "step": 50320 }, { "epoch": 0.10485416666666666, "grad_norm": 0.7384068369865417, "learning_rate": 0.0002924961498549839, "loss": 4.0018, "step": 50330 }, { "epoch": 0.104875, "grad_norm": 0.8635039329528809, "learning_rate": 0.0002924930704448442, "loss": 4.1305, "step": 50340 }, { "epoch": 0.10489583333333333, "grad_norm": 0.7934401035308838, "learning_rate": 0.0002924899904191908, "loss": 3.9081, "step": 50350 }, { "epoch": 0.10491666666666667, "grad_norm": 0.8167548775672913, "learning_rate": 0.00029248690977803704, "loss": 4.1142, "step": 50360 }, { "epoch": 0.1049375, "grad_norm": 0.8746498823165894, "learning_rate": 0.00029248382852139625, "loss": 4.0032, "step": 50370 }, { "epoch": 0.10495833333333333, "grad_norm": 0.7526291012763977, "learning_rate": 0.0002924807466492817, "loss": 3.9386, "step": 50380 }, { "epoch": 0.10497916666666667, "grad_norm": 0.8463457822799683, "learning_rate": 0.0002924776641617067, "loss": 3.9327, "step": 50390 }, { "epoch": 0.105, "grad_norm": 0.7756918668746948, "learning_rate": 0.00029247458105868465, "loss": 4.0188, "step": 50400 }, { "epoch": 0.10502083333333333, "grad_norm": 0.7623472809791565, "learning_rate": 0.0002924714973402288, "loss": 3.9955, "step": 50410 }, { "epoch": 0.10504166666666667, "grad_norm": 0.8627665638923645, "learning_rate": 0.0002924684130063524, "loss": 3.7877, "step": 50420 }, { "epoch": 0.1050625, "grad_norm": 0.7579430341720581, "learning_rate": 0.0002924653280570689, "loss": 3.8942, "step": 50430 }, { "epoch": 0.10508333333333333, "grad_norm": 0.7957767844200134, "learning_rate": 0.0002924622424923917, "loss": 3.8836, "step": 50440 }, { "epoch": 0.10510416666666667, "grad_norm": 0.6570121645927429, "learning_rate": 0.0002924591563123338, "loss": 4.1169, "step": 50450 }, { "epoch": 0.105125, "grad_norm": 0.8972878456115723, "learning_rate": 0.0002924560695169088, "loss": 3.9676, "step": 50460 }, { "epoch": 0.10514583333333333, "grad_norm": 0.6778743863105774, "learning_rate": 0.00029245298210613, "loss": 4.0302, "step": 50470 }, { "epoch": 0.10516666666666667, "grad_norm": 0.7888743281364441, "learning_rate": 0.0002924498940800107, "loss": 4.1227, "step": 50480 }, { "epoch": 0.1051875, "grad_norm": 0.7683044075965881, "learning_rate": 0.00029244680543856423, "loss": 3.8516, "step": 50490 }, { "epoch": 0.10520833333333333, "grad_norm": 0.8148704171180725, "learning_rate": 0.00029244371618180394, "loss": 3.9154, "step": 50500 }, { "epoch": 0.10522916666666667, "grad_norm": 0.9741986393928528, "learning_rate": 0.0002924406263097432, "loss": 4.0475, "step": 50510 }, { "epoch": 0.10525, "grad_norm": 0.7736107707023621, "learning_rate": 0.0002924375358223953, "loss": 3.9644, "step": 50520 }, { "epoch": 0.10527083333333333, "grad_norm": 1.2221715450286865, "learning_rate": 0.00029243444471977365, "loss": 4.0309, "step": 50530 }, { "epoch": 0.10529166666666667, "grad_norm": 0.6649412512779236, "learning_rate": 0.00029243135300189156, "loss": 4.0933, "step": 50540 }, { "epoch": 0.1053125, "grad_norm": 0.7663376927375793, "learning_rate": 0.0002924282606687624, "loss": 4.0095, "step": 50550 }, { "epoch": 0.10533333333333333, "grad_norm": 0.7610189318656921, "learning_rate": 0.0002924251677203996, "loss": 3.9598, "step": 50560 }, { "epoch": 0.10535416666666667, "grad_norm": 0.9958245158195496, "learning_rate": 0.0002924220741568164, "loss": 4.2527, "step": 50570 }, { "epoch": 0.105375, "grad_norm": 0.7776246666908264, "learning_rate": 0.0002924189799780262, "loss": 3.9269, "step": 50580 }, { "epoch": 0.10539583333333333, "grad_norm": 0.8658514022827148, "learning_rate": 0.00029241588518404236, "loss": 4.0698, "step": 50590 }, { "epoch": 0.10541666666666667, "grad_norm": 0.8035275340080261, "learning_rate": 0.00029241278977487834, "loss": 3.9233, "step": 50600 }, { "epoch": 0.1054375, "grad_norm": 0.7829310297966003, "learning_rate": 0.0002924096937505474, "loss": 4.0918, "step": 50610 }, { "epoch": 0.10545833333333333, "grad_norm": 0.7781623601913452, "learning_rate": 0.00029240659711106295, "loss": 4.006, "step": 50620 }, { "epoch": 0.10547916666666667, "grad_norm": 0.9349314570426941, "learning_rate": 0.00029240349985643836, "loss": 3.9699, "step": 50630 }, { "epoch": 0.1055, "grad_norm": 0.8020880818367004, "learning_rate": 0.000292400401986687, "loss": 3.7798, "step": 50640 }, { "epoch": 0.10552083333333333, "grad_norm": 0.8185389041900635, "learning_rate": 0.0002923973035018223, "loss": 3.7593, "step": 50650 }, { "epoch": 0.10554166666666667, "grad_norm": 0.785984218120575, "learning_rate": 0.00029239420440185766, "loss": 4.0674, "step": 50660 }, { "epoch": 0.1055625, "grad_norm": 0.789100706577301, "learning_rate": 0.0002923911046868064, "loss": 3.9638, "step": 50670 }, { "epoch": 0.10558333333333333, "grad_norm": 0.8402634263038635, "learning_rate": 0.0002923880043566819, "loss": 4.0903, "step": 50680 }, { "epoch": 0.10560416666666667, "grad_norm": 1.0088058710098267, "learning_rate": 0.00029238490341149755, "loss": 3.9821, "step": 50690 }, { "epoch": 0.105625, "grad_norm": 0.834857702255249, "learning_rate": 0.0002923818018512668, "loss": 4.2185, "step": 50700 }, { "epoch": 0.10564583333333333, "grad_norm": 0.853425145149231, "learning_rate": 0.00029237869967600305, "loss": 4.0249, "step": 50710 }, { "epoch": 0.10566666666666667, "grad_norm": 0.8179558515548706, "learning_rate": 0.00029237559688571966, "loss": 4.0019, "step": 50720 }, { "epoch": 0.1056875, "grad_norm": 0.7183098196983337, "learning_rate": 0.0002923724934804301, "loss": 4.0692, "step": 50730 }, { "epoch": 0.10570833333333333, "grad_norm": 0.9169472455978394, "learning_rate": 0.0002923693894601476, "loss": 3.8953, "step": 50740 }, { "epoch": 0.10572916666666667, "grad_norm": 0.7225739359855652, "learning_rate": 0.0002923662848248858, "loss": 3.9849, "step": 50750 }, { "epoch": 0.10575, "grad_norm": 0.8414003252983093, "learning_rate": 0.000292363179574658, "loss": 3.8344, "step": 50760 }, { "epoch": 0.10577083333333333, "grad_norm": 0.7592816352844238, "learning_rate": 0.0002923600737094775, "loss": 3.98, "step": 50770 }, { "epoch": 0.10579166666666667, "grad_norm": 0.7695099711418152, "learning_rate": 0.000292356967229358, "loss": 3.9001, "step": 50780 }, { "epoch": 0.1058125, "grad_norm": 0.7274512052536011, "learning_rate": 0.0002923538601343126, "loss": 3.9954, "step": 50790 }, { "epoch": 0.10583333333333333, "grad_norm": 0.901178777217865, "learning_rate": 0.00029235075242435495, "loss": 4.0556, "step": 50800 }, { "epoch": 0.10585416666666667, "grad_norm": 0.7860174179077148, "learning_rate": 0.0002923476440994984, "loss": 4.0082, "step": 50810 }, { "epoch": 0.105875, "grad_norm": 0.7748461961746216, "learning_rate": 0.00029234453515975634, "loss": 4.0004, "step": 50820 }, { "epoch": 0.10589583333333333, "grad_norm": 0.8100540041923523, "learning_rate": 0.0002923414256051423, "loss": 4.0609, "step": 50830 }, { "epoch": 0.10591666666666667, "grad_norm": 0.8516915440559387, "learning_rate": 0.00029233831543566956, "loss": 3.9553, "step": 50840 }, { "epoch": 0.1059375, "grad_norm": 0.7434536814689636, "learning_rate": 0.00029233520465135165, "loss": 4.0271, "step": 50850 }, { "epoch": 0.10595833333333333, "grad_norm": 0.6617941856384277, "learning_rate": 0.00029233209325220204, "loss": 4.0948, "step": 50860 }, { "epoch": 0.10597916666666667, "grad_norm": 0.7185391783714294, "learning_rate": 0.00029232898123823407, "loss": 4.055, "step": 50870 }, { "epoch": 0.106, "grad_norm": 0.839154064655304, "learning_rate": 0.0002923258686094613, "loss": 4.2611, "step": 50880 }, { "epoch": 0.10602083333333333, "grad_norm": 0.7931175827980042, "learning_rate": 0.0002923227553658971, "loss": 3.9377, "step": 50890 }, { "epoch": 0.10604166666666667, "grad_norm": 0.8959558010101318, "learning_rate": 0.0002923196415075549, "loss": 3.8956, "step": 50900 }, { "epoch": 0.1060625, "grad_norm": 0.7956362962722778, "learning_rate": 0.0002923165270344482, "loss": 3.9591, "step": 50910 }, { "epoch": 0.10608333333333334, "grad_norm": 0.7994216680526733, "learning_rate": 0.00029231341194659044, "loss": 3.7879, "step": 50920 }, { "epoch": 0.10610416666666667, "grad_norm": 0.7551946640014648, "learning_rate": 0.00029231029624399504, "loss": 4.0773, "step": 50930 }, { "epoch": 0.106125, "grad_norm": 0.805530309677124, "learning_rate": 0.0002923071799266755, "loss": 3.9732, "step": 50940 }, { "epoch": 0.10614583333333333, "grad_norm": 0.7089834213256836, "learning_rate": 0.0002923040629946453, "loss": 3.9836, "step": 50950 }, { "epoch": 0.10616666666666667, "grad_norm": 0.7376680374145508, "learning_rate": 0.0002923009454479179, "loss": 3.841, "step": 50960 }, { "epoch": 0.1061875, "grad_norm": 0.8623104095458984, "learning_rate": 0.0002922978272865067, "loss": 4.1089, "step": 50970 }, { "epoch": 0.10620833333333334, "grad_norm": 0.965140700340271, "learning_rate": 0.0002922947085104252, "loss": 3.9599, "step": 50980 }, { "epoch": 0.10622916666666667, "grad_norm": 0.8694900274276733, "learning_rate": 0.0002922915891196869, "loss": 4.0509, "step": 50990 }, { "epoch": 0.10625, "grad_norm": 0.7380486726760864, "learning_rate": 0.00029228846911430527, "loss": 3.7905, "step": 51000 }, { "epoch": 0.10625, "eval_loss": 4.296773910522461, "eval_runtime": 11.8694, "eval_samples_per_second": 0.843, "eval_steps_per_second": 0.253, "step": 51000 }, { "epoch": 0.10627083333333333, "grad_norm": 0.8346457481384277, "learning_rate": 0.00029228534849429374, "loss": 3.862, "step": 51010 }, { "epoch": 0.10629166666666667, "grad_norm": 0.8386745452880859, "learning_rate": 0.0002922822272596659, "loss": 4.107, "step": 51020 }, { "epoch": 0.1063125, "grad_norm": 0.8432703614234924, "learning_rate": 0.00029227910541043504, "loss": 3.7825, "step": 51030 }, { "epoch": 0.10633333333333334, "grad_norm": 0.7449776530265808, "learning_rate": 0.0002922759829466149, "loss": 3.9622, "step": 51040 }, { "epoch": 0.10635416666666667, "grad_norm": 0.7446163892745972, "learning_rate": 0.0002922728598682187, "loss": 4.0294, "step": 51050 }, { "epoch": 0.106375, "grad_norm": 0.7579222917556763, "learning_rate": 0.0002922697361752602, "loss": 3.822, "step": 51060 }, { "epoch": 0.10639583333333333, "grad_norm": 0.7363486886024475, "learning_rate": 0.00029226661186775266, "loss": 4.036, "step": 51070 }, { "epoch": 0.10641666666666667, "grad_norm": 0.881227970123291, "learning_rate": 0.0002922634869457097, "loss": 3.9936, "step": 51080 }, { "epoch": 0.1064375, "grad_norm": 0.8812421560287476, "learning_rate": 0.0002922603614091447, "loss": 4.0119, "step": 51090 }, { "epoch": 0.10645833333333334, "grad_norm": 0.8263999223709106, "learning_rate": 0.00029225723525807136, "loss": 4.0147, "step": 51100 }, { "epoch": 0.10647916666666667, "grad_norm": 0.7266913056373596, "learning_rate": 0.00029225410849250305, "loss": 4.0459, "step": 51110 }, { "epoch": 0.1065, "grad_norm": 0.7062184810638428, "learning_rate": 0.0002922509811124533, "loss": 3.9404, "step": 51120 }, { "epoch": 0.10652083333333333, "grad_norm": 0.786698579788208, "learning_rate": 0.00029224785311793554, "loss": 3.9763, "step": 51130 }, { "epoch": 0.10654166666666667, "grad_norm": 0.7686131000518799, "learning_rate": 0.0002922447245089635, "loss": 4.0751, "step": 51140 }, { "epoch": 0.1065625, "grad_norm": 0.7963362336158752, "learning_rate": 0.00029224159528555045, "loss": 4.1282, "step": 51150 }, { "epoch": 0.10658333333333334, "grad_norm": 0.7746624946594238, "learning_rate": 0.00029223846544771, "loss": 4.0634, "step": 51160 }, { "epoch": 0.10660416666666667, "grad_norm": 0.7235612869262695, "learning_rate": 0.00029223533499545576, "loss": 3.9442, "step": 51170 }, { "epoch": 0.106625, "grad_norm": 0.8485565781593323, "learning_rate": 0.0002922322039288011, "loss": 4.0562, "step": 51180 }, { "epoch": 0.10664583333333333, "grad_norm": 0.7547968029975891, "learning_rate": 0.00029222907224775967, "loss": 3.9971, "step": 51190 }, { "epoch": 0.10666666666666667, "grad_norm": 0.816499650478363, "learning_rate": 0.000292225939952345, "loss": 4.0246, "step": 51200 }, { "epoch": 0.1066875, "grad_norm": 0.7282909750938416, "learning_rate": 0.00029222280704257044, "loss": 3.8919, "step": 51210 }, { "epoch": 0.10670833333333334, "grad_norm": 0.8192281723022461, "learning_rate": 0.0002922196735184497, "loss": 3.9158, "step": 51220 }, { "epoch": 0.10672916666666667, "grad_norm": 0.8846397995948792, "learning_rate": 0.00029221653937999627, "loss": 4.0009, "step": 51230 }, { "epoch": 0.10675, "grad_norm": 0.7249765992164612, "learning_rate": 0.0002922134046272237, "loss": 3.937, "step": 51240 }, { "epoch": 0.10677083333333333, "grad_norm": 0.7953372001647949, "learning_rate": 0.0002922102692601455, "loss": 4.1856, "step": 51250 }, { "epoch": 0.10679166666666666, "grad_norm": 0.8694043159484863, "learning_rate": 0.00029220713327877517, "loss": 3.8699, "step": 51260 }, { "epoch": 0.1068125, "grad_norm": 0.7265217900276184, "learning_rate": 0.00029220399668312643, "loss": 3.9448, "step": 51270 }, { "epoch": 0.10683333333333334, "grad_norm": 1.0783276557922363, "learning_rate": 0.00029220085947321265, "loss": 3.9503, "step": 51280 }, { "epoch": 0.10685416666666667, "grad_norm": 0.8365939259529114, "learning_rate": 0.0002921977216490474, "loss": 4.1027, "step": 51290 }, { "epoch": 0.106875, "grad_norm": 0.7701013684272766, "learning_rate": 0.00029219458321064434, "loss": 3.9475, "step": 51300 }, { "epoch": 0.10689583333333333, "grad_norm": 0.7184340953826904, "learning_rate": 0.0002921914441580169, "loss": 3.9289, "step": 51310 }, { "epoch": 0.10691666666666666, "grad_norm": 0.6850623488426208, "learning_rate": 0.00029218830449117883, "loss": 4.0371, "step": 51320 }, { "epoch": 0.1069375, "grad_norm": 0.8108096718788147, "learning_rate": 0.0002921851642101435, "loss": 4.0663, "step": 51330 }, { "epoch": 0.10695833333333334, "grad_norm": 0.8161534070968628, "learning_rate": 0.0002921820233149245, "loss": 4.0464, "step": 51340 }, { "epoch": 0.10697916666666667, "grad_norm": 0.7987128496170044, "learning_rate": 0.00029217888180553547, "loss": 4.03, "step": 51350 }, { "epoch": 0.107, "grad_norm": 0.8720340132713318, "learning_rate": 0.0002921757396819899, "loss": 3.9637, "step": 51360 }, { "epoch": 0.10702083333333333, "grad_norm": 0.8332940340042114, "learning_rate": 0.0002921725969443015, "loss": 3.8769, "step": 51370 }, { "epoch": 0.10704166666666666, "grad_norm": 0.8439117074012756, "learning_rate": 0.0002921694535924837, "loss": 3.8649, "step": 51380 }, { "epoch": 0.1070625, "grad_norm": 0.8776065707206726, "learning_rate": 0.00029216630962655016, "loss": 4.0344, "step": 51390 }, { "epoch": 0.10708333333333334, "grad_norm": 0.738735556602478, "learning_rate": 0.00029216316504651445, "loss": 3.8641, "step": 51400 }, { "epoch": 0.10710416666666667, "grad_norm": 0.8037091493606567, "learning_rate": 0.0002921600198523901, "loss": 3.9625, "step": 51410 }, { "epoch": 0.107125, "grad_norm": 0.7587477564811707, "learning_rate": 0.00029215687404419077, "loss": 3.7675, "step": 51420 }, { "epoch": 0.10714583333333333, "grad_norm": 0.9433364272117615, "learning_rate": 0.00029215372762192996, "loss": 4.1119, "step": 51430 }, { "epoch": 0.10716666666666666, "grad_norm": 0.7502623200416565, "learning_rate": 0.0002921505805856213, "loss": 4.1368, "step": 51440 }, { "epoch": 0.1071875, "grad_norm": 0.754521906375885, "learning_rate": 0.00029214743293527854, "loss": 4.0781, "step": 51450 }, { "epoch": 0.10720833333333334, "grad_norm": 0.7416971921920776, "learning_rate": 0.00029214428467091503, "loss": 3.9534, "step": 51460 }, { "epoch": 0.10722916666666667, "grad_norm": 0.9126066565513611, "learning_rate": 0.00029214113579254447, "loss": 3.9077, "step": 51470 }, { "epoch": 0.10725, "grad_norm": 1.542122483253479, "learning_rate": 0.00029213798630018046, "loss": 4.0877, "step": 51480 }, { "epoch": 0.10727083333333333, "grad_norm": 0.8194891214370728, "learning_rate": 0.00029213483619383666, "loss": 4.1349, "step": 51490 }, { "epoch": 0.10729166666666666, "grad_norm": 0.8701623678207397, "learning_rate": 0.0002921316854735266, "loss": 3.8439, "step": 51500 }, { "epoch": 0.1073125, "grad_norm": 0.721686601638794, "learning_rate": 0.00029212853413926397, "loss": 3.9645, "step": 51510 }, { "epoch": 0.10733333333333334, "grad_norm": 0.8494043946266174, "learning_rate": 0.0002921253821910623, "loss": 3.97, "step": 51520 }, { "epoch": 0.10735416666666667, "grad_norm": 0.8931439518928528, "learning_rate": 0.0002921222296289352, "loss": 3.9963, "step": 51530 }, { "epoch": 0.107375, "grad_norm": 0.7747337222099304, "learning_rate": 0.00029211907645289634, "loss": 3.935, "step": 51540 }, { "epoch": 0.10739583333333333, "grad_norm": 0.7565237879753113, "learning_rate": 0.0002921159226629593, "loss": 3.9925, "step": 51550 }, { "epoch": 0.10741666666666666, "grad_norm": 0.8155282139778137, "learning_rate": 0.00029211276825913776, "loss": 3.9368, "step": 51560 }, { "epoch": 0.1074375, "grad_norm": 0.6745347380638123, "learning_rate": 0.00029210961324144534, "loss": 3.7378, "step": 51570 }, { "epoch": 0.10745833333333334, "grad_norm": 0.8709880113601685, "learning_rate": 0.0002921064576098956, "loss": 4.0982, "step": 51580 }, { "epoch": 0.10747916666666667, "grad_norm": 0.9265515804290771, "learning_rate": 0.0002921033013645022, "loss": 4.0775, "step": 51590 }, { "epoch": 0.1075, "grad_norm": 0.881605863571167, "learning_rate": 0.00029210014450527884, "loss": 4.0188, "step": 51600 }, { "epoch": 0.10752083333333333, "grad_norm": 0.7834116816520691, "learning_rate": 0.0002920969870322391, "loss": 4.0769, "step": 51610 }, { "epoch": 0.10754166666666666, "grad_norm": 0.8273080587387085, "learning_rate": 0.0002920938289453966, "loss": 4.0006, "step": 51620 }, { "epoch": 0.1075625, "grad_norm": 0.6867583394050598, "learning_rate": 0.000292090670244765, "loss": 3.9926, "step": 51630 }, { "epoch": 0.10758333333333334, "grad_norm": 0.9835606217384338, "learning_rate": 0.00029208751093035793, "loss": 3.8799, "step": 51640 }, { "epoch": 0.10760416666666667, "grad_norm": 0.8329886794090271, "learning_rate": 0.00029208435100218903, "loss": 3.9406, "step": 51650 }, { "epoch": 0.107625, "grad_norm": 0.6891643404960632, "learning_rate": 0.0002920811904602721, "loss": 4.0072, "step": 51660 }, { "epoch": 0.10764583333333333, "grad_norm": 0.7854464054107666, "learning_rate": 0.00029207802930462056, "loss": 3.9541, "step": 51670 }, { "epoch": 0.10766666666666666, "grad_norm": 0.7853583693504333, "learning_rate": 0.0002920748675352482, "loss": 3.8468, "step": 51680 }, { "epoch": 0.1076875, "grad_norm": 0.7087932825088501, "learning_rate": 0.0002920717051521686, "loss": 3.9833, "step": 51690 }, { "epoch": 0.10770833333333334, "grad_norm": 0.8101626038551331, "learning_rate": 0.00029206854215539554, "loss": 4.0226, "step": 51700 }, { "epoch": 0.10772916666666667, "grad_norm": 0.8133219480514526, "learning_rate": 0.0002920653785449426, "loss": 4.0932, "step": 51710 }, { "epoch": 0.10775, "grad_norm": 0.7019925713539124, "learning_rate": 0.0002920622143208234, "loss": 4.0903, "step": 51720 }, { "epoch": 0.10777083333333333, "grad_norm": 0.9063321948051453, "learning_rate": 0.0002920590494830518, "loss": 3.9818, "step": 51730 }, { "epoch": 0.10779166666666666, "grad_norm": 1.0794398784637451, "learning_rate": 0.0002920558840316412, "loss": 3.9744, "step": 51740 }, { "epoch": 0.1078125, "grad_norm": 0.7844918966293335, "learning_rate": 0.00029205271796660544, "loss": 4.007, "step": 51750 }, { "epoch": 0.10783333333333334, "grad_norm": 0.810516357421875, "learning_rate": 0.0002920495512879582, "loss": 4.0214, "step": 51760 }, { "epoch": 0.10785416666666667, "grad_norm": 0.761742115020752, "learning_rate": 0.0002920463839957131, "loss": 4.1674, "step": 51770 }, { "epoch": 0.107875, "grad_norm": 0.9442174434661865, "learning_rate": 0.00029204321608988386, "loss": 4.0093, "step": 51780 }, { "epoch": 0.10789583333333333, "grad_norm": 0.8025702238082886, "learning_rate": 0.00029204004757048415, "loss": 4.0775, "step": 51790 }, { "epoch": 0.10791666666666666, "grad_norm": 0.8644669055938721, "learning_rate": 0.00029203687843752765, "loss": 3.9648, "step": 51800 }, { "epoch": 0.1079375, "grad_norm": 0.814372718334198, "learning_rate": 0.0002920337086910281, "loss": 4.0959, "step": 51810 }, { "epoch": 0.10795833333333334, "grad_norm": 0.9712896347045898, "learning_rate": 0.0002920305383309991, "loss": 4.1543, "step": 51820 }, { "epoch": 0.10797916666666667, "grad_norm": 0.8118899464607239, "learning_rate": 0.00029202736735745445, "loss": 4.0551, "step": 51830 }, { "epoch": 0.108, "grad_norm": 0.9023054242134094, "learning_rate": 0.0002920241957704077, "loss": 3.9148, "step": 51840 }, { "epoch": 0.10802083333333333, "grad_norm": 0.987561821937561, "learning_rate": 0.0002920210235698727, "loss": 4.0607, "step": 51850 }, { "epoch": 0.10804166666666666, "grad_norm": 0.7615936398506165, "learning_rate": 0.0002920178507558631, "loss": 3.8562, "step": 51860 }, { "epoch": 0.1080625, "grad_norm": 0.7280365824699402, "learning_rate": 0.0002920146773283926, "loss": 4.1818, "step": 51870 }, { "epoch": 0.10808333333333334, "grad_norm": 0.7535092234611511, "learning_rate": 0.0002920115032874749, "loss": 4.0763, "step": 51880 }, { "epoch": 0.10810416666666667, "grad_norm": 0.7573708295822144, "learning_rate": 0.0002920083286331237, "loss": 4.1118, "step": 51890 }, { "epoch": 0.108125, "grad_norm": 0.9810128211975098, "learning_rate": 0.0002920051533653527, "loss": 3.9832, "step": 51900 }, { "epoch": 0.10814583333333333, "grad_norm": 0.714684247970581, "learning_rate": 0.00029200197748417575, "loss": 3.9388, "step": 51910 }, { "epoch": 0.10816666666666666, "grad_norm": 0.7415071129798889, "learning_rate": 0.00029199880098960637, "loss": 3.8826, "step": 51920 }, { "epoch": 0.1081875, "grad_norm": 1.1449800729751587, "learning_rate": 0.00029199562388165844, "loss": 4.109, "step": 51930 }, { "epoch": 0.10820833333333334, "grad_norm": 0.7511093616485596, "learning_rate": 0.0002919924461603455, "loss": 3.9502, "step": 51940 }, { "epoch": 0.10822916666666667, "grad_norm": 0.6977457404136658, "learning_rate": 0.00029198926782568154, "loss": 4.0603, "step": 51950 }, { "epoch": 0.10825, "grad_norm": 0.8111187815666199, "learning_rate": 0.0002919860888776801, "loss": 3.8996, "step": 51960 }, { "epoch": 0.10827083333333333, "grad_norm": 0.8054956793785095, "learning_rate": 0.00029198290931635494, "loss": 4.0093, "step": 51970 }, { "epoch": 0.10829166666666666, "grad_norm": 0.8818517923355103, "learning_rate": 0.00029197972914171987, "loss": 3.9685, "step": 51980 }, { "epoch": 0.1083125, "grad_norm": 0.868332028388977, "learning_rate": 0.0002919765483537885, "loss": 3.9428, "step": 51990 }, { "epoch": 0.10833333333333334, "grad_norm": 0.7117992639541626, "learning_rate": 0.00029197336695257467, "loss": 4.1425, "step": 52000 }, { "epoch": 0.10833333333333334, "eval_loss": 4.292825222015381, "eval_runtime": 11.5883, "eval_samples_per_second": 0.863, "eval_steps_per_second": 0.259, "step": 52000 }, { "epoch": 0.10835416666666667, "grad_norm": 0.9602883458137512, "learning_rate": 0.0002919701849380921, "loss": 4.1732, "step": 52010 }, { "epoch": 0.108375, "grad_norm": 1.132872462272644, "learning_rate": 0.00029196700231035445, "loss": 3.8757, "step": 52020 }, { "epoch": 0.10839583333333333, "grad_norm": 0.8030247688293457, "learning_rate": 0.00029196381906937565, "loss": 3.9705, "step": 52030 }, { "epoch": 0.10841666666666666, "grad_norm": 0.8685594797134399, "learning_rate": 0.00029196063521516927, "loss": 4.1132, "step": 52040 }, { "epoch": 0.1084375, "grad_norm": 0.7503647804260254, "learning_rate": 0.00029195745074774915, "loss": 3.9934, "step": 52050 }, { "epoch": 0.10845833333333334, "grad_norm": 0.7165424227714539, "learning_rate": 0.00029195426566712906, "loss": 4.0667, "step": 52060 }, { "epoch": 0.10847916666666667, "grad_norm": 0.7634149193763733, "learning_rate": 0.00029195107997332276, "loss": 4.0073, "step": 52070 }, { "epoch": 0.1085, "grad_norm": 0.8187643885612488, "learning_rate": 0.0002919478936663439, "loss": 4.0633, "step": 52080 }, { "epoch": 0.10852083333333333, "grad_norm": 0.8465825915336609, "learning_rate": 0.0002919447067462064, "loss": 3.9046, "step": 52090 }, { "epoch": 0.10854166666666666, "grad_norm": 0.9938410520553589, "learning_rate": 0.00029194151921292395, "loss": 4.074, "step": 52100 }, { "epoch": 0.1085625, "grad_norm": 0.8423704504966736, "learning_rate": 0.0002919383310665103, "loss": 3.9815, "step": 52110 }, { "epoch": 0.10858333333333334, "grad_norm": 0.7817022800445557, "learning_rate": 0.00029193514230697925, "loss": 4.1427, "step": 52120 }, { "epoch": 0.10860416666666667, "grad_norm": 0.8780257105827332, "learning_rate": 0.00029193195293434455, "loss": 4.0044, "step": 52130 }, { "epoch": 0.108625, "grad_norm": 0.7431384921073914, "learning_rate": 0.00029192876294861997, "loss": 3.9484, "step": 52140 }, { "epoch": 0.10864583333333333, "grad_norm": 0.7732836008071899, "learning_rate": 0.00029192557234981935, "loss": 4.063, "step": 52150 }, { "epoch": 0.10866666666666666, "grad_norm": 0.7548495531082153, "learning_rate": 0.00029192238113795644, "loss": 4.044, "step": 52160 }, { "epoch": 0.1086875, "grad_norm": 0.7877428531646729, "learning_rate": 0.000291919189313045, "loss": 4.141, "step": 52170 }, { "epoch": 0.10870833333333334, "grad_norm": 0.8103417754173279, "learning_rate": 0.0002919159968750988, "loss": 4.1789, "step": 52180 }, { "epoch": 0.10872916666666667, "grad_norm": 0.7253836989402771, "learning_rate": 0.0002919128038241318, "loss": 4.0021, "step": 52190 }, { "epoch": 0.10875, "grad_norm": 0.818221926689148, "learning_rate": 0.0002919096101601575, "loss": 3.94, "step": 52200 }, { "epoch": 0.10877083333333333, "grad_norm": 0.7055040001869202, "learning_rate": 0.00029190641588319, "loss": 4.0548, "step": 52210 }, { "epoch": 0.10879166666666666, "grad_norm": 0.8298307657241821, "learning_rate": 0.00029190322099324284, "loss": 4.1305, "step": 52220 }, { "epoch": 0.1088125, "grad_norm": 0.8079668879508972, "learning_rate": 0.00029190002549033, "loss": 3.9561, "step": 52230 }, { "epoch": 0.10883333333333334, "grad_norm": 0.9573561549186707, "learning_rate": 0.0002918968293744652, "loss": 3.8645, "step": 52240 }, { "epoch": 0.10885416666666667, "grad_norm": 0.8227382302284241, "learning_rate": 0.0002918936326456623, "loss": 3.9068, "step": 52250 }, { "epoch": 0.108875, "grad_norm": 0.8383076190948486, "learning_rate": 0.000291890435303935, "loss": 3.929, "step": 52260 }, { "epoch": 0.10889583333333333, "grad_norm": 0.8024759888648987, "learning_rate": 0.0002918872373492972, "loss": 4.0615, "step": 52270 }, { "epoch": 0.10891666666666666, "grad_norm": 0.7810993194580078, "learning_rate": 0.00029188403878176275, "loss": 3.9906, "step": 52280 }, { "epoch": 0.1089375, "grad_norm": 0.7234829068183899, "learning_rate": 0.0002918808396013454, "loss": 4.0508, "step": 52290 }, { "epoch": 0.10895833333333334, "grad_norm": 0.7852441072463989, "learning_rate": 0.0002918776398080589, "loss": 3.9925, "step": 52300 }, { "epoch": 0.10897916666666667, "grad_norm": 0.9247604012489319, "learning_rate": 0.00029187443940191727, "loss": 4.1285, "step": 52310 }, { "epoch": 0.109, "grad_norm": 0.7500501275062561, "learning_rate": 0.00029187123838293413, "loss": 4.1962, "step": 52320 }, { "epoch": 0.10902083333333333, "grad_norm": 0.8548446297645569, "learning_rate": 0.00029186803675112344, "loss": 4.002, "step": 52330 }, { "epoch": 0.10904166666666666, "grad_norm": 0.7514891028404236, "learning_rate": 0.000291864834506499, "loss": 3.878, "step": 52340 }, { "epoch": 0.1090625, "grad_norm": 0.7346019148826599, "learning_rate": 0.0002918616316490746, "loss": 3.9506, "step": 52350 }, { "epoch": 0.10908333333333334, "grad_norm": 0.8644079566001892, "learning_rate": 0.0002918584281788641, "loss": 3.9435, "step": 52360 }, { "epoch": 0.10910416666666667, "grad_norm": 0.7271287441253662, "learning_rate": 0.0002918552240958814, "loss": 3.8575, "step": 52370 }, { "epoch": 0.109125, "grad_norm": 0.9098513722419739, "learning_rate": 0.0002918520194001402, "loss": 3.9648, "step": 52380 }, { "epoch": 0.10914583333333333, "grad_norm": 0.8556364178657532, "learning_rate": 0.0002918488140916545, "loss": 4.1142, "step": 52390 }, { "epoch": 0.10916666666666666, "grad_norm": 0.8531723618507385, "learning_rate": 0.000291845608170438, "loss": 4.0164, "step": 52400 }, { "epoch": 0.1091875, "grad_norm": 0.9475483894348145, "learning_rate": 0.00029184240163650466, "loss": 4.1148, "step": 52410 }, { "epoch": 0.10920833333333334, "grad_norm": 0.8153632879257202, "learning_rate": 0.0002918391944898683, "loss": 4.1306, "step": 52420 }, { "epoch": 0.10922916666666667, "grad_norm": 0.9830898642539978, "learning_rate": 0.0002918359867305427, "loss": 3.9117, "step": 52430 }, { "epoch": 0.10925, "grad_norm": 0.7919710874557495, "learning_rate": 0.00029183277835854185, "loss": 4.1084, "step": 52440 }, { "epoch": 0.10927083333333333, "grad_norm": 1.1078754663467407, "learning_rate": 0.0002918295693738795, "loss": 4.0675, "step": 52450 }, { "epoch": 0.10929166666666666, "grad_norm": 0.8586977124214172, "learning_rate": 0.00029182635977656956, "loss": 3.8616, "step": 52460 }, { "epoch": 0.1093125, "grad_norm": 0.7405294179916382, "learning_rate": 0.00029182314956662593, "loss": 3.9091, "step": 52470 }, { "epoch": 0.10933333333333334, "grad_norm": 1.0049537420272827, "learning_rate": 0.0002918199387440624, "loss": 3.8397, "step": 52480 }, { "epoch": 0.10935416666666667, "grad_norm": 0.7389025688171387, "learning_rate": 0.0002918167273088928, "loss": 4.0645, "step": 52490 }, { "epoch": 0.109375, "grad_norm": 0.766385555267334, "learning_rate": 0.00029181351526113116, "loss": 3.9259, "step": 52500 }, { "epoch": 0.10939583333333333, "grad_norm": 0.7778509259223938, "learning_rate": 0.00029181030260079125, "loss": 4.1662, "step": 52510 }, { "epoch": 0.10941666666666666, "grad_norm": 0.8445219993591309, "learning_rate": 0.00029180708932788693, "loss": 4.0251, "step": 52520 }, { "epoch": 0.1094375, "grad_norm": 0.8038216233253479, "learning_rate": 0.0002918038754424322, "loss": 3.9978, "step": 52530 }, { "epoch": 0.10945833333333334, "grad_norm": 0.8453511595726013, "learning_rate": 0.00029180066094444077, "loss": 3.828, "step": 52540 }, { "epoch": 0.10947916666666667, "grad_norm": 0.8067003488540649, "learning_rate": 0.00029179744583392663, "loss": 3.9561, "step": 52550 }, { "epoch": 0.1095, "grad_norm": 0.7459459900856018, "learning_rate": 0.00029179423011090364, "loss": 4.1009, "step": 52560 }, { "epoch": 0.10952083333333333, "grad_norm": 0.8324541449546814, "learning_rate": 0.0002917910137753858, "loss": 3.9422, "step": 52570 }, { "epoch": 0.10954166666666666, "grad_norm": 0.832737386226654, "learning_rate": 0.0002917877968273868, "loss": 3.8588, "step": 52580 }, { "epoch": 0.1095625, "grad_norm": 0.7939635515213013, "learning_rate": 0.0002917845792669207, "loss": 3.9388, "step": 52590 }, { "epoch": 0.10958333333333334, "grad_norm": 0.7925247550010681, "learning_rate": 0.0002917813610940013, "loss": 4.0098, "step": 52600 }, { "epoch": 0.10960416666666667, "grad_norm": 0.8496633768081665, "learning_rate": 0.00029177814230864254, "loss": 4.0395, "step": 52610 }, { "epoch": 0.109625, "grad_norm": 0.8074082732200623, "learning_rate": 0.0002917749229108583, "loss": 3.9595, "step": 52620 }, { "epoch": 0.10964583333333333, "grad_norm": 0.8831207752227783, "learning_rate": 0.0002917717029006626, "loss": 3.9476, "step": 52630 }, { "epoch": 0.10966666666666666, "grad_norm": 0.7828157544136047, "learning_rate": 0.00029176848227806924, "loss": 4.0193, "step": 52640 }, { "epoch": 0.1096875, "grad_norm": 2.1978719234466553, "learning_rate": 0.00029176526104309207, "loss": 4.2943, "step": 52650 }, { "epoch": 0.10970833333333334, "grad_norm": 0.7968044877052307, "learning_rate": 0.00029176203919574516, "loss": 3.8197, "step": 52660 }, { "epoch": 0.10972916666666667, "grad_norm": 0.7645314335823059, "learning_rate": 0.00029175881673604233, "loss": 3.8248, "step": 52670 }, { "epoch": 0.10975, "grad_norm": 0.8111442923545837, "learning_rate": 0.00029175559366399756, "loss": 3.9206, "step": 52680 }, { "epoch": 0.10977083333333333, "grad_norm": 0.7780027985572815, "learning_rate": 0.0002917523699796247, "loss": 3.8892, "step": 52690 }, { "epoch": 0.10979166666666666, "grad_norm": 0.7356646060943604, "learning_rate": 0.00029174914568293767, "loss": 4.0607, "step": 52700 }, { "epoch": 0.1098125, "grad_norm": 0.8040390610694885, "learning_rate": 0.0002917459207739505, "loss": 3.9026, "step": 52710 }, { "epoch": 0.10983333333333334, "grad_norm": 0.7996958494186401, "learning_rate": 0.00029174269525267704, "loss": 3.8874, "step": 52720 }, { "epoch": 0.10985416666666667, "grad_norm": 0.7688407301902771, "learning_rate": 0.00029173946911913124, "loss": 3.9387, "step": 52730 }, { "epoch": 0.109875, "grad_norm": 0.7038112878799438, "learning_rate": 0.00029173624237332704, "loss": 3.8037, "step": 52740 }, { "epoch": 0.10989583333333333, "grad_norm": 0.805330753326416, "learning_rate": 0.0002917330150152784, "loss": 3.8332, "step": 52750 }, { "epoch": 0.10991666666666666, "grad_norm": 0.7707400918006897, "learning_rate": 0.0002917297870449992, "loss": 4.0045, "step": 52760 }, { "epoch": 0.1099375, "grad_norm": 0.7355412244796753, "learning_rate": 0.0002917265584625034, "loss": 4.0422, "step": 52770 }, { "epoch": 0.10995833333333334, "grad_norm": 0.7653030753135681, "learning_rate": 0.00029172332926780505, "loss": 3.8315, "step": 52780 }, { "epoch": 0.10997916666666667, "grad_norm": 0.7614937424659729, "learning_rate": 0.000291720099460918, "loss": 3.9342, "step": 52790 }, { "epoch": 0.11, "grad_norm": 0.7058159112930298, "learning_rate": 0.0002917168690418562, "loss": 4.0702, "step": 52800 }, { "epoch": 0.11002083333333333, "grad_norm": 0.8921005129814148, "learning_rate": 0.00029171363801063356, "loss": 3.9833, "step": 52810 }, { "epoch": 0.11004166666666666, "grad_norm": 0.7762746214866638, "learning_rate": 0.00029171040636726415, "loss": 4.0211, "step": 52820 }, { "epoch": 0.1100625, "grad_norm": 0.7757589221000671, "learning_rate": 0.0002917071741117619, "loss": 3.8361, "step": 52830 }, { "epoch": 0.11008333333333334, "grad_norm": 0.7362900972366333, "learning_rate": 0.0002917039412441407, "loss": 3.7991, "step": 52840 }, { "epoch": 0.11010416666666667, "grad_norm": 0.6952081918716431, "learning_rate": 0.0002917007077644146, "loss": 4.0634, "step": 52850 }, { "epoch": 0.110125, "grad_norm": 0.7980598211288452, "learning_rate": 0.0002916974736725975, "loss": 4.0623, "step": 52860 }, { "epoch": 0.11014583333333333, "grad_norm": 0.7988148331642151, "learning_rate": 0.00029169423896870344, "loss": 4.1201, "step": 52870 }, { "epoch": 0.11016666666666666, "grad_norm": 0.8626530766487122, "learning_rate": 0.00029169100365274636, "loss": 4.0571, "step": 52880 }, { "epoch": 0.1101875, "grad_norm": 0.7965443134307861, "learning_rate": 0.00029168776772474017, "loss": 3.8099, "step": 52890 }, { "epoch": 0.11020833333333334, "grad_norm": 0.7561006546020508, "learning_rate": 0.00029168453118469894, "loss": 4.0266, "step": 52900 }, { "epoch": 0.11022916666666667, "grad_norm": 0.8024379014968872, "learning_rate": 0.0002916812940326366, "loss": 4.0878, "step": 52910 }, { "epoch": 0.11025, "grad_norm": 0.7615507245063782, "learning_rate": 0.0002916780562685672, "loss": 3.9266, "step": 52920 }, { "epoch": 0.11027083333333333, "grad_norm": 0.9090479612350464, "learning_rate": 0.00029167481789250466, "loss": 3.9366, "step": 52930 }, { "epoch": 0.11029166666666666, "grad_norm": 0.8365195989608765, "learning_rate": 0.0002916715789044629, "loss": 3.9034, "step": 52940 }, { "epoch": 0.1103125, "grad_norm": 0.8081237077713013, "learning_rate": 0.00029166833930445614, "loss": 3.8996, "step": 52950 }, { "epoch": 0.11033333333333334, "grad_norm": 0.8502915501594543, "learning_rate": 0.00029166509909249813, "loss": 3.9922, "step": 52960 }, { "epoch": 0.11035416666666667, "grad_norm": 0.8141067028045654, "learning_rate": 0.000291661858268603, "loss": 3.9005, "step": 52970 }, { "epoch": 0.110375, "grad_norm": 0.8019058108329773, "learning_rate": 0.00029165861683278475, "loss": 3.8704, "step": 52980 }, { "epoch": 0.11039583333333333, "grad_norm": 1.0281845331192017, "learning_rate": 0.0002916553747850573, "loss": 3.919, "step": 52990 }, { "epoch": 0.11041666666666666, "grad_norm": 0.8038377165794373, "learning_rate": 0.0002916521321254347, "loss": 3.9946, "step": 53000 }, { "epoch": 0.11041666666666666, "eval_loss": 4.287143707275391, "eval_runtime": 9.7771, "eval_samples_per_second": 1.023, "eval_steps_per_second": 0.307, "step": 53000 }, { "epoch": 0.1104375, "grad_norm": 0.8986204266548157, "learning_rate": 0.0002916488888539309, "loss": 4.0505, "step": 53010 }, { "epoch": 0.11045833333333334, "grad_norm": 0.7640153169631958, "learning_rate": 0.0002916456449705601, "loss": 3.8295, "step": 53020 }, { "epoch": 0.11047916666666667, "grad_norm": 0.7983289957046509, "learning_rate": 0.00029164240047533616, "loss": 3.868, "step": 53030 }, { "epoch": 0.1105, "grad_norm": 0.7742973566055298, "learning_rate": 0.00029163915536827305, "loss": 3.8922, "step": 53040 }, { "epoch": 0.11052083333333333, "grad_norm": 0.8335437178611755, "learning_rate": 0.0002916359096493849, "loss": 3.9397, "step": 53050 }, { "epoch": 0.11054166666666666, "grad_norm": 0.7938936948776245, "learning_rate": 0.0002916326633186856, "loss": 4.0751, "step": 53060 }, { "epoch": 0.1105625, "grad_norm": 0.8706938624382019, "learning_rate": 0.00029162941637618934, "loss": 3.8612, "step": 53070 }, { "epoch": 0.11058333333333334, "grad_norm": 0.7677713632583618, "learning_rate": 0.0002916261688219101, "loss": 4.0338, "step": 53080 }, { "epoch": 0.11060416666666667, "grad_norm": 0.9367477297782898, "learning_rate": 0.0002916229206558618, "loss": 3.8915, "step": 53090 }, { "epoch": 0.110625, "grad_norm": 0.7873819470405579, "learning_rate": 0.0002916196718780585, "loss": 4.1746, "step": 53100 }, { "epoch": 0.11064583333333333, "grad_norm": 0.7975022196769714, "learning_rate": 0.00029161642248851436, "loss": 4.0805, "step": 53110 }, { "epoch": 0.11066666666666666, "grad_norm": 0.8965891599655151, "learning_rate": 0.00029161317248724327, "loss": 4.0682, "step": 53120 }, { "epoch": 0.1106875, "grad_norm": 0.7114343047142029, "learning_rate": 0.00029160992187425935, "loss": 4.0278, "step": 53130 }, { "epoch": 0.11070833333333334, "grad_norm": 0.7752771973609924, "learning_rate": 0.00029160667064957664, "loss": 4.0363, "step": 53140 }, { "epoch": 0.11072916666666667, "grad_norm": 0.817577064037323, "learning_rate": 0.0002916034188132092, "loss": 3.9887, "step": 53150 }, { "epoch": 0.11075, "grad_norm": 0.7602166533470154, "learning_rate": 0.0002916001663651709, "loss": 3.9578, "step": 53160 }, { "epoch": 0.11077083333333333, "grad_norm": 0.6868917346000671, "learning_rate": 0.0002915969133054761, "loss": 4.0167, "step": 53170 }, { "epoch": 0.11079166666666666, "grad_norm": 0.7333712577819824, "learning_rate": 0.0002915936596341386, "loss": 3.8314, "step": 53180 }, { "epoch": 0.1108125, "grad_norm": 0.8951585292816162, "learning_rate": 0.00029159040535117254, "loss": 3.9547, "step": 53190 }, { "epoch": 0.11083333333333334, "grad_norm": 0.7691102623939514, "learning_rate": 0.000291587150456592, "loss": 4.0171, "step": 53200 }, { "epoch": 0.11085416666666667, "grad_norm": 0.7777038812637329, "learning_rate": 0.00029158389495041097, "loss": 4.0557, "step": 53210 }, { "epoch": 0.110875, "grad_norm": 0.7678014636039734, "learning_rate": 0.0002915806388326436, "loss": 4.0594, "step": 53220 }, { "epoch": 0.11089583333333333, "grad_norm": 0.8808465600013733, "learning_rate": 0.00029157738210330386, "loss": 4.1487, "step": 53230 }, { "epoch": 0.11091666666666666, "grad_norm": 0.8025858998298645, "learning_rate": 0.00029157412476240593, "loss": 3.9933, "step": 53240 }, { "epoch": 0.1109375, "grad_norm": 0.7906595468521118, "learning_rate": 0.00029157086680996376, "loss": 3.918, "step": 53250 }, { "epoch": 0.11095833333333334, "grad_norm": 0.8262672424316406, "learning_rate": 0.0002915676082459915, "loss": 4.1917, "step": 53260 }, { "epoch": 0.11097916666666667, "grad_norm": 0.7214429974555969, "learning_rate": 0.00029156434907050326, "loss": 4.0127, "step": 53270 }, { "epoch": 0.111, "grad_norm": 0.7250967025756836, "learning_rate": 0.000291561089283513, "loss": 4.0867, "step": 53280 }, { "epoch": 0.11102083333333333, "grad_norm": 0.8093532919883728, "learning_rate": 0.0002915578288850349, "loss": 3.9426, "step": 53290 }, { "epoch": 0.11104166666666666, "grad_norm": 0.9679776430130005, "learning_rate": 0.000291554567875083, "loss": 3.9925, "step": 53300 }, { "epoch": 0.1110625, "grad_norm": 0.7204603552818298, "learning_rate": 0.00029155130625367143, "loss": 3.9257, "step": 53310 }, { "epoch": 0.11108333333333334, "grad_norm": 0.8536656498908997, "learning_rate": 0.0002915480440208142, "loss": 4.1043, "step": 53320 }, { "epoch": 0.11110416666666667, "grad_norm": 0.7618528008460999, "learning_rate": 0.0002915447811765255, "loss": 4.0696, "step": 53330 }, { "epoch": 0.111125, "grad_norm": 0.8743622303009033, "learning_rate": 0.0002915415177208193, "loss": 3.9548, "step": 53340 }, { "epoch": 0.11114583333333333, "grad_norm": 0.6830845475196838, "learning_rate": 0.00029153825365370984, "loss": 3.9555, "step": 53350 }, { "epoch": 0.11116666666666666, "grad_norm": 0.92741858959198, "learning_rate": 0.0002915349889752111, "loss": 4.0029, "step": 53360 }, { "epoch": 0.1111875, "grad_norm": 0.7706344127655029, "learning_rate": 0.0002915317236853373, "loss": 4.0708, "step": 53370 }, { "epoch": 0.11120833333333334, "grad_norm": 0.8862875699996948, "learning_rate": 0.00029152845778410245, "loss": 3.868, "step": 53380 }, { "epoch": 0.11122916666666667, "grad_norm": 0.7734929323196411, "learning_rate": 0.00029152519127152065, "loss": 4.0393, "step": 53390 }, { "epoch": 0.11125, "grad_norm": 0.8274433016777039, "learning_rate": 0.00029152192414760603, "loss": 4.0143, "step": 53400 }, { "epoch": 0.11127083333333333, "grad_norm": 0.8333505988121033, "learning_rate": 0.00029151865641237275, "loss": 3.7917, "step": 53410 }, { "epoch": 0.11129166666666666, "grad_norm": 1.049241065979004, "learning_rate": 0.0002915153880658349, "loss": 3.987, "step": 53420 }, { "epoch": 0.1113125, "grad_norm": 0.7601693868637085, "learning_rate": 0.00029151211910800656, "loss": 4.0545, "step": 53430 }, { "epoch": 0.11133333333333334, "grad_norm": 0.9181479215621948, "learning_rate": 0.0002915088495389019, "loss": 3.9335, "step": 53440 }, { "epoch": 0.11135416666666667, "grad_norm": 0.8045979142189026, "learning_rate": 0.000291505579358535, "loss": 3.8212, "step": 53450 }, { "epoch": 0.111375, "grad_norm": 0.7896431684494019, "learning_rate": 0.00029150230856692, "loss": 4.1041, "step": 53460 }, { "epoch": 0.11139583333333333, "grad_norm": 0.6560031175613403, "learning_rate": 0.0002914990371640711, "loss": 3.8303, "step": 53470 }, { "epoch": 0.11141666666666666, "grad_norm": 0.7690889835357666, "learning_rate": 0.00029149576515000234, "loss": 3.8923, "step": 53480 }, { "epoch": 0.1114375, "grad_norm": 0.7666255831718445, "learning_rate": 0.00029149249252472784, "loss": 3.9374, "step": 53490 }, { "epoch": 0.11145833333333334, "grad_norm": 0.7665466070175171, "learning_rate": 0.00029148921928826184, "loss": 4.1684, "step": 53500 }, { "epoch": 0.11147916666666667, "grad_norm": 0.7785353660583496, "learning_rate": 0.0002914859454406184, "loss": 4.0742, "step": 53510 }, { "epoch": 0.1115, "grad_norm": 0.7910484671592712, "learning_rate": 0.00029148267098181164, "loss": 4.0096, "step": 53520 }, { "epoch": 0.11152083333333333, "grad_norm": 0.7075024843215942, "learning_rate": 0.0002914793959118558, "loss": 3.9381, "step": 53530 }, { "epoch": 0.11154166666666666, "grad_norm": 0.737091064453125, "learning_rate": 0.00029147612023076495, "loss": 3.8916, "step": 53540 }, { "epoch": 0.1115625, "grad_norm": 0.7996664643287659, "learning_rate": 0.00029147284393855324, "loss": 3.8037, "step": 53550 }, { "epoch": 0.11158333333333334, "grad_norm": 0.7620794177055359, "learning_rate": 0.0002914695670352349, "loss": 4.0547, "step": 53560 }, { "epoch": 0.11160416666666667, "grad_norm": 0.9369173049926758, "learning_rate": 0.0002914662895208239, "loss": 4.0153, "step": 53570 }, { "epoch": 0.111625, "grad_norm": 0.8283045887947083, "learning_rate": 0.00029146301139533465, "loss": 3.9179, "step": 53580 }, { "epoch": 0.11164583333333333, "grad_norm": 0.8813813924789429, "learning_rate": 0.0002914597326587811, "loss": 4.0876, "step": 53590 }, { "epoch": 0.11166666666666666, "grad_norm": 0.8540322780609131, "learning_rate": 0.0002914564533111776, "loss": 3.921, "step": 53600 }, { "epoch": 0.1116875, "grad_norm": 0.8220049142837524, "learning_rate": 0.0002914531733525382, "loss": 4.0458, "step": 53610 }, { "epoch": 0.11170833333333334, "grad_norm": 0.7949165105819702, "learning_rate": 0.000291449892782877, "loss": 3.9973, "step": 53620 }, { "epoch": 0.11172916666666667, "grad_norm": 0.856960117816925, "learning_rate": 0.0002914466116022083, "loss": 3.9142, "step": 53630 }, { "epoch": 0.11175, "grad_norm": 0.8311901092529297, "learning_rate": 0.00029144332981054623, "loss": 4.0232, "step": 53640 }, { "epoch": 0.11177083333333333, "grad_norm": 0.7674480676651001, "learning_rate": 0.00029144004740790493, "loss": 4.0432, "step": 53650 }, { "epoch": 0.11179166666666666, "grad_norm": 0.8217912912368774, "learning_rate": 0.0002914367643942987, "loss": 3.8703, "step": 53660 }, { "epoch": 0.1118125, "grad_norm": 0.7695301175117493, "learning_rate": 0.0002914334807697416, "loss": 4.1283, "step": 53670 }, { "epoch": 0.11183333333333334, "grad_norm": 0.7896645665168762, "learning_rate": 0.0002914301965342477, "loss": 4.0795, "step": 53680 }, { "epoch": 0.11185416666666667, "grad_norm": 1.0392377376556396, "learning_rate": 0.00029142691168783147, "loss": 4.0667, "step": 53690 }, { "epoch": 0.111875, "grad_norm": 0.9117002487182617, "learning_rate": 0.000291423626230507, "loss": 3.966, "step": 53700 }, { "epoch": 0.11189583333333333, "grad_norm": 0.8944419026374817, "learning_rate": 0.00029142034016228834, "loss": 4.0523, "step": 53710 }, { "epoch": 0.11191666666666666, "grad_norm": 0.791966438293457, "learning_rate": 0.00029141705348318986, "loss": 4.0174, "step": 53720 }, { "epoch": 0.1119375, "grad_norm": 0.8486201167106628, "learning_rate": 0.00029141376619322564, "loss": 3.9041, "step": 53730 }, { "epoch": 0.11195833333333334, "grad_norm": 0.727866530418396, "learning_rate": 0.00029141047829240994, "loss": 4.0645, "step": 53740 }, { "epoch": 0.11197916666666667, "grad_norm": 0.7042128443717957, "learning_rate": 0.00029140718978075696, "loss": 3.9214, "step": 53750 }, { "epoch": 0.112, "grad_norm": 0.8535209894180298, "learning_rate": 0.0002914039006582809, "loss": 3.8172, "step": 53760 }, { "epoch": 0.11202083333333333, "grad_norm": 0.8558336496353149, "learning_rate": 0.0002914006109249959, "loss": 4.0244, "step": 53770 }, { "epoch": 0.11204166666666666, "grad_norm": 0.7634351253509521, "learning_rate": 0.0002913973205809163, "loss": 4.1981, "step": 53780 }, { "epoch": 0.1120625, "grad_norm": 0.9074376821517944, "learning_rate": 0.0002913940296260562, "loss": 3.9885, "step": 53790 }, { "epoch": 0.11208333333333333, "grad_norm": 0.7365894317626953, "learning_rate": 0.00029139073806042987, "loss": 3.9825, "step": 53800 }, { "epoch": 0.11210416666666667, "grad_norm": 0.9071856141090393, "learning_rate": 0.00029138744588405157, "loss": 4.0964, "step": 53810 }, { "epoch": 0.112125, "grad_norm": 0.7501065135002136, "learning_rate": 0.0002913841530969354, "loss": 4.0113, "step": 53820 }, { "epoch": 0.11214583333333333, "grad_norm": 0.769594669342041, "learning_rate": 0.0002913808596990957, "loss": 3.921, "step": 53830 }, { "epoch": 0.11216666666666666, "grad_norm": 0.9653618335723877, "learning_rate": 0.00029137756569054665, "loss": 3.9994, "step": 53840 }, { "epoch": 0.1121875, "grad_norm": 0.8307741284370422, "learning_rate": 0.0002913742710713024, "loss": 3.9399, "step": 53850 }, { "epoch": 0.11220833333333333, "grad_norm": 0.7629021406173706, "learning_rate": 0.0002913709758413774, "loss": 4.0677, "step": 53860 }, { "epoch": 0.11222916666666667, "grad_norm": 0.8333168625831604, "learning_rate": 0.0002913676800007856, "loss": 3.8942, "step": 53870 }, { "epoch": 0.11225, "grad_norm": 0.7365798950195312, "learning_rate": 0.0002913643835495414, "loss": 3.9329, "step": 53880 }, { "epoch": 0.11227083333333333, "grad_norm": 0.8182818293571472, "learning_rate": 0.0002913610864876591, "loss": 4.1152, "step": 53890 }, { "epoch": 0.11229166666666666, "grad_norm": 0.7590382099151611, "learning_rate": 0.0002913577888151528, "loss": 4.0, "step": 53900 }, { "epoch": 0.1123125, "grad_norm": 0.7891393899917603, "learning_rate": 0.0002913544905320368, "loss": 4.1027, "step": 53910 }, { "epoch": 0.11233333333333333, "grad_norm": 0.7939102649688721, "learning_rate": 0.0002913511916383254, "loss": 3.9175, "step": 53920 }, { "epoch": 0.11235416666666667, "grad_norm": 1.2716625928878784, "learning_rate": 0.00029134789213403273, "loss": 3.7981, "step": 53930 }, { "epoch": 0.112375, "grad_norm": 0.8454559445381165, "learning_rate": 0.0002913445920191732, "loss": 4.1802, "step": 53940 }, { "epoch": 0.11239583333333333, "grad_norm": 0.8109568953514099, "learning_rate": 0.00029134129129376095, "loss": 4.1076, "step": 53950 }, { "epoch": 0.11241666666666666, "grad_norm": 0.6924893260002136, "learning_rate": 0.00029133798995781025, "loss": 3.9523, "step": 53960 }, { "epoch": 0.1124375, "grad_norm": 0.8436433672904968, "learning_rate": 0.0002913346880113354, "loss": 3.9559, "step": 53970 }, { "epoch": 0.11245833333333333, "grad_norm": 0.8140881657600403, "learning_rate": 0.00029133138545435065, "loss": 3.9539, "step": 53980 }, { "epoch": 0.11247916666666667, "grad_norm": 0.7920872569084167, "learning_rate": 0.00029132808228687023, "loss": 4.0456, "step": 53990 }, { "epoch": 0.1125, "grad_norm": 0.8136446475982666, "learning_rate": 0.0002913247785089084, "loss": 4.0914, "step": 54000 }, { "epoch": 0.1125, "eval_loss": 4.280838966369629, "eval_runtime": 10.6116, "eval_samples_per_second": 0.942, "eval_steps_per_second": 0.283, "step": 54000 }, { "epoch": 0.11252083333333333, "grad_norm": 0.77712482213974, "learning_rate": 0.00029132147412047957, "loss": 3.9758, "step": 54010 }, { "epoch": 0.11254166666666666, "grad_norm": 0.8757309913635254, "learning_rate": 0.00029131816912159785, "loss": 4.0426, "step": 54020 }, { "epoch": 0.1125625, "grad_norm": 0.7290351986885071, "learning_rate": 0.00029131486351227756, "loss": 3.9122, "step": 54030 }, { "epoch": 0.11258333333333333, "grad_norm": 0.7096030712127686, "learning_rate": 0.000291311557292533, "loss": 3.8814, "step": 54040 }, { "epoch": 0.11260416666666667, "grad_norm": 0.8860689401626587, "learning_rate": 0.0002913082504623785, "loss": 3.8465, "step": 54050 }, { "epoch": 0.112625, "grad_norm": 0.76201331615448, "learning_rate": 0.00029130494302182826, "loss": 3.98, "step": 54060 }, { "epoch": 0.11264583333333333, "grad_norm": 0.779542863368988, "learning_rate": 0.0002913016349708966, "loss": 4.1541, "step": 54070 }, { "epoch": 0.11266666666666666, "grad_norm": 0.985028088092804, "learning_rate": 0.0002912983263095978, "loss": 3.8634, "step": 54080 }, { "epoch": 0.1126875, "grad_norm": 0.8575774431228638, "learning_rate": 0.00029129501703794615, "loss": 3.8876, "step": 54090 }, { "epoch": 0.11270833333333333, "grad_norm": 0.7997328639030457, "learning_rate": 0.00029129170715595597, "loss": 4.0255, "step": 54100 }, { "epoch": 0.11272916666666667, "grad_norm": 0.7222681045532227, "learning_rate": 0.0002912883966636415, "loss": 4.0313, "step": 54110 }, { "epoch": 0.11275, "grad_norm": 0.8360675573348999, "learning_rate": 0.00029128508556101716, "loss": 4.2073, "step": 54120 }, { "epoch": 0.11277083333333333, "grad_norm": 0.81132972240448, "learning_rate": 0.00029128177384809715, "loss": 4.0361, "step": 54130 }, { "epoch": 0.11279166666666667, "grad_norm": 0.7303118109703064, "learning_rate": 0.00029127846152489573, "loss": 3.9028, "step": 54140 }, { "epoch": 0.1128125, "grad_norm": 0.8683115839958191, "learning_rate": 0.0002912751485914274, "loss": 3.9677, "step": 54150 }, { "epoch": 0.11283333333333333, "grad_norm": 0.8812719583511353, "learning_rate": 0.0002912718350477063, "loss": 3.996, "step": 54160 }, { "epoch": 0.11285416666666667, "grad_norm": 0.8308274745941162, "learning_rate": 0.0002912685208937467, "loss": 3.8356, "step": 54170 }, { "epoch": 0.112875, "grad_norm": 0.6979871988296509, "learning_rate": 0.0002912652061295631, "loss": 4.0132, "step": 54180 }, { "epoch": 0.11289583333333333, "grad_norm": 0.9117338061332703, "learning_rate": 0.0002912618907551697, "loss": 3.9262, "step": 54190 }, { "epoch": 0.11291666666666667, "grad_norm": 0.8472652435302734, "learning_rate": 0.00029125857477058087, "loss": 4.0324, "step": 54200 }, { "epoch": 0.1129375, "grad_norm": 0.743266224861145, "learning_rate": 0.0002912552581758109, "loss": 4.0731, "step": 54210 }, { "epoch": 0.11295833333333333, "grad_norm": 0.7494754791259766, "learning_rate": 0.00029125194097087416, "loss": 4.1534, "step": 54220 }, { "epoch": 0.11297916666666667, "grad_norm": 0.751899242401123, "learning_rate": 0.0002912486231557849, "loss": 4.0764, "step": 54230 }, { "epoch": 0.113, "grad_norm": 0.7224110960960388, "learning_rate": 0.0002912453047305575, "loss": 3.9223, "step": 54240 }, { "epoch": 0.11302083333333333, "grad_norm": 0.8038419485092163, "learning_rate": 0.00029124198569520636, "loss": 3.8798, "step": 54250 }, { "epoch": 0.11304166666666667, "grad_norm": 0.6930558681488037, "learning_rate": 0.00029123866604974566, "loss": 3.9899, "step": 54260 }, { "epoch": 0.1130625, "grad_norm": 0.7548181414604187, "learning_rate": 0.00029123534579418987, "loss": 3.8553, "step": 54270 }, { "epoch": 0.11308333333333333, "grad_norm": 0.7979262471199036, "learning_rate": 0.00029123202492855325, "loss": 4.0494, "step": 54280 }, { "epoch": 0.11310416666666667, "grad_norm": 0.7424187660217285, "learning_rate": 0.0002912287034528502, "loss": 3.9087, "step": 54290 }, { "epoch": 0.113125, "grad_norm": 0.8549516797065735, "learning_rate": 0.00029122538136709507, "loss": 3.8293, "step": 54300 }, { "epoch": 0.11314583333333333, "grad_norm": 0.717536211013794, "learning_rate": 0.00029122205867130224, "loss": 4.023, "step": 54310 }, { "epoch": 0.11316666666666667, "grad_norm": 0.8807007074356079, "learning_rate": 0.00029121873536548594, "loss": 4.0192, "step": 54320 }, { "epoch": 0.1131875, "grad_norm": 0.7513592839241028, "learning_rate": 0.00029121541144966063, "loss": 4.0564, "step": 54330 }, { "epoch": 0.11320833333333333, "grad_norm": 0.7990778088569641, "learning_rate": 0.00029121208692384063, "loss": 3.9472, "step": 54340 }, { "epoch": 0.11322916666666667, "grad_norm": 0.7603349089622498, "learning_rate": 0.00029120876178804036, "loss": 4.0012, "step": 54350 }, { "epoch": 0.11325, "grad_norm": 0.8535602688789368, "learning_rate": 0.00029120543604227407, "loss": 4.0624, "step": 54360 }, { "epoch": 0.11327083333333333, "grad_norm": 0.8001286387443542, "learning_rate": 0.0002912021096865562, "loss": 4.0139, "step": 54370 }, { "epoch": 0.11329166666666667, "grad_norm": 0.8954506516456604, "learning_rate": 0.00029119878272090117, "loss": 3.9726, "step": 54380 }, { "epoch": 0.1133125, "grad_norm": 0.7244200706481934, "learning_rate": 0.0002911954551453232, "loss": 3.853, "step": 54390 }, { "epoch": 0.11333333333333333, "grad_norm": 0.9759459495544434, "learning_rate": 0.0002911921269598368, "loss": 3.9457, "step": 54400 }, { "epoch": 0.11335416666666667, "grad_norm": 0.8425066471099854, "learning_rate": 0.0002911887981644563, "loss": 3.8838, "step": 54410 }, { "epoch": 0.113375, "grad_norm": 1.0385279655456543, "learning_rate": 0.0002911854687591961, "loss": 3.8266, "step": 54420 }, { "epoch": 0.11339583333333333, "grad_norm": 1.0086040496826172, "learning_rate": 0.0002911821387440705, "loss": 4.2336, "step": 54430 }, { "epoch": 0.11341666666666667, "grad_norm": 0.8561246991157532, "learning_rate": 0.00029117880811909395, "loss": 3.9645, "step": 54440 }, { "epoch": 0.1134375, "grad_norm": 0.7583532333374023, "learning_rate": 0.0002911754768842809, "loss": 3.7842, "step": 54450 }, { "epoch": 0.11345833333333333, "grad_norm": 0.7862679362297058, "learning_rate": 0.0002911721450396456, "loss": 3.9556, "step": 54460 }, { "epoch": 0.11347916666666667, "grad_norm": 0.7411077618598938, "learning_rate": 0.00029116881258520254, "loss": 4.059, "step": 54470 }, { "epoch": 0.1135, "grad_norm": 0.6947376132011414, "learning_rate": 0.00029116547952096614, "loss": 4.0333, "step": 54480 }, { "epoch": 0.11352083333333333, "grad_norm": 0.7771292328834534, "learning_rate": 0.0002911621458469507, "loss": 3.9279, "step": 54490 }, { "epoch": 0.11354166666666667, "grad_norm": 0.7524527907371521, "learning_rate": 0.0002911588115631706, "loss": 4.2295, "step": 54500 }, { "epoch": 0.1135625, "grad_norm": 1.6225998401641846, "learning_rate": 0.0002911554766696404, "loss": 4.0799, "step": 54510 }, { "epoch": 0.11358333333333333, "grad_norm": 0.9445501565933228, "learning_rate": 0.00029115214116637436, "loss": 4.0504, "step": 54520 }, { "epoch": 0.11360416666666667, "grad_norm": 0.8149837255477905, "learning_rate": 0.00029114880505338694, "loss": 3.9698, "step": 54530 }, { "epoch": 0.113625, "grad_norm": 0.7575581669807434, "learning_rate": 0.0002911454683306926, "loss": 4.2666, "step": 54540 }, { "epoch": 0.11364583333333333, "grad_norm": 0.7737521529197693, "learning_rate": 0.0002911421309983057, "loss": 3.8698, "step": 54550 }, { "epoch": 0.11366666666666667, "grad_norm": 1.0397659540176392, "learning_rate": 0.0002911387930562406, "loss": 3.9867, "step": 54560 }, { "epoch": 0.1136875, "grad_norm": 0.789445161819458, "learning_rate": 0.00029113545450451186, "loss": 4.0222, "step": 54570 }, { "epoch": 0.11370833333333333, "grad_norm": 0.9298253655433655, "learning_rate": 0.0002911321153431338, "loss": 4.2021, "step": 54580 }, { "epoch": 0.11372916666666667, "grad_norm": 1.0476429462432861, "learning_rate": 0.0002911287755721209, "loss": 4.1678, "step": 54590 }, { "epoch": 0.11375, "grad_norm": 0.8239476680755615, "learning_rate": 0.00029112543519148744, "loss": 4.0078, "step": 54600 }, { "epoch": 0.11377083333333333, "grad_norm": 0.8165156245231628, "learning_rate": 0.00029112209420124803, "loss": 3.896, "step": 54610 }, { "epoch": 0.11379166666666667, "grad_norm": 0.8070113062858582, "learning_rate": 0.00029111875260141705, "loss": 3.9147, "step": 54620 }, { "epoch": 0.1138125, "grad_norm": 0.8266675472259521, "learning_rate": 0.0002911154103920089, "loss": 4.0051, "step": 54630 }, { "epoch": 0.11383333333333333, "grad_norm": 0.8317335247993469, "learning_rate": 0.00029111206757303804, "loss": 3.9733, "step": 54640 }, { "epoch": 0.11385416666666667, "grad_norm": 0.840154767036438, "learning_rate": 0.00029110872414451886, "loss": 3.9761, "step": 54650 }, { "epoch": 0.113875, "grad_norm": 0.7286726832389832, "learning_rate": 0.0002911053801064659, "loss": 4.0047, "step": 54660 }, { "epoch": 0.11389583333333334, "grad_norm": 0.841788649559021, "learning_rate": 0.00029110203545889353, "loss": 3.9343, "step": 54670 }, { "epoch": 0.11391666666666667, "grad_norm": 0.8023160696029663, "learning_rate": 0.0002910986902018162, "loss": 4.0907, "step": 54680 }, { "epoch": 0.1139375, "grad_norm": 0.7802908420562744, "learning_rate": 0.0002910953443352484, "loss": 3.8565, "step": 54690 }, { "epoch": 0.11395833333333333, "grad_norm": 1.0106667280197144, "learning_rate": 0.0002910919978592046, "loss": 4.0557, "step": 54700 }, { "epoch": 0.11397916666666667, "grad_norm": 0.6741986274719238, "learning_rate": 0.0002910886507736992, "loss": 3.8516, "step": 54710 }, { "epoch": 0.114, "grad_norm": 0.7139117121696472, "learning_rate": 0.0002910853030787466, "loss": 4.0426, "step": 54720 }, { "epoch": 0.11402083333333334, "grad_norm": 0.7387940287590027, "learning_rate": 0.00029108195477436146, "loss": 4.1256, "step": 54730 }, { "epoch": 0.11404166666666667, "grad_norm": 0.8619028925895691, "learning_rate": 0.000291078605860558, "loss": 3.851, "step": 54740 }, { "epoch": 0.1140625, "grad_norm": 0.8429527878761292, "learning_rate": 0.0002910752563373509, "loss": 4.1251, "step": 54750 }, { "epoch": 0.11408333333333333, "grad_norm": 0.7705411314964294, "learning_rate": 0.00029107190620475447, "loss": 4.0714, "step": 54760 }, { "epoch": 0.11410416666666667, "grad_norm": 0.7936342358589172, "learning_rate": 0.00029106855546278326, "loss": 3.9697, "step": 54770 }, { "epoch": 0.114125, "grad_norm": 0.7898793816566467, "learning_rate": 0.0002910652041114517, "loss": 4.0045, "step": 54780 }, { "epoch": 0.11414583333333334, "grad_norm": 0.8115124702453613, "learning_rate": 0.0002910618521507744, "loss": 4.1036, "step": 54790 }, { "epoch": 0.11416666666666667, "grad_norm": 0.7644979953765869, "learning_rate": 0.00029105849958076566, "loss": 3.9279, "step": 54800 }, { "epoch": 0.1141875, "grad_norm": 0.7506288290023804, "learning_rate": 0.00029105514640144004, "loss": 4.0457, "step": 54810 }, { "epoch": 0.11420833333333333, "grad_norm": 0.8403288125991821, "learning_rate": 0.00029105179261281204, "loss": 3.8715, "step": 54820 }, { "epoch": 0.11422916666666667, "grad_norm": 0.8105493187904358, "learning_rate": 0.00029104843821489614, "loss": 3.9632, "step": 54830 }, { "epoch": 0.11425, "grad_norm": 0.7322739958763123, "learning_rate": 0.0002910450832077067, "loss": 4.0979, "step": 54840 }, { "epoch": 0.11427083333333334, "grad_norm": 0.8530154228210449, "learning_rate": 0.0002910417275912585, "loss": 4.0981, "step": 54850 }, { "epoch": 0.11429166666666667, "grad_norm": 0.9795765280723572, "learning_rate": 0.00029103837136556577, "loss": 4.1436, "step": 54860 }, { "epoch": 0.1143125, "grad_norm": 0.7400732636451721, "learning_rate": 0.0002910350145306431, "loss": 3.9806, "step": 54870 }, { "epoch": 0.11433333333333333, "grad_norm": 0.7170628905296326, "learning_rate": 0.000291031657086505, "loss": 4.07, "step": 54880 }, { "epoch": 0.11435416666666667, "grad_norm": 0.8993966579437256, "learning_rate": 0.000291028299033166, "loss": 4.0839, "step": 54890 }, { "epoch": 0.114375, "grad_norm": 0.8258939385414124, "learning_rate": 0.00029102494037064054, "loss": 3.7945, "step": 54900 }, { "epoch": 0.11439583333333334, "grad_norm": 0.7812408208847046, "learning_rate": 0.0002910215810989432, "loss": 3.8222, "step": 54910 }, { "epoch": 0.11441666666666667, "grad_norm": 0.7441757321357727, "learning_rate": 0.0002910182212180884, "loss": 3.9879, "step": 54920 }, { "epoch": 0.1144375, "grad_norm": 0.836484968662262, "learning_rate": 0.0002910148607280907, "loss": 4.048, "step": 54930 }, { "epoch": 0.11445833333333333, "grad_norm": 0.844278872013092, "learning_rate": 0.00029101149962896465, "loss": 4.0222, "step": 54940 }, { "epoch": 0.11447916666666667, "grad_norm": 0.7436351776123047, "learning_rate": 0.00029100813792072474, "loss": 4.1547, "step": 54950 }, { "epoch": 0.1145, "grad_norm": 0.8790718913078308, "learning_rate": 0.0002910047756033854, "loss": 3.9384, "step": 54960 }, { "epoch": 0.11452083333333334, "grad_norm": 1.0069365501403809, "learning_rate": 0.0002910014126769614, "loss": 4.1157, "step": 54970 }, { "epoch": 0.11454166666666667, "grad_norm": 0.7754048705101013, "learning_rate": 0.000290998049141467, "loss": 3.9471, "step": 54980 }, { "epoch": 0.1145625, "grad_norm": 0.7519248127937317, "learning_rate": 0.00029099468499691687, "loss": 3.9414, "step": 54990 }, { "epoch": 0.11458333333333333, "grad_norm": 0.7190216779708862, "learning_rate": 0.0002909913202433255, "loss": 3.9746, "step": 55000 }, { "epoch": 0.11458333333333333, "eval_loss": 4.282595157623291, "eval_runtime": 8.7917, "eval_samples_per_second": 1.137, "eval_steps_per_second": 0.341, "step": 55000 }, { "epoch": 0.11460416666666666, "grad_norm": 0.73598313331604, "learning_rate": 0.0002909879548807075, "loss": 3.798, "step": 55010 }, { "epoch": 0.114625, "grad_norm": 0.7681795954704285, "learning_rate": 0.00029098458890907726, "loss": 3.9372, "step": 55020 }, { "epoch": 0.11464583333333334, "grad_norm": 0.8460932374000549, "learning_rate": 0.0002909812223284494, "loss": 4.1843, "step": 55030 }, { "epoch": 0.11466666666666667, "grad_norm": 0.8196831345558167, "learning_rate": 0.0002909778551388385, "loss": 4.1184, "step": 55040 }, { "epoch": 0.1146875, "grad_norm": 0.6837860345840454, "learning_rate": 0.000290974487340259, "loss": 3.992, "step": 55050 }, { "epoch": 0.11470833333333333, "grad_norm": 0.843625545501709, "learning_rate": 0.0002909711189327256, "loss": 3.8545, "step": 55060 }, { "epoch": 0.11472916666666666, "grad_norm": 0.7268226146697998, "learning_rate": 0.0002909677499162528, "loss": 3.9443, "step": 55070 }, { "epoch": 0.11475, "grad_norm": 0.7199708819389343, "learning_rate": 0.000290964380290855, "loss": 4.0985, "step": 55080 }, { "epoch": 0.11477083333333334, "grad_norm": 0.7235242128372192, "learning_rate": 0.00029096101005654697, "loss": 4.0323, "step": 55090 }, { "epoch": 0.11479166666666667, "grad_norm": 0.7907050251960754, "learning_rate": 0.0002909576392133431, "loss": 3.9805, "step": 55100 }, { "epoch": 0.1148125, "grad_norm": 0.8369475603103638, "learning_rate": 0.0002909542677612581, "loss": 3.9457, "step": 55110 }, { "epoch": 0.11483333333333333, "grad_norm": 0.8142032623291016, "learning_rate": 0.0002909508957003064, "loss": 3.759, "step": 55120 }, { "epoch": 0.11485416666666666, "grad_norm": 0.9956970810890198, "learning_rate": 0.00029094752303050265, "loss": 4.0784, "step": 55130 }, { "epoch": 0.114875, "grad_norm": 0.7185103297233582, "learning_rate": 0.00029094414975186137, "loss": 3.9774, "step": 55140 }, { "epoch": 0.11489583333333334, "grad_norm": 0.7733570337295532, "learning_rate": 0.00029094077586439715, "loss": 4.0479, "step": 55150 }, { "epoch": 0.11491666666666667, "grad_norm": 0.7490519285202026, "learning_rate": 0.0002909374013681246, "loss": 3.8437, "step": 55160 }, { "epoch": 0.1149375, "grad_norm": 0.8149108290672302, "learning_rate": 0.00029093402626305826, "loss": 4.1582, "step": 55170 }, { "epoch": 0.11495833333333333, "grad_norm": 0.7319273948669434, "learning_rate": 0.00029093065054921265, "loss": 4.1906, "step": 55180 }, { "epoch": 0.11497916666666666, "grad_norm": 0.7475303411483765, "learning_rate": 0.0002909272742266025, "loss": 3.926, "step": 55190 }, { "epoch": 0.115, "grad_norm": 0.8271916508674622, "learning_rate": 0.0002909238972952423, "loss": 3.9795, "step": 55200 }, { "epoch": 0.11502083333333334, "grad_norm": 1.2443183660507202, "learning_rate": 0.00029092051975514654, "loss": 3.9289, "step": 55210 }, { "epoch": 0.11504166666666667, "grad_norm": 0.8365421295166016, "learning_rate": 0.00029091714160633003, "loss": 3.9704, "step": 55220 }, { "epoch": 0.1150625, "grad_norm": 0.8995363116264343, "learning_rate": 0.0002909137628488072, "loss": 3.9971, "step": 55230 }, { "epoch": 0.11508333333333333, "grad_norm": 0.7884370684623718, "learning_rate": 0.0002909103834825927, "loss": 3.9981, "step": 55240 }, { "epoch": 0.11510416666666666, "grad_norm": 0.8233088850975037, "learning_rate": 0.0002909070035077011, "loss": 3.686, "step": 55250 }, { "epoch": 0.115125, "grad_norm": 0.7961454391479492, "learning_rate": 0.00029090362292414707, "loss": 3.9204, "step": 55260 }, { "epoch": 0.11514583333333334, "grad_norm": 0.7829490900039673, "learning_rate": 0.0002909002417319451, "loss": 3.9261, "step": 55270 }, { "epoch": 0.11516666666666667, "grad_norm": 0.8642953038215637, "learning_rate": 0.0002908968599311099, "loss": 4.0254, "step": 55280 }, { "epoch": 0.1151875, "grad_norm": 0.7104470133781433, "learning_rate": 0.00029089347752165603, "loss": 4.0673, "step": 55290 }, { "epoch": 0.11520833333333333, "grad_norm": 0.8956674933433533, "learning_rate": 0.0002908900945035981, "loss": 3.9517, "step": 55300 }, { "epoch": 0.11522916666666666, "grad_norm": 0.7470389008522034, "learning_rate": 0.00029088671087695075, "loss": 4.1541, "step": 55310 }, { "epoch": 0.11525, "grad_norm": 0.9496526122093201, "learning_rate": 0.00029088332664172856, "loss": 4.0236, "step": 55320 }, { "epoch": 0.11527083333333334, "grad_norm": 1.01850426197052, "learning_rate": 0.0002908799417979461, "loss": 3.9318, "step": 55330 }, { "epoch": 0.11529166666666667, "grad_norm": 0.7430797815322876, "learning_rate": 0.00029087655634561815, "loss": 3.9599, "step": 55340 }, { "epoch": 0.1153125, "grad_norm": 0.8040732741355896, "learning_rate": 0.00029087317028475925, "loss": 3.9796, "step": 55350 }, { "epoch": 0.11533333333333333, "grad_norm": 0.8098499774932861, "learning_rate": 0.0002908697836153839, "loss": 4.0783, "step": 55360 }, { "epoch": 0.11535416666666666, "grad_norm": 0.7171045541763306, "learning_rate": 0.00029086639633750695, "loss": 4.1597, "step": 55370 }, { "epoch": 0.115375, "grad_norm": 0.7111401557922363, "learning_rate": 0.00029086300845114287, "loss": 4.1104, "step": 55380 }, { "epoch": 0.11539583333333334, "grad_norm": 0.7866699695587158, "learning_rate": 0.0002908596199563064, "loss": 4.2086, "step": 55390 }, { "epoch": 0.11541666666666667, "grad_norm": 0.9305040240287781, "learning_rate": 0.0002908562308530121, "loss": 4.0552, "step": 55400 }, { "epoch": 0.1154375, "grad_norm": 0.9883685111999512, "learning_rate": 0.0002908528411412746, "loss": 4.0012, "step": 55410 }, { "epoch": 0.11545833333333333, "grad_norm": 0.740370512008667, "learning_rate": 0.00029084945082110867, "loss": 3.8837, "step": 55420 }, { "epoch": 0.11547916666666666, "grad_norm": 0.8016185760498047, "learning_rate": 0.0002908460598925288, "loss": 4.0965, "step": 55430 }, { "epoch": 0.1155, "grad_norm": 1.0470367670059204, "learning_rate": 0.0002908426683555497, "loss": 4.0223, "step": 55440 }, { "epoch": 0.11552083333333334, "grad_norm": 0.7940205335617065, "learning_rate": 0.00029083927621018606, "loss": 4.0373, "step": 55450 }, { "epoch": 0.11554166666666667, "grad_norm": 0.8199257850646973, "learning_rate": 0.0002908358834564525, "loss": 4.0781, "step": 55460 }, { "epoch": 0.1155625, "grad_norm": 0.8272666335105896, "learning_rate": 0.0002908324900943636, "loss": 4.0151, "step": 55470 }, { "epoch": 0.11558333333333333, "grad_norm": 0.8007349967956543, "learning_rate": 0.0002908290961239341, "loss": 4.1157, "step": 55480 }, { "epoch": 0.11560416666666666, "grad_norm": 0.7423064112663269, "learning_rate": 0.0002908257015451787, "loss": 3.9899, "step": 55490 }, { "epoch": 0.115625, "grad_norm": 0.807608425617218, "learning_rate": 0.000290822306358112, "loss": 4.0666, "step": 55500 }, { "epoch": 0.11564583333333334, "grad_norm": 0.7157126069068909, "learning_rate": 0.00029081891056274866, "loss": 4.1128, "step": 55510 }, { "epoch": 0.11566666666666667, "grad_norm": 0.6915614008903503, "learning_rate": 0.00029081551415910335, "loss": 4.0052, "step": 55520 }, { "epoch": 0.1156875, "grad_norm": 0.8019481897354126, "learning_rate": 0.0002908121171471908, "loss": 3.9401, "step": 55530 }, { "epoch": 0.11570833333333333, "grad_norm": 0.7448357343673706, "learning_rate": 0.0002908087195270257, "loss": 3.8767, "step": 55540 }, { "epoch": 0.11572916666666666, "grad_norm": 0.8862829804420471, "learning_rate": 0.0002908053212986225, "loss": 4.1034, "step": 55550 }, { "epoch": 0.11575, "grad_norm": 0.8475197553634644, "learning_rate": 0.0002908019224619962, "loss": 3.927, "step": 55560 }, { "epoch": 0.11577083333333334, "grad_norm": 0.7861827611923218, "learning_rate": 0.0002907985230171612, "loss": 3.9181, "step": 55570 }, { "epoch": 0.11579166666666667, "grad_norm": 0.8424199223518372, "learning_rate": 0.0002907951229641324, "loss": 4.0166, "step": 55580 }, { "epoch": 0.1158125, "grad_norm": 0.9093542098999023, "learning_rate": 0.0002907917223029244, "loss": 4.0245, "step": 55590 }, { "epoch": 0.11583333333333333, "grad_norm": 0.8418501019477844, "learning_rate": 0.00029078832103355184, "loss": 3.9185, "step": 55600 }, { "epoch": 0.11585416666666666, "grad_norm": 0.8773674368858337, "learning_rate": 0.0002907849191560295, "loss": 3.928, "step": 55610 }, { "epoch": 0.115875, "grad_norm": 0.7624064683914185, "learning_rate": 0.000290781516670372, "loss": 3.8843, "step": 55620 }, { "epoch": 0.11589583333333334, "grad_norm": 0.8128445744514465, "learning_rate": 0.00029077811357659415, "loss": 3.8105, "step": 55630 }, { "epoch": 0.11591666666666667, "grad_norm": 0.8106861114501953, "learning_rate": 0.0002907747098747105, "loss": 4.1633, "step": 55640 }, { "epoch": 0.1159375, "grad_norm": 0.9018149971961975, "learning_rate": 0.00029077130556473584, "loss": 3.9364, "step": 55650 }, { "epoch": 0.11595833333333333, "grad_norm": 0.8528909087181091, "learning_rate": 0.0002907679006466849, "loss": 3.9462, "step": 55660 }, { "epoch": 0.11597916666666666, "grad_norm": 0.8209452033042908, "learning_rate": 0.0002907644951205723, "loss": 3.7773, "step": 55670 }, { "epoch": 0.116, "grad_norm": 0.8198520541191101, "learning_rate": 0.00029076108898641286, "loss": 4.0698, "step": 55680 }, { "epoch": 0.11602083333333334, "grad_norm": 0.8322768807411194, "learning_rate": 0.0002907576822442212, "loss": 3.8771, "step": 55690 }, { "epoch": 0.11604166666666667, "grad_norm": 0.7193964123725891, "learning_rate": 0.000290754274894012, "loss": 3.9011, "step": 55700 }, { "epoch": 0.1160625, "grad_norm": 0.8725239038467407, "learning_rate": 0.0002907508669358001, "loss": 4.0831, "step": 55710 }, { "epoch": 0.11608333333333333, "grad_norm": 0.8503686189651489, "learning_rate": 0.0002907474583696002, "loss": 3.9901, "step": 55720 }, { "epoch": 0.11610416666666666, "grad_norm": 0.9531903266906738, "learning_rate": 0.00029074404919542693, "loss": 3.9642, "step": 55730 }, { "epoch": 0.116125, "grad_norm": 0.6778217554092407, "learning_rate": 0.0002907406394132951, "loss": 4.0851, "step": 55740 }, { "epoch": 0.11614583333333334, "grad_norm": 0.7760130167007446, "learning_rate": 0.00029073722902321945, "loss": 3.9641, "step": 55750 }, { "epoch": 0.11616666666666667, "grad_norm": 0.7739828824996948, "learning_rate": 0.0002907338180252147, "loss": 4.0814, "step": 55760 }, { "epoch": 0.1161875, "grad_norm": 0.7053191065788269, "learning_rate": 0.00029073040641929546, "loss": 3.9444, "step": 55770 }, { "epoch": 0.11620833333333333, "grad_norm": 0.852531909942627, "learning_rate": 0.0002907269942054767, "loss": 3.9877, "step": 55780 }, { "epoch": 0.11622916666666666, "grad_norm": 1.0267517566680908, "learning_rate": 0.0002907235813837729, "loss": 3.8451, "step": 55790 }, { "epoch": 0.11625, "grad_norm": 0.684150755405426, "learning_rate": 0.000290720167954199, "loss": 3.9238, "step": 55800 }, { "epoch": 0.11627083333333334, "grad_norm": 0.79072505235672, "learning_rate": 0.00029071675391676967, "loss": 3.9906, "step": 55810 }, { "epoch": 0.11629166666666667, "grad_norm": 0.771257758140564, "learning_rate": 0.0002907133392714996, "loss": 3.8404, "step": 55820 }, { "epoch": 0.1163125, "grad_norm": 0.7140412330627441, "learning_rate": 0.00029070992401840373, "loss": 4.1559, "step": 55830 }, { "epoch": 0.11633333333333333, "grad_norm": 0.7020445466041565, "learning_rate": 0.0002907065081574966, "loss": 3.9605, "step": 55840 }, { "epoch": 0.11635416666666666, "grad_norm": 0.830005407333374, "learning_rate": 0.000290703091688793, "loss": 4.1671, "step": 55850 }, { "epoch": 0.116375, "grad_norm": 0.7565948963165283, "learning_rate": 0.00029069967461230786, "loss": 4.1292, "step": 55860 }, { "epoch": 0.11639583333333334, "grad_norm": 0.7385079860687256, "learning_rate": 0.0002906962569280557, "loss": 4.0766, "step": 55870 }, { "epoch": 0.11641666666666667, "grad_norm": 0.9085128307342529, "learning_rate": 0.0002906928386360515, "loss": 3.9143, "step": 55880 }, { "epoch": 0.1164375, "grad_norm": 0.7843457460403442, "learning_rate": 0.0002906894197363099, "loss": 4.0831, "step": 55890 }, { "epoch": 0.11645833333333333, "grad_norm": 0.87433922290802, "learning_rate": 0.00029068600022884566, "loss": 3.9345, "step": 55900 }, { "epoch": 0.11647916666666666, "grad_norm": 0.7391664385795593, "learning_rate": 0.00029068258011367363, "loss": 3.8752, "step": 55910 }, { "epoch": 0.1165, "grad_norm": 0.7576178312301636, "learning_rate": 0.0002906791593908085, "loss": 4.0088, "step": 55920 }, { "epoch": 0.11652083333333334, "grad_norm": 1.2139042615890503, "learning_rate": 0.00029067573806026514, "loss": 3.9768, "step": 55930 }, { "epoch": 0.11654166666666667, "grad_norm": 0.7836435437202454, "learning_rate": 0.00029067231612205823, "loss": 3.7968, "step": 55940 }, { "epoch": 0.1165625, "grad_norm": 0.9953556656837463, "learning_rate": 0.0002906688935762026, "loss": 4.075, "step": 55950 }, { "epoch": 0.11658333333333333, "grad_norm": 0.854648768901825, "learning_rate": 0.000290665470422713, "loss": 4.0641, "step": 55960 }, { "epoch": 0.11660416666666666, "grad_norm": 0.7571261525154114, "learning_rate": 0.00029066204666160434, "loss": 4.1727, "step": 55970 }, { "epoch": 0.116625, "grad_norm": 0.704644501209259, "learning_rate": 0.0002906586222928912, "loss": 3.8823, "step": 55980 }, { "epoch": 0.11664583333333334, "grad_norm": 0.7479310035705566, "learning_rate": 0.0002906551973165886, "loss": 3.8376, "step": 55990 }, { "epoch": 0.11666666666666667, "grad_norm": 0.720906138420105, "learning_rate": 0.00029065177173271116, "loss": 4.1812, "step": 56000 }, { "epoch": 0.11666666666666667, "eval_loss": 4.294170379638672, "eval_runtime": 10.1648, "eval_samples_per_second": 0.984, "eval_steps_per_second": 0.295, "step": 56000 }, { "epoch": 0.1166875, "grad_norm": 1.0072021484375, "learning_rate": 0.0002906483455412738, "loss": 3.9644, "step": 56010 }, { "epoch": 0.11670833333333333, "grad_norm": 0.7951868176460266, "learning_rate": 0.0002906449187422912, "loss": 3.9939, "step": 56020 }, { "epoch": 0.11672916666666666, "grad_norm": 0.7805221080780029, "learning_rate": 0.0002906414913357782, "loss": 3.9488, "step": 56030 }, { "epoch": 0.11675, "grad_norm": 0.8421866297721863, "learning_rate": 0.00029063806332174966, "loss": 3.9849, "step": 56040 }, { "epoch": 0.11677083333333334, "grad_norm": 0.9242716431617737, "learning_rate": 0.00029063463470022034, "loss": 3.9781, "step": 56050 }, { "epoch": 0.11679166666666667, "grad_norm": 1.015456199645996, "learning_rate": 0.0002906312054712051, "loss": 3.934, "step": 56060 }, { "epoch": 0.1168125, "grad_norm": 0.7998828887939453, "learning_rate": 0.00029062777563471873, "loss": 4.0238, "step": 56070 }, { "epoch": 0.11683333333333333, "grad_norm": 0.8360891342163086, "learning_rate": 0.000290624345190776, "loss": 3.8716, "step": 56080 }, { "epoch": 0.11685416666666666, "grad_norm": 0.8539111614227295, "learning_rate": 0.00029062091413939174, "loss": 4.0141, "step": 56090 }, { "epoch": 0.116875, "grad_norm": 0.8749781847000122, "learning_rate": 0.0002906174824805808, "loss": 4.035, "step": 56100 }, { "epoch": 0.11689583333333334, "grad_norm": 0.7206591963768005, "learning_rate": 0.00029061405021435803, "loss": 3.7986, "step": 56110 }, { "epoch": 0.11691666666666667, "grad_norm": 0.8539507389068604, "learning_rate": 0.0002906106173407382, "loss": 3.9991, "step": 56120 }, { "epoch": 0.1169375, "grad_norm": 0.7731249928474426, "learning_rate": 0.00029060718385973616, "loss": 3.8658, "step": 56130 }, { "epoch": 0.11695833333333333, "grad_norm": 0.9616889357566833, "learning_rate": 0.00029060374977136675, "loss": 4.076, "step": 56140 }, { "epoch": 0.11697916666666666, "grad_norm": 0.7676915526390076, "learning_rate": 0.00029060031507564484, "loss": 4.0837, "step": 56150 }, { "epoch": 0.117, "grad_norm": 0.730372428894043, "learning_rate": 0.0002905968797725852, "loss": 4.0699, "step": 56160 }, { "epoch": 0.11702083333333334, "grad_norm": 0.8027395606040955, "learning_rate": 0.00029059344386220265, "loss": 3.9859, "step": 56170 }, { "epoch": 0.11704166666666667, "grad_norm": 0.9086437821388245, "learning_rate": 0.00029059000734451206, "loss": 3.9054, "step": 56180 }, { "epoch": 0.1170625, "grad_norm": 0.7670403718948364, "learning_rate": 0.0002905865702195283, "loss": 3.8128, "step": 56190 }, { "epoch": 0.11708333333333333, "grad_norm": 0.7371429204940796, "learning_rate": 0.00029058313248726624, "loss": 4.0054, "step": 56200 }, { "epoch": 0.11710416666666666, "grad_norm": 0.7469834089279175, "learning_rate": 0.0002905796941477407, "loss": 3.9199, "step": 56210 }, { "epoch": 0.117125, "grad_norm": 0.8273292779922485, "learning_rate": 0.0002905762552009665, "loss": 4.0637, "step": 56220 }, { "epoch": 0.11714583333333334, "grad_norm": 0.8124821186065674, "learning_rate": 0.0002905728156469585, "loss": 4.0431, "step": 56230 }, { "epoch": 0.11716666666666667, "grad_norm": 0.7644612789154053, "learning_rate": 0.0002905693754857316, "loss": 3.9763, "step": 56240 }, { "epoch": 0.1171875, "grad_norm": 0.8196542263031006, "learning_rate": 0.0002905659347173007, "loss": 4.0209, "step": 56250 }, { "epoch": 0.11720833333333333, "grad_norm": 0.8038253784179688, "learning_rate": 0.0002905624933416805, "loss": 3.8601, "step": 56260 }, { "epoch": 0.11722916666666666, "grad_norm": 0.839231550693512, "learning_rate": 0.000290559051358886, "loss": 3.9017, "step": 56270 }, { "epoch": 0.11725, "grad_norm": 0.8437241911888123, "learning_rate": 0.00029055560876893203, "loss": 4.0724, "step": 56280 }, { "epoch": 0.11727083333333334, "grad_norm": 1.0062679052352905, "learning_rate": 0.00029055216557183355, "loss": 4.0604, "step": 56290 }, { "epoch": 0.11729166666666667, "grad_norm": 0.7756459712982178, "learning_rate": 0.0002905487217676053, "loss": 3.9563, "step": 56300 }, { "epoch": 0.1173125, "grad_norm": 0.7308062314987183, "learning_rate": 0.00029054527735626216, "loss": 4.0162, "step": 56310 }, { "epoch": 0.11733333333333333, "grad_norm": 0.7299001216888428, "learning_rate": 0.00029054183233781907, "loss": 3.8949, "step": 56320 }, { "epoch": 0.11735416666666666, "grad_norm": 0.6862199902534485, "learning_rate": 0.0002905383867122909, "loss": 4.1031, "step": 56330 }, { "epoch": 0.117375, "grad_norm": 0.7913153171539307, "learning_rate": 0.00029053494047969256, "loss": 4.1406, "step": 56340 }, { "epoch": 0.11739583333333334, "grad_norm": 0.7869061231613159, "learning_rate": 0.00029053149364003885, "loss": 3.9387, "step": 56350 }, { "epoch": 0.11741666666666667, "grad_norm": 0.8463881015777588, "learning_rate": 0.00029052804619334474, "loss": 3.8417, "step": 56360 }, { "epoch": 0.1174375, "grad_norm": 0.7460780739784241, "learning_rate": 0.00029052459813962514, "loss": 3.9589, "step": 56370 }, { "epoch": 0.11745833333333333, "grad_norm": 0.7711591720581055, "learning_rate": 0.00029052114947889483, "loss": 3.9987, "step": 56380 }, { "epoch": 0.11747916666666666, "grad_norm": 0.7521874308586121, "learning_rate": 0.0002905177002111688, "loss": 4.1527, "step": 56390 }, { "epoch": 0.1175, "grad_norm": 0.8013840317726135, "learning_rate": 0.0002905142503364619, "loss": 3.9288, "step": 56400 }, { "epoch": 0.11752083333333334, "grad_norm": 0.6988744735717773, "learning_rate": 0.00029051079985478913, "loss": 3.9492, "step": 56410 }, { "epoch": 0.11754166666666667, "grad_norm": 0.8298169374465942, "learning_rate": 0.00029050734876616527, "loss": 4.1224, "step": 56420 }, { "epoch": 0.1175625, "grad_norm": 0.8137542009353638, "learning_rate": 0.0002905038970706053, "loss": 3.9214, "step": 56430 }, { "epoch": 0.11758333333333333, "grad_norm": 0.8325487971305847, "learning_rate": 0.0002905004447681241, "loss": 3.9606, "step": 56440 }, { "epoch": 0.11760416666666666, "grad_norm": 0.7756044268608093, "learning_rate": 0.0002904969918587366, "loss": 3.9073, "step": 56450 }, { "epoch": 0.117625, "grad_norm": 0.7984540462493896, "learning_rate": 0.0002904935383424577, "loss": 4.0296, "step": 56460 }, { "epoch": 0.11764583333333334, "grad_norm": 0.901445209980011, "learning_rate": 0.0002904900842193023, "loss": 3.9374, "step": 56470 }, { "epoch": 0.11766666666666667, "grad_norm": 0.7483997941017151, "learning_rate": 0.00029048662948928536, "loss": 3.8815, "step": 56480 }, { "epoch": 0.1176875, "grad_norm": 0.7050619721412659, "learning_rate": 0.00029048317415242183, "loss": 3.8802, "step": 56490 }, { "epoch": 0.11770833333333333, "grad_norm": 0.7509648203849792, "learning_rate": 0.00029047971820872655, "loss": 4.0597, "step": 56500 }, { "epoch": 0.11772916666666666, "grad_norm": 0.7635084986686707, "learning_rate": 0.0002904762616582145, "loss": 4.0067, "step": 56510 }, { "epoch": 0.11775, "grad_norm": 0.768172562122345, "learning_rate": 0.00029047280450090064, "loss": 3.9561, "step": 56520 }, { "epoch": 0.11777083333333334, "grad_norm": 0.7837399244308472, "learning_rate": 0.0002904693467367998, "loss": 4.1027, "step": 56530 }, { "epoch": 0.11779166666666667, "grad_norm": 0.649170994758606, "learning_rate": 0.0002904658883659271, "loss": 3.8101, "step": 56540 }, { "epoch": 0.1178125, "grad_norm": 0.8390010595321655, "learning_rate": 0.00029046242938829723, "loss": 3.9339, "step": 56550 }, { "epoch": 0.11783333333333333, "grad_norm": 0.6965425610542297, "learning_rate": 0.0002904589698039253, "loss": 4.1883, "step": 56560 }, { "epoch": 0.11785416666666666, "grad_norm": 0.7161833047866821, "learning_rate": 0.0002904555096128263, "loss": 4.0557, "step": 56570 }, { "epoch": 0.117875, "grad_norm": 0.7771207094192505, "learning_rate": 0.000290452048815015, "loss": 3.8829, "step": 56580 }, { "epoch": 0.11789583333333334, "grad_norm": 0.8379648327827454, "learning_rate": 0.0002904485874105065, "loss": 3.794, "step": 56590 }, { "epoch": 0.11791666666666667, "grad_norm": 0.7967620491981506, "learning_rate": 0.0002904451253993157, "loss": 4.0677, "step": 56600 }, { "epoch": 0.1179375, "grad_norm": 0.708134651184082, "learning_rate": 0.0002904416627814575, "loss": 4.0732, "step": 56610 }, { "epoch": 0.11795833333333333, "grad_norm": 0.856321394443512, "learning_rate": 0.00029043819955694694, "loss": 3.9836, "step": 56620 }, { "epoch": 0.11797916666666666, "grad_norm": 0.7909742593765259, "learning_rate": 0.0002904347357257989, "loss": 4.1978, "step": 56630 }, { "epoch": 0.118, "grad_norm": 0.8919417858123779, "learning_rate": 0.00029043127128802846, "loss": 3.9525, "step": 56640 }, { "epoch": 0.11802083333333334, "grad_norm": 0.7588236331939697, "learning_rate": 0.00029042780624365046, "loss": 4.0576, "step": 56650 }, { "epoch": 0.11804166666666667, "grad_norm": 0.7503779530525208, "learning_rate": 0.00029042434059267994, "loss": 3.9877, "step": 56660 }, { "epoch": 0.1180625, "grad_norm": 0.8487511873245239, "learning_rate": 0.00029042087433513186, "loss": 4.0367, "step": 56670 }, { "epoch": 0.11808333333333333, "grad_norm": 0.8020816445350647, "learning_rate": 0.0002904174074710212, "loss": 3.9608, "step": 56680 }, { "epoch": 0.11810416666666666, "grad_norm": 0.7633774876594543, "learning_rate": 0.00029041394000036287, "loss": 3.8165, "step": 56690 }, { "epoch": 0.118125, "grad_norm": 0.7290301322937012, "learning_rate": 0.000290410471923172, "loss": 3.9237, "step": 56700 }, { "epoch": 0.11814583333333334, "grad_norm": 0.8135277628898621, "learning_rate": 0.0002904070032394634, "loss": 3.9668, "step": 56710 }, { "epoch": 0.11816666666666667, "grad_norm": 0.7767912745475769, "learning_rate": 0.00029040353394925206, "loss": 4.0933, "step": 56720 }, { "epoch": 0.1181875, "grad_norm": 0.7100511789321899, "learning_rate": 0.0002904000640525531, "loss": 3.8821, "step": 56730 }, { "epoch": 0.11820833333333333, "grad_norm": 0.7678107619285583, "learning_rate": 0.00029039659354938147, "loss": 3.9072, "step": 56740 }, { "epoch": 0.11822916666666666, "grad_norm": 0.8466576337814331, "learning_rate": 0.00029039312243975203, "loss": 3.9756, "step": 56750 }, { "epoch": 0.11825, "grad_norm": 0.849553644657135, "learning_rate": 0.00029038965072367996, "loss": 4.0272, "step": 56760 }, { "epoch": 0.11827083333333334, "grad_norm": 0.744983434677124, "learning_rate": 0.0002903861784011802, "loss": 4.0276, "step": 56770 }, { "epoch": 0.11829166666666667, "grad_norm": 0.8594872355461121, "learning_rate": 0.0002903827054722676, "loss": 4.1268, "step": 56780 }, { "epoch": 0.1183125, "grad_norm": 0.7540897727012634, "learning_rate": 0.00029037923193695733, "loss": 4.0293, "step": 56790 }, { "epoch": 0.11833333333333333, "grad_norm": 0.7658302783966064, "learning_rate": 0.00029037575779526436, "loss": 4.0225, "step": 56800 }, { "epoch": 0.11835416666666666, "grad_norm": 0.785839855670929, "learning_rate": 0.0002903722830472037, "loss": 3.9472, "step": 56810 }, { "epoch": 0.118375, "grad_norm": 0.8608853220939636, "learning_rate": 0.0002903688076927903, "loss": 3.9085, "step": 56820 }, { "epoch": 0.11839583333333334, "grad_norm": 0.7932624220848083, "learning_rate": 0.00029036533173203925, "loss": 3.8826, "step": 56830 }, { "epoch": 0.11841666666666667, "grad_norm": 0.7774642705917358, "learning_rate": 0.0002903618551649655, "loss": 3.8825, "step": 56840 }, { "epoch": 0.1184375, "grad_norm": 0.9357864260673523, "learning_rate": 0.0002903583779915841, "loss": 3.8193, "step": 56850 }, { "epoch": 0.11845833333333333, "grad_norm": 1.0105286836624146, "learning_rate": 0.00029035490021191005, "loss": 3.8532, "step": 56860 }, { "epoch": 0.11847916666666666, "grad_norm": 0.9198535084724426, "learning_rate": 0.0002903514218259584, "loss": 4.1509, "step": 56870 }, { "epoch": 0.1185, "grad_norm": 0.8107229471206665, "learning_rate": 0.0002903479428337442, "loss": 4.1258, "step": 56880 }, { "epoch": 0.11852083333333334, "grad_norm": 0.9385462999343872, "learning_rate": 0.0002903444632352824, "loss": 4.0722, "step": 56890 }, { "epoch": 0.11854166666666667, "grad_norm": 0.925900936126709, "learning_rate": 0.000290340983030588, "loss": 4.0399, "step": 56900 }, { "epoch": 0.1185625, "grad_norm": 0.7664802074432373, "learning_rate": 0.0002903375022196762, "loss": 3.9003, "step": 56910 }, { "epoch": 0.11858333333333333, "grad_norm": 0.7193266749382019, "learning_rate": 0.00029033402080256193, "loss": 4.0161, "step": 56920 }, { "epoch": 0.11860416666666666, "grad_norm": 0.9086200594902039, "learning_rate": 0.00029033053877926024, "loss": 3.9741, "step": 56930 }, { "epoch": 0.118625, "grad_norm": 0.7149487733840942, "learning_rate": 0.00029032705614978616, "loss": 3.9968, "step": 56940 }, { "epoch": 0.11864583333333334, "grad_norm": 0.8417680263519287, "learning_rate": 0.00029032357291415475, "loss": 3.9027, "step": 56950 }, { "epoch": 0.11866666666666667, "grad_norm": 0.8171008825302124, "learning_rate": 0.00029032008907238103, "loss": 3.8495, "step": 56960 }, { "epoch": 0.1186875, "grad_norm": 0.8483561873435974, "learning_rate": 0.0002903166046244801, "loss": 4.1358, "step": 56970 }, { "epoch": 0.11870833333333333, "grad_norm": 0.7300367951393127, "learning_rate": 0.0002903131195704669, "loss": 4.0694, "step": 56980 }, { "epoch": 0.11872916666666666, "grad_norm": 0.977458655834198, "learning_rate": 0.00029030963391035665, "loss": 3.9041, "step": 56990 }, { "epoch": 0.11875, "grad_norm": 0.8423096537590027, "learning_rate": 0.0002903061476441643, "loss": 4.156, "step": 57000 }, { "epoch": 0.11875, "eval_loss": 4.289418697357178, "eval_runtime": 9.2602, "eval_samples_per_second": 1.08, "eval_steps_per_second": 0.324, "step": 57000 }, { "epoch": 0.11877083333333334, "grad_norm": 0.8032045960426331, "learning_rate": 0.0002903026607719049, "loss": 3.8963, "step": 57010 }, { "epoch": 0.11879166666666667, "grad_norm": 0.7853243947029114, "learning_rate": 0.00029029917329359355, "loss": 3.817, "step": 57020 }, { "epoch": 0.1188125, "grad_norm": 0.8463734984397888, "learning_rate": 0.00029029568520924534, "loss": 4.1906, "step": 57030 }, { "epoch": 0.11883333333333333, "grad_norm": 0.8580271601676941, "learning_rate": 0.0002902921965188753, "loss": 3.9037, "step": 57040 }, { "epoch": 0.11885416666666666, "grad_norm": 0.8052808046340942, "learning_rate": 0.0002902887072224985, "loss": 3.9228, "step": 57050 }, { "epoch": 0.118875, "grad_norm": 0.8296950459480286, "learning_rate": 0.0002902852173201299, "loss": 3.9937, "step": 57060 }, { "epoch": 0.11889583333333334, "grad_norm": 0.8219202756881714, "learning_rate": 0.0002902817268117848, "loss": 4.0672, "step": 57070 }, { "epoch": 0.11891666666666667, "grad_norm": 0.9269209504127502, "learning_rate": 0.0002902782356974782, "loss": 3.9802, "step": 57080 }, { "epoch": 0.1189375, "grad_norm": 0.7016863822937012, "learning_rate": 0.0002902747439772251, "loss": 4.199, "step": 57090 }, { "epoch": 0.11895833333333333, "grad_norm": 0.7440541386604309, "learning_rate": 0.0002902712516510406, "loss": 3.8747, "step": 57100 }, { "epoch": 0.11897916666666666, "grad_norm": 1.014182209968567, "learning_rate": 0.0002902677587189398, "loss": 4.0557, "step": 57110 }, { "epoch": 0.119, "grad_norm": 0.7321959137916565, "learning_rate": 0.0002902642651809379, "loss": 3.9967, "step": 57120 }, { "epoch": 0.11902083333333334, "grad_norm": 0.875402569770813, "learning_rate": 0.00029026077103704983, "loss": 3.8565, "step": 57130 }, { "epoch": 0.11904166666666667, "grad_norm": 0.7200777530670166, "learning_rate": 0.0002902572762872908, "loss": 4.0269, "step": 57140 }, { "epoch": 0.1190625, "grad_norm": 0.8281102180480957, "learning_rate": 0.0002902537809316758, "loss": 3.9391, "step": 57150 }, { "epoch": 0.11908333333333333, "grad_norm": 0.9346588850021362, "learning_rate": 0.00029025028497022, "loss": 4.0313, "step": 57160 }, { "epoch": 0.11910416666666666, "grad_norm": 0.6934463381767273, "learning_rate": 0.0002902467884029385, "loss": 3.901, "step": 57170 }, { "epoch": 0.119125, "grad_norm": 0.7528210878372192, "learning_rate": 0.00029024329122984637, "loss": 3.9843, "step": 57180 }, { "epoch": 0.11914583333333334, "grad_norm": 0.7208352088928223, "learning_rate": 0.0002902397934509587, "loss": 3.9529, "step": 57190 }, { "epoch": 0.11916666666666667, "grad_norm": 0.744338870048523, "learning_rate": 0.0002902362950662907, "loss": 4.007, "step": 57200 }, { "epoch": 0.1191875, "grad_norm": 1.014168381690979, "learning_rate": 0.0002902327960758574, "loss": 3.9558, "step": 57210 }, { "epoch": 0.11920833333333333, "grad_norm": 0.7708386182785034, "learning_rate": 0.0002902292964796739, "loss": 4.001, "step": 57220 }, { "epoch": 0.11922916666666666, "grad_norm": 0.7542549967765808, "learning_rate": 0.00029022579627775534, "loss": 3.9229, "step": 57230 }, { "epoch": 0.11925, "grad_norm": 0.811883270740509, "learning_rate": 0.0002902222954701169, "loss": 3.9492, "step": 57240 }, { "epoch": 0.11927083333333334, "grad_norm": 0.8610782623291016, "learning_rate": 0.0002902187940567736, "loss": 4.0416, "step": 57250 }, { "epoch": 0.11929166666666667, "grad_norm": 0.8780964612960815, "learning_rate": 0.0002902152920377406, "loss": 3.817, "step": 57260 }, { "epoch": 0.1193125, "grad_norm": 0.7831577658653259, "learning_rate": 0.00029021178941303306, "loss": 3.9436, "step": 57270 }, { "epoch": 0.11933333333333333, "grad_norm": 0.9449195265769958, "learning_rate": 0.00029020828618266613, "loss": 3.9894, "step": 57280 }, { "epoch": 0.11935416666666666, "grad_norm": 0.7411288619041443, "learning_rate": 0.00029020478234665487, "loss": 4.1149, "step": 57290 }, { "epoch": 0.119375, "grad_norm": 1.0932413339614868, "learning_rate": 0.0002902012779050144, "loss": 3.9984, "step": 57300 }, { "epoch": 0.11939583333333334, "grad_norm": 0.7175021767616272, "learning_rate": 0.00029019777285775995, "loss": 3.9164, "step": 57310 }, { "epoch": 0.11941666666666667, "grad_norm": 0.7619694471359253, "learning_rate": 0.0002901942672049066, "loss": 3.8396, "step": 57320 }, { "epoch": 0.1194375, "grad_norm": 0.7155442833900452, "learning_rate": 0.0002901907609464696, "loss": 4.0507, "step": 57330 }, { "epoch": 0.11945833333333333, "grad_norm": 0.810901403427124, "learning_rate": 0.00029018725408246385, "loss": 4.075, "step": 57340 }, { "epoch": 0.11947916666666666, "grad_norm": 0.7877583503723145, "learning_rate": 0.00029018374661290476, "loss": 3.9334, "step": 57350 }, { "epoch": 0.1195, "grad_norm": 0.6841281652450562, "learning_rate": 0.0002901802385378073, "loss": 3.9745, "step": 57360 }, { "epoch": 0.11952083333333334, "grad_norm": 0.7194421291351318, "learning_rate": 0.0002901767298571868, "loss": 3.7963, "step": 57370 }, { "epoch": 0.11954166666666667, "grad_norm": 0.8044936656951904, "learning_rate": 0.00029017322057105823, "loss": 4.1072, "step": 57380 }, { "epoch": 0.1195625, "grad_norm": 0.6797013282775879, "learning_rate": 0.00029016971067943686, "loss": 3.8046, "step": 57390 }, { "epoch": 0.11958333333333333, "grad_norm": 0.7058988213539124, "learning_rate": 0.0002901662001823378, "loss": 3.9943, "step": 57400 }, { "epoch": 0.11960416666666666, "grad_norm": 0.7453915476799011, "learning_rate": 0.00029016268907977626, "loss": 3.8174, "step": 57410 }, { "epoch": 0.119625, "grad_norm": 0.7413231134414673, "learning_rate": 0.00029015917737176735, "loss": 3.8285, "step": 57420 }, { "epoch": 0.11964583333333334, "grad_norm": 0.963411808013916, "learning_rate": 0.0002901556650583263, "loss": 3.9649, "step": 57430 }, { "epoch": 0.11966666666666667, "grad_norm": 0.8033027052879333, "learning_rate": 0.00029015215213946824, "loss": 4.0453, "step": 57440 }, { "epoch": 0.1196875, "grad_norm": 0.7275689840316772, "learning_rate": 0.0002901486386152084, "loss": 3.9449, "step": 57450 }, { "epoch": 0.11970833333333333, "grad_norm": 0.8039407134056091, "learning_rate": 0.0002901451244855619, "loss": 4.0274, "step": 57460 }, { "epoch": 0.11972916666666666, "grad_norm": 0.7624537348747253, "learning_rate": 0.00029014160975054395, "loss": 4.0496, "step": 57470 }, { "epoch": 0.11975, "grad_norm": 0.7164099812507629, "learning_rate": 0.0002901380944101697, "loss": 4.0209, "step": 57480 }, { "epoch": 0.11977083333333334, "grad_norm": 0.8961880207061768, "learning_rate": 0.0002901345784644543, "loss": 3.8216, "step": 57490 }, { "epoch": 0.11979166666666667, "grad_norm": 0.778465211391449, "learning_rate": 0.000290131061913413, "loss": 3.9904, "step": 57500 }, { "epoch": 0.1198125, "grad_norm": 0.903177797794342, "learning_rate": 0.000290127544757061, "loss": 4.2, "step": 57510 }, { "epoch": 0.11983333333333333, "grad_norm": 0.9846578240394592, "learning_rate": 0.0002901240269954135, "loss": 3.9004, "step": 57520 }, { "epoch": 0.11985416666666666, "grad_norm": 0.7411828637123108, "learning_rate": 0.0002901205086284857, "loss": 4.029, "step": 57530 }, { "epoch": 0.119875, "grad_norm": 0.7959527373313904, "learning_rate": 0.00029011698965629266, "loss": 3.7633, "step": 57540 }, { "epoch": 0.11989583333333333, "grad_norm": 0.6706412434577942, "learning_rate": 0.00029011347007884975, "loss": 3.8831, "step": 57550 }, { "epoch": 0.11991666666666667, "grad_norm": 0.7397333383560181, "learning_rate": 0.0002901099498961721, "loss": 3.9014, "step": 57560 }, { "epoch": 0.1199375, "grad_norm": 1.347090721130371, "learning_rate": 0.00029010642910827494, "loss": 4.0941, "step": 57570 }, { "epoch": 0.11995833333333333, "grad_norm": 0.7213568687438965, "learning_rate": 0.00029010290771517346, "loss": 3.9272, "step": 57580 }, { "epoch": 0.11997916666666666, "grad_norm": 0.8501083254814148, "learning_rate": 0.0002900993857168829, "loss": 4.1726, "step": 57590 }, { "epoch": 0.12, "grad_norm": 0.7984176278114319, "learning_rate": 0.00029009586311341844, "loss": 3.9941, "step": 57600 }, { "epoch": 0.12002083333333333, "grad_norm": 0.7243282198905945, "learning_rate": 0.00029009233990479527, "loss": 3.9488, "step": 57610 }, { "epoch": 0.12004166666666667, "grad_norm": 0.7926515340805054, "learning_rate": 0.00029008881609102866, "loss": 4.0909, "step": 57620 }, { "epoch": 0.1200625, "grad_norm": 0.9915323853492737, "learning_rate": 0.0002900852916721338, "loss": 3.8911, "step": 57630 }, { "epoch": 0.12008333333333333, "grad_norm": 0.9317020773887634, "learning_rate": 0.000290081766648126, "loss": 4.1227, "step": 57640 }, { "epoch": 0.12010416666666666, "grad_norm": 0.7712224125862122, "learning_rate": 0.0002900782410190203, "loss": 4.1738, "step": 57650 }, { "epoch": 0.120125, "grad_norm": 0.78835129737854, "learning_rate": 0.0002900747147848321, "loss": 3.9921, "step": 57660 }, { "epoch": 0.12014583333333333, "grad_norm": 0.8754571080207825, "learning_rate": 0.0002900711879455766, "loss": 3.892, "step": 57670 }, { "epoch": 0.12016666666666667, "grad_norm": 0.9156897068023682, "learning_rate": 0.000290067660501269, "loss": 4.0093, "step": 57680 }, { "epoch": 0.1201875, "grad_norm": 0.7990496158599854, "learning_rate": 0.00029006413245192457, "loss": 4.1164, "step": 57690 }, { "epoch": 0.12020833333333333, "grad_norm": 0.8468999862670898, "learning_rate": 0.00029006060379755847, "loss": 4.0301, "step": 57700 }, { "epoch": 0.12022916666666666, "grad_norm": 0.8539043068885803, "learning_rate": 0.0002900570745381861, "loss": 3.8929, "step": 57710 }, { "epoch": 0.12025, "grad_norm": 0.787469744682312, "learning_rate": 0.00029005354467382245, "loss": 4.0662, "step": 57720 }, { "epoch": 0.12027083333333333, "grad_norm": 0.7025769352912903, "learning_rate": 0.00029005001420448305, "loss": 4.0443, "step": 57730 }, { "epoch": 0.12029166666666667, "grad_norm": 0.753982424736023, "learning_rate": 0.000290046483130183, "loss": 4.0932, "step": 57740 }, { "epoch": 0.1203125, "grad_norm": 0.8874134421348572, "learning_rate": 0.0002900429514509376, "loss": 3.8157, "step": 57750 }, { "epoch": 0.12033333333333333, "grad_norm": 0.6708769798278809, "learning_rate": 0.00029003941916676203, "loss": 4.0703, "step": 57760 }, { "epoch": 0.12035416666666666, "grad_norm": 0.7258111834526062, "learning_rate": 0.00029003588627767165, "loss": 4.2082, "step": 57770 }, { "epoch": 0.120375, "grad_norm": 0.8831981420516968, "learning_rate": 0.0002900323527836816, "loss": 3.9951, "step": 57780 }, { "epoch": 0.12039583333333333, "grad_norm": 0.7312948107719421, "learning_rate": 0.0002900288186848073, "loss": 3.9863, "step": 57790 }, { "epoch": 0.12041666666666667, "grad_norm": 0.8232468366622925, "learning_rate": 0.00029002528398106383, "loss": 4.0648, "step": 57800 }, { "epoch": 0.1204375, "grad_norm": 0.7484953999519348, "learning_rate": 0.00029002174867246664, "loss": 4.0159, "step": 57810 }, { "epoch": 0.12045833333333333, "grad_norm": 0.7534875869750977, "learning_rate": 0.00029001821275903095, "loss": 3.9252, "step": 57820 }, { "epoch": 0.12047916666666666, "grad_norm": 0.9110977649688721, "learning_rate": 0.0002900146762407719, "loss": 4.0248, "step": 57830 }, { "epoch": 0.1205, "grad_norm": 0.8413671255111694, "learning_rate": 0.0002900111391177049, "loss": 4.0157, "step": 57840 }, { "epoch": 0.12052083333333333, "grad_norm": 0.7987561821937561, "learning_rate": 0.00029000760138984526, "loss": 4.0693, "step": 57850 }, { "epoch": 0.12054166666666667, "grad_norm": 0.7569634318351746, "learning_rate": 0.0002900040630572082, "loss": 4.0348, "step": 57860 }, { "epoch": 0.1205625, "grad_norm": 0.8597027659416199, "learning_rate": 0.0002900005241198089, "loss": 4.0034, "step": 57870 }, { "epoch": 0.12058333333333333, "grad_norm": 0.7449933290481567, "learning_rate": 0.00028999698457766283, "loss": 4.0663, "step": 57880 }, { "epoch": 0.12060416666666667, "grad_norm": 0.7558733224868774, "learning_rate": 0.0002899934444307852, "loss": 4.0632, "step": 57890 }, { "epoch": 0.120625, "grad_norm": 0.7764396667480469, "learning_rate": 0.00028998990367919126, "loss": 3.8655, "step": 57900 }, { "epoch": 0.12064583333333333, "grad_norm": 0.7693336606025696, "learning_rate": 0.0002899863623228964, "loss": 4.0785, "step": 57910 }, { "epoch": 0.12066666666666667, "grad_norm": 0.8143793940544128, "learning_rate": 0.00028998282036191587, "loss": 3.8789, "step": 57920 }, { "epoch": 0.1206875, "grad_norm": 0.8654981255531311, "learning_rate": 0.00028997927779626494, "loss": 4.1164, "step": 57930 }, { "epoch": 0.12070833333333333, "grad_norm": 0.8259248733520508, "learning_rate": 0.0002899757346259589, "loss": 3.9703, "step": 57940 }, { "epoch": 0.12072916666666667, "grad_norm": 0.7371456027030945, "learning_rate": 0.00028997219085101316, "loss": 3.871, "step": 57950 }, { "epoch": 0.12075, "grad_norm": 0.7790418863296509, "learning_rate": 0.00028996864647144293, "loss": 3.8365, "step": 57960 }, { "epoch": 0.12077083333333333, "grad_norm": 0.7072028517723083, "learning_rate": 0.00028996510148726357, "loss": 3.9837, "step": 57970 }, { "epoch": 0.12079166666666667, "grad_norm": 0.8110467791557312, "learning_rate": 0.0002899615558984903, "loss": 4.023, "step": 57980 }, { "epoch": 0.1208125, "grad_norm": 0.9403396844863892, "learning_rate": 0.00028995800970513865, "loss": 4.0089, "step": 57990 }, { "epoch": 0.12083333333333333, "grad_norm": 0.8653222322463989, "learning_rate": 0.00028995446290722366, "loss": 3.9697, "step": 58000 }, { "epoch": 0.12083333333333333, "eval_loss": 4.308765411376953, "eval_runtime": 10.2855, "eval_samples_per_second": 0.972, "eval_steps_per_second": 0.292, "step": 58000 }, { "epoch": 0.12085416666666667, "grad_norm": 0.7267494797706604, "learning_rate": 0.00028995091550476084, "loss": 4.0684, "step": 58010 }, { "epoch": 0.120875, "grad_norm": 0.7623651623725891, "learning_rate": 0.0002899473674977655, "loss": 4.0218, "step": 58020 }, { "epoch": 0.12089583333333333, "grad_norm": 0.8465607166290283, "learning_rate": 0.00028994381888625283, "loss": 4.067, "step": 58030 }, { "epoch": 0.12091666666666667, "grad_norm": 0.7188336253166199, "learning_rate": 0.0002899402696702384, "loss": 3.9057, "step": 58040 }, { "epoch": 0.1209375, "grad_norm": 0.7072934508323669, "learning_rate": 0.0002899367198497373, "loss": 4.0846, "step": 58050 }, { "epoch": 0.12095833333333333, "grad_norm": 0.9341549277305603, "learning_rate": 0.00028993316942476494, "loss": 3.9086, "step": 58060 }, { "epoch": 0.12097916666666667, "grad_norm": 0.7532907724380493, "learning_rate": 0.0002899296183953367, "loss": 4.0498, "step": 58070 }, { "epoch": 0.121, "grad_norm": 0.8483770489692688, "learning_rate": 0.0002899260667614679, "loss": 3.9934, "step": 58080 }, { "epoch": 0.12102083333333333, "grad_norm": 0.8378314971923828, "learning_rate": 0.0002899225145231739, "loss": 4.025, "step": 58090 }, { "epoch": 0.12104166666666667, "grad_norm": 0.7262919545173645, "learning_rate": 0.00028991896168046997, "loss": 4.048, "step": 58100 }, { "epoch": 0.1210625, "grad_norm": 0.771669864654541, "learning_rate": 0.0002899154082333716, "loss": 4.0293, "step": 58110 }, { "epoch": 0.12108333333333333, "grad_norm": 0.7893829941749573, "learning_rate": 0.00028991185418189395, "loss": 4.0725, "step": 58120 }, { "epoch": 0.12110416666666667, "grad_norm": 0.785739004611969, "learning_rate": 0.0002899082995260526, "loss": 3.8748, "step": 58130 }, { "epoch": 0.121125, "grad_norm": 0.8535524010658264, "learning_rate": 0.00028990474426586265, "loss": 4.0582, "step": 58140 }, { "epoch": 0.12114583333333333, "grad_norm": 0.788882851600647, "learning_rate": 0.00028990118840133963, "loss": 4.1026, "step": 58150 }, { "epoch": 0.12116666666666667, "grad_norm": 0.7159596681594849, "learning_rate": 0.00028989763193249885, "loss": 4.0062, "step": 58160 }, { "epoch": 0.1211875, "grad_norm": 0.9488353729248047, "learning_rate": 0.00028989407485935565, "loss": 3.968, "step": 58170 }, { "epoch": 0.12120833333333333, "grad_norm": 0.675815224647522, "learning_rate": 0.00028989051718192544, "loss": 3.9806, "step": 58180 }, { "epoch": 0.12122916666666667, "grad_norm": 0.8615719676017761, "learning_rate": 0.0002898869589002236, "loss": 4.1105, "step": 58190 }, { "epoch": 0.12125, "grad_norm": 0.8493232131004333, "learning_rate": 0.0002898834000142654, "loss": 4.09, "step": 58200 }, { "epoch": 0.12127083333333333, "grad_norm": 0.8472740054130554, "learning_rate": 0.00028987984052406636, "loss": 4.0064, "step": 58210 }, { "epoch": 0.12129166666666667, "grad_norm": 0.7328134179115295, "learning_rate": 0.00028987628042964175, "loss": 4.1638, "step": 58220 }, { "epoch": 0.1213125, "grad_norm": 0.77391117811203, "learning_rate": 0.000289872719731007, "loss": 4.0005, "step": 58230 }, { "epoch": 0.12133333333333333, "grad_norm": 0.7503344416618347, "learning_rate": 0.00028986915842817737, "loss": 4.0578, "step": 58240 }, { "epoch": 0.12135416666666667, "grad_norm": 0.9317613840103149, "learning_rate": 0.00028986559652116844, "loss": 3.9599, "step": 58250 }, { "epoch": 0.121375, "grad_norm": 0.7134481072425842, "learning_rate": 0.00028986203400999545, "loss": 3.8976, "step": 58260 }, { "epoch": 0.12139583333333333, "grad_norm": 0.7878715991973877, "learning_rate": 0.00028985847089467383, "loss": 3.8378, "step": 58270 }, { "epoch": 0.12141666666666667, "grad_norm": 0.8619019389152527, "learning_rate": 0.000289854907175219, "loss": 3.9669, "step": 58280 }, { "epoch": 0.1214375, "grad_norm": 0.7316370010375977, "learning_rate": 0.0002898513428516463, "loss": 4.0534, "step": 58290 }, { "epoch": 0.12145833333333333, "grad_norm": 0.7693053483963013, "learning_rate": 0.0002898477779239712, "loss": 4.0788, "step": 58300 }, { "epoch": 0.12147916666666667, "grad_norm": 0.8299522995948792, "learning_rate": 0.000289844212392209, "loss": 4.0754, "step": 58310 }, { "epoch": 0.1215, "grad_norm": 0.787835419178009, "learning_rate": 0.00028984064625637516, "loss": 4.0827, "step": 58320 }, { "epoch": 0.12152083333333333, "grad_norm": 0.8573585152626038, "learning_rate": 0.0002898370795164851, "loss": 3.9649, "step": 58330 }, { "epoch": 0.12154166666666667, "grad_norm": 0.7393434643745422, "learning_rate": 0.00028983351217255423, "loss": 3.9406, "step": 58340 }, { "epoch": 0.1215625, "grad_norm": 0.9212964773178101, "learning_rate": 0.00028982994422459794, "loss": 3.9532, "step": 58350 }, { "epoch": 0.12158333333333333, "grad_norm": 0.814564049243927, "learning_rate": 0.0002898263756726316, "loss": 4.0677, "step": 58360 }, { "epoch": 0.12160416666666667, "grad_norm": 0.7601221799850464, "learning_rate": 0.0002898228065166707, "loss": 4.0358, "step": 58370 }, { "epoch": 0.121625, "grad_norm": 0.8271921277046204, "learning_rate": 0.0002898192367567306, "loss": 3.9652, "step": 58380 }, { "epoch": 0.12164583333333333, "grad_norm": 0.7480213046073914, "learning_rate": 0.0002898156663928268, "loss": 3.883, "step": 58390 }, { "epoch": 0.12166666666666667, "grad_norm": 0.7796541452407837, "learning_rate": 0.0002898120954249746, "loss": 4.002, "step": 58400 }, { "epoch": 0.1216875, "grad_norm": 0.7476634383201599, "learning_rate": 0.00028980852385318947, "loss": 4.0163, "step": 58410 }, { "epoch": 0.12170833333333334, "grad_norm": 0.967644453048706, "learning_rate": 0.0002898049516774869, "loss": 4.1618, "step": 58420 }, { "epoch": 0.12172916666666667, "grad_norm": 0.715627908706665, "learning_rate": 0.00028980137889788227, "loss": 4.0225, "step": 58430 }, { "epoch": 0.12175, "grad_norm": 0.8285053372383118, "learning_rate": 0.000289797805514391, "loss": 3.9408, "step": 58440 }, { "epoch": 0.12177083333333333, "grad_norm": 0.7864731550216675, "learning_rate": 0.0002897942315270285, "loss": 4.0156, "step": 58450 }, { "epoch": 0.12179166666666667, "grad_norm": 0.8041199445724487, "learning_rate": 0.0002897906569358104, "loss": 3.8992, "step": 58460 }, { "epoch": 0.1218125, "grad_norm": 0.7365431189537048, "learning_rate": 0.0002897870817407519, "loss": 3.8858, "step": 58470 }, { "epoch": 0.12183333333333334, "grad_norm": 0.7595269680023193, "learning_rate": 0.00028978350594186853, "loss": 3.9186, "step": 58480 }, { "epoch": 0.12185416666666667, "grad_norm": 0.7525302767753601, "learning_rate": 0.00028977992953917577, "loss": 4.0632, "step": 58490 }, { "epoch": 0.121875, "grad_norm": 0.7376665472984314, "learning_rate": 0.0002897763525326891, "loss": 4.0523, "step": 58500 }, { "epoch": 0.12189583333333333, "grad_norm": 0.7225883603096008, "learning_rate": 0.0002897727749224238, "loss": 4.0649, "step": 58510 }, { "epoch": 0.12191666666666667, "grad_norm": 0.8715702295303345, "learning_rate": 0.00028976919670839545, "loss": 4.1218, "step": 58520 }, { "epoch": 0.1219375, "grad_norm": 0.7517149448394775, "learning_rate": 0.00028976561789061957, "loss": 4.0398, "step": 58530 }, { "epoch": 0.12195833333333334, "grad_norm": 1.0276015996932983, "learning_rate": 0.0002897620384691115, "loss": 4.1966, "step": 58540 }, { "epoch": 0.12197916666666667, "grad_norm": 0.7432104349136353, "learning_rate": 0.00028975845844388673, "loss": 4.0694, "step": 58550 }, { "epoch": 0.122, "grad_norm": 0.7094054222106934, "learning_rate": 0.0002897548778149608, "loss": 4.0015, "step": 58560 }, { "epoch": 0.12202083333333333, "grad_norm": 0.7534720301628113, "learning_rate": 0.00028975129658234905, "loss": 4.0202, "step": 58570 }, { "epoch": 0.12204166666666667, "grad_norm": 0.7120024561882019, "learning_rate": 0.0002897477147460671, "loss": 3.826, "step": 58580 }, { "epoch": 0.1220625, "grad_norm": 0.765831708908081, "learning_rate": 0.0002897441323061302, "loss": 3.8102, "step": 58590 }, { "epoch": 0.12208333333333334, "grad_norm": 0.7979291081428528, "learning_rate": 0.0002897405492625541, "loss": 3.9647, "step": 58600 }, { "epoch": 0.12210416666666667, "grad_norm": 0.7936801910400391, "learning_rate": 0.0002897369656153541, "loss": 3.984, "step": 58610 }, { "epoch": 0.122125, "grad_norm": 0.7641825675964355, "learning_rate": 0.0002897333813645457, "loss": 3.9075, "step": 58620 }, { "epoch": 0.12214583333333333, "grad_norm": 0.8533358573913574, "learning_rate": 0.0002897297965101444, "loss": 3.9244, "step": 58630 }, { "epoch": 0.12216666666666667, "grad_norm": 0.9544987678527832, "learning_rate": 0.0002897262110521657, "loss": 3.9276, "step": 58640 }, { "epoch": 0.1221875, "grad_norm": 0.7423672676086426, "learning_rate": 0.00028972262499062513, "loss": 3.8874, "step": 58650 }, { "epoch": 0.12220833333333334, "grad_norm": 0.9484134316444397, "learning_rate": 0.000289719038325538, "loss": 4.0596, "step": 58660 }, { "epoch": 0.12222916666666667, "grad_norm": 0.8454275727272034, "learning_rate": 0.00028971545105692, "loss": 4.0167, "step": 58670 }, { "epoch": 0.12225, "grad_norm": 0.8040051460266113, "learning_rate": 0.00028971186318478657, "loss": 4.0405, "step": 58680 }, { "epoch": 0.12227083333333333, "grad_norm": 0.7652581334114075, "learning_rate": 0.00028970827470915317, "loss": 3.9015, "step": 58690 }, { "epoch": 0.12229166666666667, "grad_norm": 0.7617089152336121, "learning_rate": 0.00028970468563003533, "loss": 3.8535, "step": 58700 }, { "epoch": 0.1223125, "grad_norm": 0.7855530977249146, "learning_rate": 0.00028970109594744856, "loss": 3.9233, "step": 58710 }, { "epoch": 0.12233333333333334, "grad_norm": 0.7007876634597778, "learning_rate": 0.0002896975056614083, "loss": 3.974, "step": 58720 }, { "epoch": 0.12235416666666667, "grad_norm": 0.8092440366744995, "learning_rate": 0.0002896939147719302, "loss": 3.779, "step": 58730 }, { "epoch": 0.122375, "grad_norm": 0.876945436000824, "learning_rate": 0.00028969032327902963, "loss": 3.8744, "step": 58740 }, { "epoch": 0.12239583333333333, "grad_norm": 0.8161500096321106, "learning_rate": 0.00028968673118272216, "loss": 3.9168, "step": 58750 }, { "epoch": 0.12241666666666666, "grad_norm": 0.8570572137832642, "learning_rate": 0.00028968313848302333, "loss": 3.9246, "step": 58760 }, { "epoch": 0.1224375, "grad_norm": 0.7108163833618164, "learning_rate": 0.0002896795451799486, "loss": 4.0327, "step": 58770 }, { "epoch": 0.12245833333333334, "grad_norm": 0.7592309713363647, "learning_rate": 0.0002896759512735135, "loss": 4.0872, "step": 58780 }, { "epoch": 0.12247916666666667, "grad_norm": 0.8583866357803345, "learning_rate": 0.0002896723567637336, "loss": 3.8558, "step": 58790 }, { "epoch": 0.1225, "grad_norm": 0.8032364845275879, "learning_rate": 0.00028966876165062444, "loss": 3.9725, "step": 58800 }, { "epoch": 0.12252083333333333, "grad_norm": 0.759597659111023, "learning_rate": 0.0002896651659342015, "loss": 4.157, "step": 58810 }, { "epoch": 0.12254166666666666, "grad_norm": 0.9443415403366089, "learning_rate": 0.0002896615696144803, "loss": 4.0202, "step": 58820 }, { "epoch": 0.1225625, "grad_norm": 0.6591619253158569, "learning_rate": 0.00028965797269147643, "loss": 3.9996, "step": 58830 }, { "epoch": 0.12258333333333334, "grad_norm": 0.7279909253120422, "learning_rate": 0.00028965437516520535, "loss": 3.985, "step": 58840 }, { "epoch": 0.12260416666666667, "grad_norm": 0.783434271812439, "learning_rate": 0.0002896507770356827, "loss": 3.9551, "step": 58850 }, { "epoch": 0.122625, "grad_norm": 1.1516387462615967, "learning_rate": 0.00028964717830292394, "loss": 4.1768, "step": 58860 }, { "epoch": 0.12264583333333333, "grad_norm": 0.8258283734321594, "learning_rate": 0.00028964357896694466, "loss": 3.9036, "step": 58870 }, { "epoch": 0.12266666666666666, "grad_norm": 0.7921056151390076, "learning_rate": 0.00028963997902776046, "loss": 4.0215, "step": 58880 }, { "epoch": 0.1226875, "grad_norm": 0.7622324228286743, "learning_rate": 0.0002896363784853867, "loss": 3.9226, "step": 58890 }, { "epoch": 0.12270833333333334, "grad_norm": 0.980218231678009, "learning_rate": 0.00028963277733983915, "loss": 3.7993, "step": 58900 }, { "epoch": 0.12272916666666667, "grad_norm": 0.7496768832206726, "learning_rate": 0.00028962917559113323, "loss": 4.0895, "step": 58910 }, { "epoch": 0.12275, "grad_norm": 0.7021639347076416, "learning_rate": 0.00028962557323928455, "loss": 3.9113, "step": 58920 }, { "epoch": 0.12277083333333333, "grad_norm": 0.7668494582176208, "learning_rate": 0.0002896219702843086, "loss": 3.979, "step": 58930 }, { "epoch": 0.12279166666666666, "grad_norm": 0.7994961142539978, "learning_rate": 0.0002896183667262211, "loss": 3.9905, "step": 58940 }, { "epoch": 0.1228125, "grad_norm": 0.8457812666893005, "learning_rate": 0.0002896147625650375, "loss": 3.9484, "step": 58950 }, { "epoch": 0.12283333333333334, "grad_norm": 0.8466345071792603, "learning_rate": 0.0002896111578007734, "loss": 4.0251, "step": 58960 }, { "epoch": 0.12285416666666667, "grad_norm": 0.6990904211997986, "learning_rate": 0.0002896075524334443, "loss": 3.8724, "step": 58970 }, { "epoch": 0.122875, "grad_norm": 0.6941803693771362, "learning_rate": 0.00028960394646306584, "loss": 4.1091, "step": 58980 }, { "epoch": 0.12289583333333333, "grad_norm": 0.7710018754005432, "learning_rate": 0.00028960033988965363, "loss": 4.0476, "step": 58990 }, { "epoch": 0.12291666666666666, "grad_norm": 0.7830733060836792, "learning_rate": 0.0002895967327132232, "loss": 3.8969, "step": 59000 }, { "epoch": 0.12291666666666666, "eval_loss": 4.304332733154297, "eval_runtime": 10.2297, "eval_samples_per_second": 0.978, "eval_steps_per_second": 0.293, "step": 59000 }, { "epoch": 0.1229375, "grad_norm": 0.7076270580291748, "learning_rate": 0.00028959312493379014, "loss": 4.0692, "step": 59010 }, { "epoch": 0.12295833333333334, "grad_norm": 0.8446481227874756, "learning_rate": 0.00028958951655137, "loss": 4.0925, "step": 59020 }, { "epoch": 0.12297916666666667, "grad_norm": 0.7308094501495361, "learning_rate": 0.00028958590756597845, "loss": 4.0036, "step": 59030 }, { "epoch": 0.123, "grad_norm": 0.8042703866958618, "learning_rate": 0.00028958229797763105, "loss": 3.6909, "step": 59040 }, { "epoch": 0.12302083333333333, "grad_norm": 0.8013021945953369, "learning_rate": 0.0002895786877863433, "loss": 4.0733, "step": 59050 }, { "epoch": 0.12304166666666666, "grad_norm": 0.882853090763092, "learning_rate": 0.0002895750769921309, "loss": 3.9522, "step": 59060 }, { "epoch": 0.1230625, "grad_norm": 0.7177476286888123, "learning_rate": 0.00028957146559500946, "loss": 3.9204, "step": 59070 }, { "epoch": 0.12308333333333334, "grad_norm": 0.8178974986076355, "learning_rate": 0.0002895678535949945, "loss": 3.9289, "step": 59080 }, { "epoch": 0.12310416666666667, "grad_norm": 0.7250188589096069, "learning_rate": 0.0002895642409921016, "loss": 3.9496, "step": 59090 }, { "epoch": 0.123125, "grad_norm": 0.8501078486442566, "learning_rate": 0.0002895606277863465, "loss": 3.8838, "step": 59100 }, { "epoch": 0.12314583333333333, "grad_norm": 0.7384798526763916, "learning_rate": 0.0002895570139777447, "loss": 3.9022, "step": 59110 }, { "epoch": 0.12316666666666666, "grad_norm": 0.88756263256073, "learning_rate": 0.00028955339956631185, "loss": 3.8496, "step": 59120 }, { "epoch": 0.1231875, "grad_norm": 1.0091770887374878, "learning_rate": 0.00028954978455206356, "loss": 4.1302, "step": 59130 }, { "epoch": 0.12320833333333334, "grad_norm": 0.8608778715133667, "learning_rate": 0.0002895461689350154, "loss": 3.743, "step": 59140 }, { "epoch": 0.12322916666666667, "grad_norm": 0.8289542198181152, "learning_rate": 0.0002895425527151831, "loss": 4.0942, "step": 59150 }, { "epoch": 0.12325, "grad_norm": 0.7657513618469238, "learning_rate": 0.0002895389358925822, "loss": 4.0394, "step": 59160 }, { "epoch": 0.12327083333333333, "grad_norm": 0.7718591094017029, "learning_rate": 0.00028953531846722823, "loss": 3.9805, "step": 59170 }, { "epoch": 0.12329166666666666, "grad_norm": 0.7843058705329895, "learning_rate": 0.000289531700439137, "loss": 4.0017, "step": 59180 }, { "epoch": 0.1233125, "grad_norm": 0.722235381603241, "learning_rate": 0.00028952808180832405, "loss": 4.0231, "step": 59190 }, { "epoch": 0.12333333333333334, "grad_norm": 0.7318554520606995, "learning_rate": 0.00028952446257480495, "loss": 3.8719, "step": 59200 }, { "epoch": 0.12335416666666667, "grad_norm": 0.8016271591186523, "learning_rate": 0.00028952084273859547, "loss": 3.9178, "step": 59210 }, { "epoch": 0.123375, "grad_norm": 0.6923083662986755, "learning_rate": 0.0002895172222997111, "loss": 4.0387, "step": 59220 }, { "epoch": 0.12339583333333333, "grad_norm": 0.8460187911987305, "learning_rate": 0.0002895136012581677, "loss": 3.8641, "step": 59230 }, { "epoch": 0.12341666666666666, "grad_norm": 0.827653706073761, "learning_rate": 0.0002895099796139806, "loss": 3.9304, "step": 59240 }, { "epoch": 0.1234375, "grad_norm": 0.7599294185638428, "learning_rate": 0.0002895063573671657, "loss": 3.9112, "step": 59250 }, { "epoch": 0.12345833333333334, "grad_norm": 0.8326315879821777, "learning_rate": 0.00028950273451773854, "loss": 3.9248, "step": 59260 }, { "epoch": 0.12347916666666667, "grad_norm": 0.7965421080589294, "learning_rate": 0.0002894991110657148, "loss": 4.043, "step": 59270 }, { "epoch": 0.1235, "grad_norm": 0.7838216423988342, "learning_rate": 0.0002894954870111101, "loss": 3.9917, "step": 59280 }, { "epoch": 0.12352083333333333, "grad_norm": 0.8560947179794312, "learning_rate": 0.0002894918623539401, "loss": 3.9958, "step": 59290 }, { "epoch": 0.12354166666666666, "grad_norm": 0.752515435218811, "learning_rate": 0.0002894882370942205, "loss": 3.9621, "step": 59300 }, { "epoch": 0.1235625, "grad_norm": 0.7699630856513977, "learning_rate": 0.00028948461123196696, "loss": 3.9706, "step": 59310 }, { "epoch": 0.12358333333333334, "grad_norm": 0.8114316463470459, "learning_rate": 0.00028948098476719504, "loss": 3.7403, "step": 59320 }, { "epoch": 0.12360416666666667, "grad_norm": 0.8304722309112549, "learning_rate": 0.00028947735769992047, "loss": 3.8562, "step": 59330 }, { "epoch": 0.123625, "grad_norm": 0.9070820212364197, "learning_rate": 0.00028947373003015894, "loss": 4.0504, "step": 59340 }, { "epoch": 0.12364583333333333, "grad_norm": 0.8178778290748596, "learning_rate": 0.00028947010175792615, "loss": 3.8595, "step": 59350 }, { "epoch": 0.12366666666666666, "grad_norm": 0.8801862597465515, "learning_rate": 0.00028946647288323766, "loss": 4.0523, "step": 59360 }, { "epoch": 0.1236875, "grad_norm": 0.7515727281570435, "learning_rate": 0.00028946284340610926, "loss": 3.9741, "step": 59370 }, { "epoch": 0.12370833333333334, "grad_norm": 0.8889833092689514, "learning_rate": 0.0002894592133265566, "loss": 4.0485, "step": 59380 }, { "epoch": 0.12372916666666667, "grad_norm": 0.7986170649528503, "learning_rate": 0.00028945558264459526, "loss": 4.0041, "step": 59390 }, { "epoch": 0.12375, "grad_norm": 0.6885119080543518, "learning_rate": 0.00028945195136024105, "loss": 4.1543, "step": 59400 }, { "epoch": 0.12377083333333333, "grad_norm": 0.7544699311256409, "learning_rate": 0.00028944831947350964, "loss": 3.8942, "step": 59410 }, { "epoch": 0.12379166666666666, "grad_norm": 0.68788081407547, "learning_rate": 0.00028944468698441665, "loss": 3.9739, "step": 59420 }, { "epoch": 0.1238125, "grad_norm": 0.793062150478363, "learning_rate": 0.00028944105389297784, "loss": 4.0173, "step": 59430 }, { "epoch": 0.12383333333333334, "grad_norm": 0.8922891616821289, "learning_rate": 0.0002894374201992088, "loss": 4.0076, "step": 59440 }, { "epoch": 0.12385416666666667, "grad_norm": 0.7462336421012878, "learning_rate": 0.00028943378590312537, "loss": 3.9521, "step": 59450 }, { "epoch": 0.123875, "grad_norm": 0.7774155139923096, "learning_rate": 0.00028943015100474313, "loss": 3.9795, "step": 59460 }, { "epoch": 0.12389583333333333, "grad_norm": 0.7516297101974487, "learning_rate": 0.00028942651550407786, "loss": 3.8604, "step": 59470 }, { "epoch": 0.12391666666666666, "grad_norm": 0.8640037178993225, "learning_rate": 0.00028942287940114523, "loss": 3.9169, "step": 59480 }, { "epoch": 0.1239375, "grad_norm": 0.7642115950584412, "learning_rate": 0.00028941924269596095, "loss": 3.9779, "step": 59490 }, { "epoch": 0.12395833333333334, "grad_norm": 0.7764779925346375, "learning_rate": 0.0002894156053885407, "loss": 4.0872, "step": 59500 }, { "epoch": 0.12397916666666667, "grad_norm": 0.7637394070625305, "learning_rate": 0.00028941196747890027, "loss": 4.0266, "step": 59510 }, { "epoch": 0.124, "grad_norm": 0.7165989279747009, "learning_rate": 0.00028940832896705526, "loss": 3.781, "step": 59520 }, { "epoch": 0.12402083333333333, "grad_norm": 0.7679190039634705, "learning_rate": 0.0002894046898530215, "loss": 3.9127, "step": 59530 }, { "epoch": 0.12404166666666666, "grad_norm": 0.721459150314331, "learning_rate": 0.0002894010501368146, "loss": 4.1222, "step": 59540 }, { "epoch": 0.1240625, "grad_norm": 0.6908599734306335, "learning_rate": 0.0002893974098184504, "loss": 4.0136, "step": 59550 }, { "epoch": 0.12408333333333334, "grad_norm": 0.9111027121543884, "learning_rate": 0.00028939376889794454, "loss": 3.9047, "step": 59560 }, { "epoch": 0.12410416666666667, "grad_norm": 0.9988145232200623, "learning_rate": 0.0002893901273753128, "loss": 3.8511, "step": 59570 }, { "epoch": 0.124125, "grad_norm": 0.786493182182312, "learning_rate": 0.00028938648525057083, "loss": 4.0198, "step": 59580 }, { "epoch": 0.12414583333333333, "grad_norm": 0.7718296647071838, "learning_rate": 0.00028938284252373446, "loss": 3.9319, "step": 59590 }, { "epoch": 0.12416666666666666, "grad_norm": 0.9785196185112, "learning_rate": 0.0002893791991948194, "loss": 3.912, "step": 59600 }, { "epoch": 0.1241875, "grad_norm": 0.7442240715026855, "learning_rate": 0.00028937555526384134, "loss": 3.9557, "step": 59610 }, { "epoch": 0.12420833333333334, "grad_norm": 1.0854867696762085, "learning_rate": 0.00028937191073081603, "loss": 3.9608, "step": 59620 }, { "epoch": 0.12422916666666667, "grad_norm": 0.8008106350898743, "learning_rate": 0.00028936826559575933, "loss": 4.0406, "step": 59630 }, { "epoch": 0.12425, "grad_norm": 0.9046019911766052, "learning_rate": 0.0002893646198586868, "loss": 4.0392, "step": 59640 }, { "epoch": 0.12427083333333333, "grad_norm": 0.7624402046203613, "learning_rate": 0.00028936097351961427, "loss": 3.9331, "step": 59650 }, { "epoch": 0.12429166666666666, "grad_norm": 0.8597812056541443, "learning_rate": 0.0002893573265785575, "loss": 3.9659, "step": 59660 }, { "epoch": 0.1243125, "grad_norm": 0.79534512758255, "learning_rate": 0.0002893536790355323, "loss": 3.7714, "step": 59670 }, { "epoch": 0.12433333333333334, "grad_norm": 0.7513994574546814, "learning_rate": 0.00028935003089055434, "loss": 3.9124, "step": 59680 }, { "epoch": 0.12435416666666667, "grad_norm": 0.7537775635719299, "learning_rate": 0.0002893463821436394, "loss": 4.1181, "step": 59690 }, { "epoch": 0.124375, "grad_norm": 0.7551184296607971, "learning_rate": 0.0002893427327948032, "loss": 4.1258, "step": 59700 }, { "epoch": 0.12439583333333333, "grad_norm": 0.8327275514602661, "learning_rate": 0.00028933908284406164, "loss": 3.8397, "step": 59710 }, { "epoch": 0.12441666666666666, "grad_norm": 0.7604628205299377, "learning_rate": 0.0002893354322914303, "loss": 4.1624, "step": 59720 }, { "epoch": 0.1244375, "grad_norm": 0.7264744639396667, "learning_rate": 0.0002893317811369251, "loss": 4.0278, "step": 59730 }, { "epoch": 0.12445833333333334, "grad_norm": 0.7267156839370728, "learning_rate": 0.00028932812938056176, "loss": 4.0574, "step": 59740 }, { "epoch": 0.12447916666666667, "grad_norm": 0.8236510753631592, "learning_rate": 0.000289324477022356, "loss": 4.1556, "step": 59750 }, { "epoch": 0.1245, "grad_norm": 0.7506306171417236, "learning_rate": 0.0002893208240623237, "loss": 4.0089, "step": 59760 }, { "epoch": 0.12452083333333333, "grad_norm": 0.7727932929992676, "learning_rate": 0.0002893171705004806, "loss": 3.8381, "step": 59770 }, { "epoch": 0.12454166666666666, "grad_norm": 0.7874816656112671, "learning_rate": 0.00028931351633684245, "loss": 3.915, "step": 59780 }, { "epoch": 0.1245625, "grad_norm": 0.8008192181587219, "learning_rate": 0.000289309861571425, "loss": 3.9919, "step": 59790 }, { "epoch": 0.12458333333333334, "grad_norm": 0.7953455448150635, "learning_rate": 0.00028930620620424413, "loss": 3.9738, "step": 59800 }, { "epoch": 0.12460416666666667, "grad_norm": 0.8026627898216248, "learning_rate": 0.0002893025502353156, "loss": 3.9472, "step": 59810 }, { "epoch": 0.124625, "grad_norm": 0.8483697175979614, "learning_rate": 0.0002892988936646552, "loss": 4.0382, "step": 59820 }, { "epoch": 0.12464583333333333, "grad_norm": 0.9190303683280945, "learning_rate": 0.00028929523649227874, "loss": 4.0747, "step": 59830 }, { "epoch": 0.12466666666666666, "grad_norm": 0.7481479644775391, "learning_rate": 0.00028929157871820195, "loss": 4.0001, "step": 59840 }, { "epoch": 0.1246875, "grad_norm": 0.8457802534103394, "learning_rate": 0.0002892879203424407, "loss": 3.9026, "step": 59850 }, { "epoch": 0.12470833333333334, "grad_norm": 0.8258662819862366, "learning_rate": 0.00028928426136501075, "loss": 3.9642, "step": 59860 }, { "epoch": 0.12472916666666667, "grad_norm": 0.8082558512687683, "learning_rate": 0.0002892806017859279, "loss": 3.9333, "step": 59870 }, { "epoch": 0.12475, "grad_norm": 0.738173246383667, "learning_rate": 0.00028927694160520807, "loss": 3.9039, "step": 59880 }, { "epoch": 0.12477083333333333, "grad_norm": 0.708177387714386, "learning_rate": 0.0002892732808228669, "loss": 4.0146, "step": 59890 }, { "epoch": 0.12479166666666666, "grad_norm": 0.8138661980628967, "learning_rate": 0.00028926961943892033, "loss": 4.0054, "step": 59900 }, { "epoch": 0.1248125, "grad_norm": 0.756485104560852, "learning_rate": 0.0002892659574533841, "loss": 4.0088, "step": 59910 }, { "epoch": 0.12483333333333334, "grad_norm": 0.8877274394035339, "learning_rate": 0.000289262294866274, "loss": 3.9209, "step": 59920 }, { "epoch": 0.12485416666666667, "grad_norm": 0.8121849894523621, "learning_rate": 0.00028925863167760603, "loss": 3.9011, "step": 59930 }, { "epoch": 0.124875, "grad_norm": 0.7649674415588379, "learning_rate": 0.00028925496788739585, "loss": 3.943, "step": 59940 }, { "epoch": 0.12489583333333333, "grad_norm": 0.7809200882911682, "learning_rate": 0.0002892513034956593, "loss": 3.8926, "step": 59950 }, { "epoch": 0.12491666666666666, "grad_norm": 0.7339300513267517, "learning_rate": 0.00028924763850241226, "loss": 3.9329, "step": 59960 }, { "epoch": 0.1249375, "grad_norm": 0.7218712568283081, "learning_rate": 0.00028924397290767056, "loss": 3.9588, "step": 59970 }, { "epoch": 0.12495833333333334, "grad_norm": 0.7451568841934204, "learning_rate": 0.00028924030671145, "loss": 4.0311, "step": 59980 }, { "epoch": 0.12497916666666667, "grad_norm": 0.686890184879303, "learning_rate": 0.0002892366399137664, "loss": 4.1959, "step": 59990 }, { "epoch": 0.125, "grad_norm": 0.7072442770004272, "learning_rate": 0.00028923297251463566, "loss": 3.9393, "step": 60000 }, { "epoch": 0.125, "eval_loss": 4.28720760345459, "eval_runtime": 9.0117, "eval_samples_per_second": 1.11, "eval_steps_per_second": 0.333, "step": 60000 }, { "epoch": 0.12502083333333333, "grad_norm": 0.7938657999038696, "learning_rate": 0.0002892293045140736, "loss": 4.0312, "step": 60010 }, { "epoch": 0.12504166666666666, "grad_norm": 0.8946004509925842, "learning_rate": 0.00028922563591209604, "loss": 3.8607, "step": 60020 }, { "epoch": 0.1250625, "grad_norm": 0.7370315790176392, "learning_rate": 0.00028922196670871887, "loss": 3.902, "step": 60030 }, { "epoch": 0.12508333333333332, "grad_norm": 0.8435665369033813, "learning_rate": 0.00028921829690395785, "loss": 3.9777, "step": 60040 }, { "epoch": 0.12510416666666666, "grad_norm": 0.6935549378395081, "learning_rate": 0.0002892146264978289, "loss": 4.0133, "step": 60050 }, { "epoch": 0.125125, "grad_norm": 0.8371921181678772, "learning_rate": 0.0002892109554903479, "loss": 3.9291, "step": 60060 }, { "epoch": 0.12514583333333335, "grad_norm": 0.7603539228439331, "learning_rate": 0.0002892072838815307, "loss": 3.8231, "step": 60070 }, { "epoch": 0.12516666666666668, "grad_norm": 0.8785008788108826, "learning_rate": 0.0002892036116713931, "loss": 3.9849, "step": 60080 }, { "epoch": 0.1251875, "grad_norm": 0.8890485167503357, "learning_rate": 0.000289199938859951, "loss": 3.8977, "step": 60090 }, { "epoch": 0.12520833333333334, "grad_norm": 0.8059565424919128, "learning_rate": 0.0002891962654472203, "loss": 4.0073, "step": 60100 }, { "epoch": 0.12522916666666667, "grad_norm": 1.1788880825042725, "learning_rate": 0.00028919259143321676, "loss": 4.0699, "step": 60110 }, { "epoch": 0.12525, "grad_norm": 0.674269437789917, "learning_rate": 0.00028918891681795636, "loss": 3.936, "step": 60120 }, { "epoch": 0.12527083333333333, "grad_norm": 0.7835066914558411, "learning_rate": 0.00028918524160145495, "loss": 4.1285, "step": 60130 }, { "epoch": 0.12529166666666666, "grad_norm": 0.8505450487136841, "learning_rate": 0.00028918156578372836, "loss": 3.9707, "step": 60140 }, { "epoch": 0.1253125, "grad_norm": 0.7157944440841675, "learning_rate": 0.0002891778893647925, "loss": 4.0334, "step": 60150 }, { "epoch": 0.12533333333333332, "grad_norm": 0.9668766856193542, "learning_rate": 0.0002891742123446633, "loss": 3.9565, "step": 60160 }, { "epoch": 0.12535416666666666, "grad_norm": 0.8028192520141602, "learning_rate": 0.0002891705347233565, "loss": 4.0438, "step": 60170 }, { "epoch": 0.125375, "grad_norm": 0.6840729117393494, "learning_rate": 0.00028916685650088816, "loss": 3.8411, "step": 60180 }, { "epoch": 0.12539583333333335, "grad_norm": 0.791264533996582, "learning_rate": 0.00028916317767727404, "loss": 4.0413, "step": 60190 }, { "epoch": 0.12541666666666668, "grad_norm": 0.7025873064994812, "learning_rate": 0.0002891594982525301, "loss": 4.0147, "step": 60200 }, { "epoch": 0.1254375, "grad_norm": 0.886669397354126, "learning_rate": 0.0002891558182266722, "loss": 4.0577, "step": 60210 }, { "epoch": 0.12545833333333334, "grad_norm": 0.8872464299201965, "learning_rate": 0.0002891521375997163, "loss": 3.9073, "step": 60220 }, { "epoch": 0.12547916666666667, "grad_norm": 0.8161237835884094, "learning_rate": 0.00028914845637167816, "loss": 4.1724, "step": 60230 }, { "epoch": 0.1255, "grad_norm": 0.7949292659759521, "learning_rate": 0.0002891447745425738, "loss": 3.8022, "step": 60240 }, { "epoch": 0.12552083333333333, "grad_norm": 0.8857943415641785, "learning_rate": 0.00028914109211241907, "loss": 3.9048, "step": 60250 }, { "epoch": 0.12554166666666666, "grad_norm": 0.7364353537559509, "learning_rate": 0.00028913740908122996, "loss": 3.9839, "step": 60260 }, { "epoch": 0.1255625, "grad_norm": 0.933562695980072, "learning_rate": 0.00028913372544902226, "loss": 3.8054, "step": 60270 }, { "epoch": 0.12558333333333332, "grad_norm": 0.8075403571128845, "learning_rate": 0.000289130041215812, "loss": 4.0915, "step": 60280 }, { "epoch": 0.12560416666666666, "grad_norm": 0.7791281938552856, "learning_rate": 0.000289126356381615, "loss": 4.1305, "step": 60290 }, { "epoch": 0.125625, "grad_norm": 0.9419851899147034, "learning_rate": 0.00028912267094644717, "loss": 3.8728, "step": 60300 }, { "epoch": 0.12564583333333335, "grad_norm": 0.8592372536659241, "learning_rate": 0.0002891189849103245, "loss": 4.0526, "step": 60310 }, { "epoch": 0.12566666666666668, "grad_norm": 0.7462857961654663, "learning_rate": 0.00028911529827326286, "loss": 4.0598, "step": 60320 }, { "epoch": 0.1256875, "grad_norm": 0.8161598443984985, "learning_rate": 0.00028911161103527825, "loss": 4.0764, "step": 60330 }, { "epoch": 0.12570833333333334, "grad_norm": 0.7606133222579956, "learning_rate": 0.0002891079231963865, "loss": 3.9356, "step": 60340 }, { "epoch": 0.12572916666666667, "grad_norm": 0.8097771406173706, "learning_rate": 0.00028910423475660363, "loss": 3.9205, "step": 60350 }, { "epoch": 0.12575, "grad_norm": 0.8620128035545349, "learning_rate": 0.00028910054571594545, "loss": 4.1485, "step": 60360 }, { "epoch": 0.12577083333333333, "grad_norm": 0.6869148015975952, "learning_rate": 0.000289096856074428, "loss": 4.0486, "step": 60370 }, { "epoch": 0.12579166666666666, "grad_norm": 0.8374132513999939, "learning_rate": 0.0002890931658320673, "loss": 4.206, "step": 60380 }, { "epoch": 0.1258125, "grad_norm": 0.8259112238883972, "learning_rate": 0.0002890894749888791, "loss": 3.9356, "step": 60390 }, { "epoch": 0.12583333333333332, "grad_norm": 0.7517826557159424, "learning_rate": 0.00028908578354487933, "loss": 3.9405, "step": 60400 }, { "epoch": 0.12585416666666666, "grad_norm": 0.7363294363021851, "learning_rate": 0.0002890820915000841, "loss": 4.0188, "step": 60410 }, { "epoch": 0.125875, "grad_norm": 0.807552695274353, "learning_rate": 0.00028907839885450933, "loss": 3.8898, "step": 60420 }, { "epoch": 0.12589583333333335, "grad_norm": 0.7601284384727478, "learning_rate": 0.0002890747056081709, "loss": 4.1817, "step": 60430 }, { "epoch": 0.12591666666666668, "grad_norm": 0.704624354839325, "learning_rate": 0.00028907101176108485, "loss": 3.7147, "step": 60440 }, { "epoch": 0.1259375, "grad_norm": 0.802403450012207, "learning_rate": 0.000289067317313267, "loss": 4.0138, "step": 60450 }, { "epoch": 0.12595833333333334, "grad_norm": 0.8417935967445374, "learning_rate": 0.0002890636222647334, "loss": 3.9062, "step": 60460 }, { "epoch": 0.12597916666666667, "grad_norm": 0.8078790903091431, "learning_rate": 0.00028905992661549997, "loss": 4.2054, "step": 60470 }, { "epoch": 0.126, "grad_norm": 0.7516436576843262, "learning_rate": 0.0002890562303655827, "loss": 4.0041, "step": 60480 }, { "epoch": 0.12602083333333333, "grad_norm": 0.7557108998298645, "learning_rate": 0.0002890525335149976, "loss": 4.1824, "step": 60490 }, { "epoch": 0.12604166666666666, "grad_norm": 0.7858701348304749, "learning_rate": 0.00028904883606376057, "loss": 4.1519, "step": 60500 }, { "epoch": 0.1260625, "grad_norm": 1.0312234163284302, "learning_rate": 0.00028904513801188765, "loss": 3.9145, "step": 60510 }, { "epoch": 0.12608333333333333, "grad_norm": 0.7540333867073059, "learning_rate": 0.00028904143935939476, "loss": 3.9719, "step": 60520 }, { "epoch": 0.12610416666666666, "grad_norm": 0.7975886464118958, "learning_rate": 0.0002890377401062979, "loss": 3.9563, "step": 60530 }, { "epoch": 0.126125, "grad_norm": 0.9473792314529419, "learning_rate": 0.000289034040252613, "loss": 3.938, "step": 60540 }, { "epoch": 0.12614583333333335, "grad_norm": 0.860109269618988, "learning_rate": 0.0002890303397983561, "loss": 4.1183, "step": 60550 }, { "epoch": 0.12616666666666668, "grad_norm": 0.7677061557769775, "learning_rate": 0.0002890266387435431, "loss": 3.9338, "step": 60560 }, { "epoch": 0.1261875, "grad_norm": 0.7373406887054443, "learning_rate": 0.0002890229370881901, "loss": 4.0212, "step": 60570 }, { "epoch": 0.12620833333333334, "grad_norm": 0.8216800093650818, "learning_rate": 0.00028901923483231305, "loss": 3.8123, "step": 60580 }, { "epoch": 0.12622916666666667, "grad_norm": 1.002684473991394, "learning_rate": 0.00028901553197592793, "loss": 3.9867, "step": 60590 }, { "epoch": 0.12625, "grad_norm": 0.9084351658821106, "learning_rate": 0.00028901182851905077, "loss": 3.977, "step": 60600 }, { "epoch": 0.12627083333333333, "grad_norm": 0.8241257667541504, "learning_rate": 0.0002890081244616975, "loss": 3.8968, "step": 60610 }, { "epoch": 0.12629166666666666, "grad_norm": 0.874335527420044, "learning_rate": 0.00028900441980388413, "loss": 3.7263, "step": 60620 }, { "epoch": 0.1263125, "grad_norm": 0.826405942440033, "learning_rate": 0.00028900071454562675, "loss": 4.0882, "step": 60630 }, { "epoch": 0.12633333333333333, "grad_norm": 0.7330197095870972, "learning_rate": 0.0002889970086869413, "loss": 4.0003, "step": 60640 }, { "epoch": 0.12635416666666666, "grad_norm": 0.7969862222671509, "learning_rate": 0.0002889933022278437, "loss": 4.0476, "step": 60650 }, { "epoch": 0.126375, "grad_norm": 0.8110573291778564, "learning_rate": 0.0002889895951683501, "loss": 3.9893, "step": 60660 }, { "epoch": 0.12639583333333335, "grad_norm": 0.8254937529563904, "learning_rate": 0.0002889858875084765, "loss": 3.8509, "step": 60670 }, { "epoch": 0.12641666666666668, "grad_norm": 0.6985463500022888, "learning_rate": 0.00028898217924823883, "loss": 3.8031, "step": 60680 }, { "epoch": 0.1264375, "grad_norm": 0.7574479579925537, "learning_rate": 0.0002889784703876532, "loss": 4.0823, "step": 60690 }, { "epoch": 0.12645833333333334, "grad_norm": 0.7724580764770508, "learning_rate": 0.0002889747609267356, "loss": 4.0063, "step": 60700 }, { "epoch": 0.12647916666666667, "grad_norm": 0.7890344262123108, "learning_rate": 0.00028897105086550203, "loss": 3.9134, "step": 60710 }, { "epoch": 0.1265, "grad_norm": 0.7539457678794861, "learning_rate": 0.0002889673402039685, "loss": 3.9517, "step": 60720 }, { "epoch": 0.12652083333333333, "grad_norm": 0.8730541467666626, "learning_rate": 0.0002889636289421511, "loss": 3.7703, "step": 60730 }, { "epoch": 0.12654166666666666, "grad_norm": 0.7584896683692932, "learning_rate": 0.0002889599170800658, "loss": 3.9123, "step": 60740 }, { "epoch": 0.1265625, "grad_norm": 0.8171037435531616, "learning_rate": 0.0002889562046177287, "loss": 4.0883, "step": 60750 }, { "epoch": 0.12658333333333333, "grad_norm": 0.7055708169937134, "learning_rate": 0.0002889524915551557, "loss": 4.1388, "step": 60760 }, { "epoch": 0.12660416666666666, "grad_norm": 0.7542836666107178, "learning_rate": 0.000288948777892363, "loss": 4.1123, "step": 60770 }, { "epoch": 0.126625, "grad_norm": 0.9140307903289795, "learning_rate": 0.0002889450636293667, "loss": 4.0347, "step": 60780 }, { "epoch": 0.12664583333333335, "grad_norm": 0.6957630515098572, "learning_rate": 0.00028894134876618257, "loss": 3.7942, "step": 60790 }, { "epoch": 0.12666666666666668, "grad_norm": 0.8609126210212708, "learning_rate": 0.00028893763330282686, "loss": 3.9557, "step": 60800 }, { "epoch": 0.1266875, "grad_norm": 0.8003653883934021, "learning_rate": 0.00028893391723931554, "loss": 3.9745, "step": 60810 }, { "epoch": 0.12670833333333334, "grad_norm": 0.8086019158363342, "learning_rate": 0.00028893020057566476, "loss": 3.9764, "step": 60820 }, { "epoch": 0.12672916666666667, "grad_norm": 1.2051727771759033, "learning_rate": 0.0002889264833118904, "loss": 3.9296, "step": 60830 }, { "epoch": 0.12675, "grad_norm": 0.8857113718986511, "learning_rate": 0.00028892276544800874, "loss": 4.0676, "step": 60840 }, { "epoch": 0.12677083333333333, "grad_norm": 0.9673714637756348, "learning_rate": 0.00028891904698403564, "loss": 3.8101, "step": 60850 }, { "epoch": 0.12679166666666666, "grad_norm": 0.6959283351898193, "learning_rate": 0.0002889153279199873, "loss": 3.919, "step": 60860 }, { "epoch": 0.1268125, "grad_norm": 0.8324857354164124, "learning_rate": 0.0002889116082558797, "loss": 3.9988, "step": 60870 }, { "epoch": 0.12683333333333333, "grad_norm": 0.7852594256401062, "learning_rate": 0.0002889078879917289, "loss": 3.9497, "step": 60880 }, { "epoch": 0.12685416666666666, "grad_norm": 0.7781233787536621, "learning_rate": 0.0002889041671275511, "loss": 4.0122, "step": 60890 }, { "epoch": 0.126875, "grad_norm": 0.8362337946891785, "learning_rate": 0.0002889004456633622, "loss": 3.9008, "step": 60900 }, { "epoch": 0.12689583333333335, "grad_norm": 0.8719832897186279, "learning_rate": 0.00028889672359917837, "loss": 4.002, "step": 60910 }, { "epoch": 0.12691666666666668, "grad_norm": 0.9351271390914917, "learning_rate": 0.0002888930009350157, "loss": 4.0169, "step": 60920 }, { "epoch": 0.1269375, "grad_norm": 0.903186559677124, "learning_rate": 0.0002888892776708902, "loss": 3.9846, "step": 60930 }, { "epoch": 0.12695833333333334, "grad_norm": 0.7567930817604065, "learning_rate": 0.000288885553806818, "loss": 4.1078, "step": 60940 }, { "epoch": 0.12697916666666667, "grad_norm": 0.8457116484642029, "learning_rate": 0.00028888182934281524, "loss": 3.9232, "step": 60950 }, { "epoch": 0.127, "grad_norm": 0.7832955718040466, "learning_rate": 0.0002888781042788979, "loss": 3.9155, "step": 60960 }, { "epoch": 0.12702083333333333, "grad_norm": 0.8154991269111633, "learning_rate": 0.00028887437861508216, "loss": 3.952, "step": 60970 }, { "epoch": 0.12704166666666666, "grad_norm": 0.6976743340492249, "learning_rate": 0.00028887065235138406, "loss": 3.7856, "step": 60980 }, { "epoch": 0.1270625, "grad_norm": 0.9455711245536804, "learning_rate": 0.00028886692548781966, "loss": 3.8777, "step": 60990 }, { "epoch": 0.12708333333333333, "grad_norm": 0.763398289680481, "learning_rate": 0.00028886319802440524, "loss": 3.7209, "step": 61000 }, { "epoch": 0.12708333333333333, "eval_loss": 4.287923812866211, "eval_runtime": 9.1484, "eval_samples_per_second": 1.093, "eval_steps_per_second": 0.328, "step": 61000 }, { "epoch": 0.12710416666666666, "grad_norm": 1.1051127910614014, "learning_rate": 0.00028885946996115667, "loss": 4.0904, "step": 61010 }, { "epoch": 0.127125, "grad_norm": 0.9172490239143372, "learning_rate": 0.00028885574129809016, "loss": 3.8315, "step": 61020 }, { "epoch": 0.12714583333333335, "grad_norm": 0.7655858993530273, "learning_rate": 0.0002888520120352218, "loss": 3.9134, "step": 61030 }, { "epoch": 0.12716666666666668, "grad_norm": 0.8090442419052124, "learning_rate": 0.0002888482821725677, "loss": 3.8689, "step": 61040 }, { "epoch": 0.1271875, "grad_norm": 0.9529104828834534, "learning_rate": 0.00028884455171014406, "loss": 3.8465, "step": 61050 }, { "epoch": 0.12720833333333334, "grad_norm": 0.8737719058990479, "learning_rate": 0.00028884082064796685, "loss": 4.0562, "step": 61060 }, { "epoch": 0.12722916666666667, "grad_norm": 0.7594736218452454, "learning_rate": 0.00028883708898605226, "loss": 3.9399, "step": 61070 }, { "epoch": 0.12725, "grad_norm": 0.8324337005615234, "learning_rate": 0.00028883335672441645, "loss": 3.7896, "step": 61080 }, { "epoch": 0.12727083333333333, "grad_norm": 0.8630604147911072, "learning_rate": 0.0002888296238630754, "loss": 3.7303, "step": 61090 }, { "epoch": 0.12729166666666666, "grad_norm": 0.8114852905273438, "learning_rate": 0.0002888258904020454, "loss": 3.7024, "step": 61100 }, { "epoch": 0.1273125, "grad_norm": 0.8312705755233765, "learning_rate": 0.0002888221563413425, "loss": 4.0739, "step": 61110 }, { "epoch": 0.12733333333333333, "grad_norm": 0.7749174237251282, "learning_rate": 0.0002888184216809828, "loss": 3.8756, "step": 61120 }, { "epoch": 0.12735416666666666, "grad_norm": 0.7750731706619263, "learning_rate": 0.0002888146864209825, "loss": 3.8073, "step": 61130 }, { "epoch": 0.127375, "grad_norm": 0.7352844476699829, "learning_rate": 0.0002888109505613577, "loss": 3.8894, "step": 61140 }, { "epoch": 0.12739583333333335, "grad_norm": 0.7904594540596008, "learning_rate": 0.00028880721410212446, "loss": 3.9235, "step": 61150 }, { "epoch": 0.12741666666666668, "grad_norm": 0.7542045712471008, "learning_rate": 0.0002888034770432991, "loss": 3.741, "step": 61160 }, { "epoch": 0.1274375, "grad_norm": 1.505204200744629, "learning_rate": 0.00028879973938489767, "loss": 3.9496, "step": 61170 }, { "epoch": 0.12745833333333334, "grad_norm": 0.8246521949768066, "learning_rate": 0.0002887960011269362, "loss": 3.9049, "step": 61180 }, { "epoch": 0.12747916666666667, "grad_norm": 0.7489678859710693, "learning_rate": 0.000288792262269431, "loss": 3.8862, "step": 61190 }, { "epoch": 0.1275, "grad_norm": 0.9692955613136292, "learning_rate": 0.0002887885228123982, "loss": 4.2078, "step": 61200 }, { "epoch": 0.12752083333333333, "grad_norm": 0.7524981498718262, "learning_rate": 0.0002887847827558539, "loss": 3.9221, "step": 61210 }, { "epoch": 0.12754166666666666, "grad_norm": 0.7256855964660645, "learning_rate": 0.00028878104209981425, "loss": 3.9371, "step": 61220 }, { "epoch": 0.1275625, "grad_norm": 0.7405052781105042, "learning_rate": 0.00028877730084429543, "loss": 3.7976, "step": 61230 }, { "epoch": 0.12758333333333333, "grad_norm": 0.686054527759552, "learning_rate": 0.0002887735589893136, "loss": 3.9823, "step": 61240 }, { "epoch": 0.12760416666666666, "grad_norm": 0.8101739883422852, "learning_rate": 0.000288769816534885, "loss": 3.8436, "step": 61250 }, { "epoch": 0.127625, "grad_norm": 0.8506412506103516, "learning_rate": 0.0002887660734810256, "loss": 3.6383, "step": 61260 }, { "epoch": 0.12764583333333332, "grad_norm": 0.759671151638031, "learning_rate": 0.0002887623298277518, "loss": 4.1777, "step": 61270 }, { "epoch": 0.12766666666666668, "grad_norm": 0.7864165902137756, "learning_rate": 0.00028875858557507954, "loss": 3.9138, "step": 61280 }, { "epoch": 0.1276875, "grad_norm": 0.8545771241188049, "learning_rate": 0.0002887548407230252, "loss": 3.9701, "step": 61290 }, { "epoch": 0.12770833333333334, "grad_norm": 0.8817317485809326, "learning_rate": 0.0002887510952716049, "loss": 4.1159, "step": 61300 }, { "epoch": 0.12772916666666667, "grad_norm": 0.8003915548324585, "learning_rate": 0.00028874734922083476, "loss": 3.9552, "step": 61310 }, { "epoch": 0.12775, "grad_norm": 0.8924831748008728, "learning_rate": 0.00028874360257073094, "loss": 3.8781, "step": 61320 }, { "epoch": 0.12777083333333333, "grad_norm": 0.7434861063957214, "learning_rate": 0.0002887398553213097, "loss": 3.9836, "step": 61330 }, { "epoch": 0.12779166666666666, "grad_norm": 0.9810456037521362, "learning_rate": 0.00028873610747258725, "loss": 3.9439, "step": 61340 }, { "epoch": 0.1278125, "grad_norm": 0.891255795955658, "learning_rate": 0.0002887323590245797, "loss": 4.0191, "step": 61350 }, { "epoch": 0.12783333333333333, "grad_norm": 0.8339742422103882, "learning_rate": 0.0002887286099773033, "loss": 4.0626, "step": 61360 }, { "epoch": 0.12785416666666666, "grad_norm": 0.7439171075820923, "learning_rate": 0.00028872486033077415, "loss": 3.8287, "step": 61370 }, { "epoch": 0.127875, "grad_norm": 0.7904273867607117, "learning_rate": 0.0002887211100850086, "loss": 4.0135, "step": 61380 }, { "epoch": 0.12789583333333332, "grad_norm": 0.7425794005393982, "learning_rate": 0.0002887173592400227, "loss": 3.9209, "step": 61390 }, { "epoch": 0.12791666666666668, "grad_norm": 0.7106251120567322, "learning_rate": 0.0002887136077958327, "loss": 4.1245, "step": 61400 }, { "epoch": 0.1279375, "grad_norm": 0.9474292397499084, "learning_rate": 0.0002887098557524549, "loss": 4.0796, "step": 61410 }, { "epoch": 0.12795833333333334, "grad_norm": 0.7221065759658813, "learning_rate": 0.00028870610310990534, "loss": 3.9997, "step": 61420 }, { "epoch": 0.12797916666666667, "grad_norm": 0.9385656118392944, "learning_rate": 0.0002887023498682004, "loss": 3.9463, "step": 61430 }, { "epoch": 0.128, "grad_norm": 0.7779279947280884, "learning_rate": 0.00028869859602735615, "loss": 3.8312, "step": 61440 }, { "epoch": 0.12802083333333333, "grad_norm": 0.7909709215164185, "learning_rate": 0.0002886948415873889, "loss": 3.9831, "step": 61450 }, { "epoch": 0.12804166666666666, "grad_norm": 0.9989987015724182, "learning_rate": 0.0002886910865483148, "loss": 3.9094, "step": 61460 }, { "epoch": 0.1280625, "grad_norm": 0.7156909704208374, "learning_rate": 0.0002886873309101502, "loss": 3.9008, "step": 61470 }, { "epoch": 0.12808333333333333, "grad_norm": 0.8344561457633972, "learning_rate": 0.0002886835746729111, "loss": 3.868, "step": 61480 }, { "epoch": 0.12810416666666666, "grad_norm": 1.0914440155029297, "learning_rate": 0.00028867981783661393, "loss": 3.7861, "step": 61490 }, { "epoch": 0.128125, "grad_norm": 0.8887757658958435, "learning_rate": 0.0002886760604012748, "loss": 3.9473, "step": 61500 }, { "epoch": 0.12814583333333332, "grad_norm": 0.7789912819862366, "learning_rate": 0.00028867230236690996, "loss": 3.9543, "step": 61510 }, { "epoch": 0.12816666666666668, "grad_norm": 0.7727817296981812, "learning_rate": 0.00028866854373353574, "loss": 3.8115, "step": 61520 }, { "epoch": 0.1281875, "grad_norm": 0.8751269578933716, "learning_rate": 0.00028866478450116824, "loss": 3.9353, "step": 61530 }, { "epoch": 0.12820833333333334, "grad_norm": 0.7210761904716492, "learning_rate": 0.0002886610246698238, "loss": 3.9399, "step": 61540 }, { "epoch": 0.12822916666666667, "grad_norm": 0.8175551891326904, "learning_rate": 0.00028865726423951856, "loss": 4.0759, "step": 61550 }, { "epoch": 0.12825, "grad_norm": 0.8469225764274597, "learning_rate": 0.00028865350321026885, "loss": 4.0774, "step": 61560 }, { "epoch": 0.12827083333333333, "grad_norm": 0.7504050135612488, "learning_rate": 0.0002886497415820909, "loss": 3.866, "step": 61570 }, { "epoch": 0.12829166666666666, "grad_norm": 0.8660836815834045, "learning_rate": 0.00028864597935500093, "loss": 3.9971, "step": 61580 }, { "epoch": 0.1283125, "grad_norm": 0.856931209564209, "learning_rate": 0.00028864221652901524, "loss": 4.0553, "step": 61590 }, { "epoch": 0.12833333333333333, "grad_norm": 0.8365288376808167, "learning_rate": 0.0002886384531041501, "loss": 3.9554, "step": 61600 }, { "epoch": 0.12835416666666666, "grad_norm": 1.439513087272644, "learning_rate": 0.00028863468908042164, "loss": 3.916, "step": 61610 }, { "epoch": 0.128375, "grad_norm": 0.6183876395225525, "learning_rate": 0.0002886309244578462, "loss": 3.8461, "step": 61620 }, { "epoch": 0.12839583333333332, "grad_norm": 0.8674808740615845, "learning_rate": 0.00028862715923644, "loss": 4.0145, "step": 61630 }, { "epoch": 0.12841666666666668, "grad_norm": 0.8447003364562988, "learning_rate": 0.0002886233934162195, "loss": 3.9562, "step": 61640 }, { "epoch": 0.1284375, "grad_norm": 0.7390338182449341, "learning_rate": 0.00028861962699720063, "loss": 3.9345, "step": 61650 }, { "epoch": 0.12845833333333334, "grad_norm": 0.720236599445343, "learning_rate": 0.00028861585997939996, "loss": 3.9654, "step": 61660 }, { "epoch": 0.12847916666666667, "grad_norm": 0.8288233280181885, "learning_rate": 0.00028861209236283363, "loss": 3.9892, "step": 61670 }, { "epoch": 0.1285, "grad_norm": 0.8046872615814209, "learning_rate": 0.0002886083241475179, "loss": 3.9683, "step": 61680 }, { "epoch": 0.12852083333333333, "grad_norm": 0.7820006608963013, "learning_rate": 0.0002886045553334691, "loss": 4.0049, "step": 61690 }, { "epoch": 0.12854166666666667, "grad_norm": 0.8209354281425476, "learning_rate": 0.00028860078592070343, "loss": 3.8926, "step": 61700 }, { "epoch": 0.1285625, "grad_norm": 0.7795466780662537, "learning_rate": 0.0002885970159092373, "loss": 4.0254, "step": 61710 }, { "epoch": 0.12858333333333333, "grad_norm": 0.7272736430168152, "learning_rate": 0.00028859324529908684, "loss": 3.8052, "step": 61720 }, { "epoch": 0.12860416666666666, "grad_norm": 0.7354869842529297, "learning_rate": 0.00028858947409026846, "loss": 4.0771, "step": 61730 }, { "epoch": 0.128625, "grad_norm": 0.8998373746871948, "learning_rate": 0.00028858570228279843, "loss": 4.0844, "step": 61740 }, { "epoch": 0.12864583333333332, "grad_norm": 0.8348240852355957, "learning_rate": 0.000288581929876693, "loss": 3.915, "step": 61750 }, { "epoch": 0.12866666666666668, "grad_norm": 0.8414510488510132, "learning_rate": 0.0002885781568719685, "loss": 3.8531, "step": 61760 }, { "epoch": 0.1286875, "grad_norm": 0.9240438342094421, "learning_rate": 0.0002885743832686412, "loss": 4.0675, "step": 61770 }, { "epoch": 0.12870833333333334, "grad_norm": 0.8169786334037781, "learning_rate": 0.00028857060906672743, "loss": 3.9115, "step": 61780 }, { "epoch": 0.12872916666666667, "grad_norm": 0.7972378730773926, "learning_rate": 0.0002885668342662434, "loss": 3.9547, "step": 61790 }, { "epoch": 0.12875, "grad_norm": 0.8230486512184143, "learning_rate": 0.00028856305886720563, "loss": 3.7731, "step": 61800 }, { "epoch": 0.12877083333333333, "grad_norm": 0.7521092891693115, "learning_rate": 0.0002885592828696302, "loss": 3.975, "step": 61810 }, { "epoch": 0.12879166666666667, "grad_norm": 0.7670422792434692, "learning_rate": 0.0002885555062735336, "loss": 3.9101, "step": 61820 }, { "epoch": 0.1288125, "grad_norm": 0.755452036857605, "learning_rate": 0.00028855172907893195, "loss": 3.8589, "step": 61830 }, { "epoch": 0.12883333333333333, "grad_norm": 0.7307620644569397, "learning_rate": 0.0002885479512858417, "loss": 3.9326, "step": 61840 }, { "epoch": 0.12885416666666666, "grad_norm": 0.8128100037574768, "learning_rate": 0.0002885441728942792, "loss": 3.9678, "step": 61850 }, { "epoch": 0.128875, "grad_norm": 0.8031503558158875, "learning_rate": 0.00028854039390426066, "loss": 4.2222, "step": 61860 }, { "epoch": 0.12889583333333332, "grad_norm": 0.8833644986152649, "learning_rate": 0.0002885366143158025, "loss": 3.7372, "step": 61870 }, { "epoch": 0.12891666666666668, "grad_norm": 0.7371838688850403, "learning_rate": 0.00028853283412892097, "loss": 3.8859, "step": 61880 }, { "epoch": 0.1289375, "grad_norm": 0.7790558934211731, "learning_rate": 0.0002885290533436324, "loss": 3.8017, "step": 61890 }, { "epoch": 0.12895833333333334, "grad_norm": 0.7189053297042847, "learning_rate": 0.00028852527195995323, "loss": 3.7933, "step": 61900 }, { "epoch": 0.12897916666666667, "grad_norm": 0.7481531500816345, "learning_rate": 0.00028852148997789964, "loss": 4.0027, "step": 61910 }, { "epoch": 0.129, "grad_norm": 1.0475349426269531, "learning_rate": 0.0002885177073974881, "loss": 3.812, "step": 61920 }, { "epoch": 0.12902083333333333, "grad_norm": 0.7519072890281677, "learning_rate": 0.00028851392421873486, "loss": 3.7879, "step": 61930 }, { "epoch": 0.12904166666666667, "grad_norm": 0.7583466172218323, "learning_rate": 0.0002885101404416563, "loss": 3.9607, "step": 61940 }, { "epoch": 0.1290625, "grad_norm": 0.8214551210403442, "learning_rate": 0.00028850635606626876, "loss": 3.8604, "step": 61950 }, { "epoch": 0.12908333333333333, "grad_norm": 0.8293380737304688, "learning_rate": 0.00028850257109258863, "loss": 3.7936, "step": 61960 }, { "epoch": 0.12910416666666666, "grad_norm": 0.747519314289093, "learning_rate": 0.00028849878552063214, "loss": 4.0327, "step": 61970 }, { "epoch": 0.129125, "grad_norm": 0.6921125054359436, "learning_rate": 0.00028849499935041577, "loss": 4.0007, "step": 61980 }, { "epoch": 0.12914583333333332, "grad_norm": 0.7067583203315735, "learning_rate": 0.0002884912125819558, "loss": 3.7857, "step": 61990 }, { "epoch": 0.12916666666666668, "grad_norm": 0.8964739441871643, "learning_rate": 0.0002884874252152686, "loss": 4.0016, "step": 62000 }, { "epoch": 0.12916666666666668, "eval_loss": 4.282916069030762, "eval_runtime": 9.4751, "eval_samples_per_second": 1.055, "eval_steps_per_second": 0.317, "step": 62000 }, { "epoch": 0.1291875, "grad_norm": 0.8778706789016724, "learning_rate": 0.0002884836372503706, "loss": 3.8133, "step": 62010 }, { "epoch": 0.12920833333333334, "grad_norm": 0.8790547251701355, "learning_rate": 0.0002884798486872781, "loss": 3.9288, "step": 62020 }, { "epoch": 0.12922916666666667, "grad_norm": 0.81348717212677, "learning_rate": 0.0002884760595260074, "loss": 3.9689, "step": 62030 }, { "epoch": 0.12925, "grad_norm": 0.8112940192222595, "learning_rate": 0.00028847226976657503, "loss": 4.0328, "step": 62040 }, { "epoch": 0.12927083333333333, "grad_norm": 0.7730276584625244, "learning_rate": 0.00028846847940899715, "loss": 3.9279, "step": 62050 }, { "epoch": 0.12929166666666667, "grad_norm": 0.8250357508659363, "learning_rate": 0.0002884646884532903, "loss": 4.0867, "step": 62060 }, { "epoch": 0.1293125, "grad_norm": 0.7722291946411133, "learning_rate": 0.0002884608968994708, "loss": 4.0469, "step": 62070 }, { "epoch": 0.12933333333333333, "grad_norm": 0.8789347410202026, "learning_rate": 0.0002884571047475551, "loss": 3.7915, "step": 62080 }, { "epoch": 0.12935416666666666, "grad_norm": 0.762897253036499, "learning_rate": 0.0002884533119975594, "loss": 3.9942, "step": 62090 }, { "epoch": 0.129375, "grad_norm": 0.6990190744400024, "learning_rate": 0.0002884495186495003, "loss": 4.072, "step": 62100 }, { "epoch": 0.12939583333333332, "grad_norm": 0.8516274094581604, "learning_rate": 0.000288445724703394, "loss": 3.9351, "step": 62110 }, { "epoch": 0.12941666666666668, "grad_norm": 0.7349749803543091, "learning_rate": 0.000288441930159257, "loss": 3.9751, "step": 62120 }, { "epoch": 0.1294375, "grad_norm": 0.9388835430145264, "learning_rate": 0.00028843813501710564, "loss": 3.913, "step": 62130 }, { "epoch": 0.12945833333333334, "grad_norm": 1.1529096364974976, "learning_rate": 0.00028843433927695637, "loss": 4.0162, "step": 62140 }, { "epoch": 0.12947916666666667, "grad_norm": 0.766724169254303, "learning_rate": 0.0002884305429388255, "loss": 4.043, "step": 62150 }, { "epoch": 0.1295, "grad_norm": 0.7542417049407959, "learning_rate": 0.0002884267460027295, "loss": 3.9485, "step": 62160 }, { "epoch": 0.12952083333333334, "grad_norm": 0.7561097145080566, "learning_rate": 0.0002884229484686848, "loss": 4.0722, "step": 62170 }, { "epoch": 0.12954166666666667, "grad_norm": 0.7412230968475342, "learning_rate": 0.0002884191503367077, "loss": 3.8825, "step": 62180 }, { "epoch": 0.1295625, "grad_norm": 0.8826307654380798, "learning_rate": 0.00028841535160681466, "loss": 3.7563, "step": 62190 }, { "epoch": 0.12958333333333333, "grad_norm": 0.7745897173881531, "learning_rate": 0.00028841155227902213, "loss": 3.9435, "step": 62200 }, { "epoch": 0.12960416666666666, "grad_norm": 0.8530787825584412, "learning_rate": 0.00028840775235334647, "loss": 3.9197, "step": 62210 }, { "epoch": 0.129625, "grad_norm": 0.8751004934310913, "learning_rate": 0.0002884039518298041, "loss": 3.9708, "step": 62220 }, { "epoch": 0.12964583333333332, "grad_norm": 0.7532909512519836, "learning_rate": 0.0002884001507084114, "loss": 3.9259, "step": 62230 }, { "epoch": 0.12966666666666668, "grad_norm": 0.777474582195282, "learning_rate": 0.0002883963489891849, "loss": 4.0629, "step": 62240 }, { "epoch": 0.1296875, "grad_norm": 0.7681462168693542, "learning_rate": 0.00028839254667214093, "loss": 3.9594, "step": 62250 }, { "epoch": 0.12970833333333334, "grad_norm": 0.8607701659202576, "learning_rate": 0.0002883887437572959, "loss": 3.87, "step": 62260 }, { "epoch": 0.12972916666666667, "grad_norm": 0.7959384322166443, "learning_rate": 0.00028838494024466634, "loss": 3.8236, "step": 62270 }, { "epoch": 0.12975, "grad_norm": 0.7842118740081787, "learning_rate": 0.00028838113613426856, "loss": 3.8721, "step": 62280 }, { "epoch": 0.12977083333333334, "grad_norm": 0.8481996655464172, "learning_rate": 0.00028837733142611906, "loss": 3.876, "step": 62290 }, { "epoch": 0.12979166666666667, "grad_norm": 0.644661009311676, "learning_rate": 0.00028837352612023426, "loss": 4.1, "step": 62300 }, { "epoch": 0.1298125, "grad_norm": 0.6943362355232239, "learning_rate": 0.00028836972021663065, "loss": 3.8507, "step": 62310 }, { "epoch": 0.12983333333333333, "grad_norm": 0.9008045792579651, "learning_rate": 0.00028836591371532455, "loss": 3.9651, "step": 62320 }, { "epoch": 0.12985416666666666, "grad_norm": 0.8662897348403931, "learning_rate": 0.0002883621066163325, "loss": 3.9578, "step": 62330 }, { "epoch": 0.129875, "grad_norm": 0.6796295046806335, "learning_rate": 0.0002883582989196709, "loss": 3.7961, "step": 62340 }, { "epoch": 0.12989583333333332, "grad_norm": 0.8483021259307861, "learning_rate": 0.00028835449062535626, "loss": 4.0146, "step": 62350 }, { "epoch": 0.12991666666666668, "grad_norm": 0.7612788081169128, "learning_rate": 0.00028835068173340496, "loss": 4.0132, "step": 62360 }, { "epoch": 0.1299375, "grad_norm": 0.7979394793510437, "learning_rate": 0.00028834687224383346, "loss": 4.1323, "step": 62370 }, { "epoch": 0.12995833333333334, "grad_norm": 0.747512698173523, "learning_rate": 0.0002883430621566582, "loss": 3.9521, "step": 62380 }, { "epoch": 0.12997916666666667, "grad_norm": 0.745611846446991, "learning_rate": 0.00028833925147189575, "loss": 4.0121, "step": 62390 }, { "epoch": 0.13, "grad_norm": 0.8437901735305786, "learning_rate": 0.0002883354401895625, "loss": 3.8619, "step": 62400 }, { "epoch": 0.13002083333333334, "grad_norm": 0.7550732493400574, "learning_rate": 0.0002883316283096748, "loss": 4.0032, "step": 62410 }, { "epoch": 0.13004166666666667, "grad_norm": 0.6952962279319763, "learning_rate": 0.0002883278158322493, "loss": 4.0829, "step": 62420 }, { "epoch": 0.1300625, "grad_norm": 0.9602487683296204, "learning_rate": 0.00028832400275730243, "loss": 3.7688, "step": 62430 }, { "epoch": 0.13008333333333333, "grad_norm": 0.7338064908981323, "learning_rate": 0.00028832018908485054, "loss": 3.9326, "step": 62440 }, { "epoch": 0.13010416666666666, "grad_norm": 0.7466751933097839, "learning_rate": 0.0002883163748149102, "loss": 3.9024, "step": 62450 }, { "epoch": 0.130125, "grad_norm": 0.8457353115081787, "learning_rate": 0.0002883125599474979, "loss": 3.9558, "step": 62460 }, { "epoch": 0.13014583333333332, "grad_norm": 0.7291315197944641, "learning_rate": 0.00028830874448263004, "loss": 4.1688, "step": 62470 }, { "epoch": 0.13016666666666668, "grad_norm": 0.8003969788551331, "learning_rate": 0.00028830492842032323, "loss": 4.0223, "step": 62480 }, { "epoch": 0.1301875, "grad_norm": 0.7150354385375977, "learning_rate": 0.00028830111176059376, "loss": 4.0752, "step": 62490 }, { "epoch": 0.13020833333333334, "grad_norm": 0.8575347065925598, "learning_rate": 0.0002882972945034583, "loss": 4.0096, "step": 62500 }, { "epoch": 0.13022916666666667, "grad_norm": 0.7220453023910522, "learning_rate": 0.00028829347664893333, "loss": 3.9603, "step": 62510 }, { "epoch": 0.13025, "grad_norm": 0.7439674139022827, "learning_rate": 0.0002882896581970352, "loss": 3.8226, "step": 62520 }, { "epoch": 0.13027083333333334, "grad_norm": 0.7427364587783813, "learning_rate": 0.0002882858391477805, "loss": 3.9544, "step": 62530 }, { "epoch": 0.13029166666666667, "grad_norm": 0.7531145811080933, "learning_rate": 0.00028828201950118566, "loss": 4.0111, "step": 62540 }, { "epoch": 0.1303125, "grad_norm": 0.8771909475326538, "learning_rate": 0.00028827819925726736, "loss": 4.1387, "step": 62550 }, { "epoch": 0.13033333333333333, "grad_norm": 0.8386698961257935, "learning_rate": 0.00028827437841604187, "loss": 3.8572, "step": 62560 }, { "epoch": 0.13035416666666666, "grad_norm": 0.7357126474380493, "learning_rate": 0.0002882705569775258, "loss": 3.9202, "step": 62570 }, { "epoch": 0.130375, "grad_norm": 0.7566779255867004, "learning_rate": 0.0002882667349417357, "loss": 3.9184, "step": 62580 }, { "epoch": 0.13039583333333332, "grad_norm": 0.7480756640434265, "learning_rate": 0.000288262912308688, "loss": 3.9738, "step": 62590 }, { "epoch": 0.13041666666666665, "grad_norm": 0.783254086971283, "learning_rate": 0.0002882590890783993, "loss": 3.9409, "step": 62600 }, { "epoch": 0.1304375, "grad_norm": 0.6510620713233948, "learning_rate": 0.00028825526525088605, "loss": 3.7599, "step": 62610 }, { "epoch": 0.13045833333333334, "grad_norm": 0.6974460482597351, "learning_rate": 0.0002882514408261647, "loss": 3.923, "step": 62620 }, { "epoch": 0.13047916666666667, "grad_norm": 0.9266209006309509, "learning_rate": 0.00028824761580425193, "loss": 4.0832, "step": 62630 }, { "epoch": 0.1305, "grad_norm": 1.0732451677322388, "learning_rate": 0.00028824379018516414, "loss": 4.0513, "step": 62640 }, { "epoch": 0.13052083333333334, "grad_norm": 0.7637964487075806, "learning_rate": 0.0002882399639689179, "loss": 3.8234, "step": 62650 }, { "epoch": 0.13054166666666667, "grad_norm": 0.834932804107666, "learning_rate": 0.00028823613715552975, "loss": 3.9691, "step": 62660 }, { "epoch": 0.1305625, "grad_norm": 0.8033998012542725, "learning_rate": 0.00028823230974501623, "loss": 4.0272, "step": 62670 }, { "epoch": 0.13058333333333333, "grad_norm": 0.7463205456733704, "learning_rate": 0.0002882284817373938, "loss": 4.0271, "step": 62680 }, { "epoch": 0.13060416666666666, "grad_norm": 0.740690290927887, "learning_rate": 0.0002882246531326791, "loss": 3.993, "step": 62690 }, { "epoch": 0.130625, "grad_norm": 1.2170240879058838, "learning_rate": 0.0002882208239308886, "loss": 4.0438, "step": 62700 }, { "epoch": 0.13064583333333332, "grad_norm": 0.7671335935592651, "learning_rate": 0.0002882169941320388, "loss": 3.9059, "step": 62710 }, { "epoch": 0.13066666666666665, "grad_norm": 0.8209800720214844, "learning_rate": 0.0002882131637361463, "loss": 4.0732, "step": 62720 }, { "epoch": 0.1306875, "grad_norm": 0.8136182427406311, "learning_rate": 0.00028820933274322766, "loss": 3.8672, "step": 62730 }, { "epoch": 0.13070833333333334, "grad_norm": 0.6845099925994873, "learning_rate": 0.00028820550115329945, "loss": 4.0427, "step": 62740 }, { "epoch": 0.13072916666666667, "grad_norm": 0.9123971462249756, "learning_rate": 0.0002882016689663781, "loss": 4.0335, "step": 62750 }, { "epoch": 0.13075, "grad_norm": 0.7392938137054443, "learning_rate": 0.0002881978361824803, "loss": 3.7903, "step": 62760 }, { "epoch": 0.13077083333333334, "grad_norm": 0.7548374533653259, "learning_rate": 0.00028819400280162257, "loss": 4.0549, "step": 62770 }, { "epoch": 0.13079166666666667, "grad_norm": 0.728378415107727, "learning_rate": 0.0002881901688238214, "loss": 4.0489, "step": 62780 }, { "epoch": 0.1308125, "grad_norm": 0.7955945730209351, "learning_rate": 0.0002881863342490934, "loss": 3.9147, "step": 62790 }, { "epoch": 0.13083333333333333, "grad_norm": 0.8530564904212952, "learning_rate": 0.0002881824990774552, "loss": 4.134, "step": 62800 }, { "epoch": 0.13085416666666666, "grad_norm": 0.7143916487693787, "learning_rate": 0.00028817866330892324, "loss": 4.0408, "step": 62810 }, { "epoch": 0.130875, "grad_norm": 0.7051281332969666, "learning_rate": 0.0002881748269435142, "loss": 4.13, "step": 62820 }, { "epoch": 0.13089583333333332, "grad_norm": 0.7118076682090759, "learning_rate": 0.0002881709899812445, "loss": 4.0596, "step": 62830 }, { "epoch": 0.13091666666666665, "grad_norm": 0.7802773118019104, "learning_rate": 0.0002881671524221309, "loss": 3.9129, "step": 62840 }, { "epoch": 0.1309375, "grad_norm": 1.1310057640075684, "learning_rate": 0.00028816331426618987, "loss": 3.8743, "step": 62850 }, { "epoch": 0.13095833333333334, "grad_norm": 0.8013532161712646, "learning_rate": 0.000288159475513438, "loss": 3.9545, "step": 62860 }, { "epoch": 0.13097916666666667, "grad_norm": 0.7863612771034241, "learning_rate": 0.00028815563616389186, "loss": 3.9803, "step": 62870 }, { "epoch": 0.131, "grad_norm": 0.8206605315208435, "learning_rate": 0.0002881517962175681, "loss": 3.843, "step": 62880 }, { "epoch": 0.13102083333333334, "grad_norm": 0.9248420596122742, "learning_rate": 0.0002881479556744833, "loss": 4.1139, "step": 62890 }, { "epoch": 0.13104166666666667, "grad_norm": 0.7481743693351746, "learning_rate": 0.00028814411453465395, "loss": 3.8994, "step": 62900 }, { "epoch": 0.1310625, "grad_norm": 0.7378188967704773, "learning_rate": 0.0002881402727980967, "loss": 3.9656, "step": 62910 }, { "epoch": 0.13108333333333333, "grad_norm": 0.7494726777076721, "learning_rate": 0.00028813643046482826, "loss": 4.0484, "step": 62920 }, { "epoch": 0.13110416666666666, "grad_norm": 0.8632800579071045, "learning_rate": 0.00028813258753486497, "loss": 3.8325, "step": 62930 }, { "epoch": 0.131125, "grad_norm": 0.7811598777770996, "learning_rate": 0.0002881287440082237, "loss": 3.9632, "step": 62940 }, { "epoch": 0.13114583333333332, "grad_norm": 0.7434283494949341, "learning_rate": 0.0002881248998849209, "loss": 3.871, "step": 62950 }, { "epoch": 0.13116666666666665, "grad_norm": 0.9088473320007324, "learning_rate": 0.00028812105516497314, "loss": 4.0597, "step": 62960 }, { "epoch": 0.1311875, "grad_norm": 0.7751245498657227, "learning_rate": 0.00028811720984839713, "loss": 4.0558, "step": 62970 }, { "epoch": 0.13120833333333334, "grad_norm": 0.8244699239730835, "learning_rate": 0.0002881133639352095, "loss": 3.9305, "step": 62980 }, { "epoch": 0.13122916666666667, "grad_norm": 0.8873583674430847, "learning_rate": 0.0002881095174254267, "loss": 4.0892, "step": 62990 }, { "epoch": 0.13125, "grad_norm": 0.7441539764404297, "learning_rate": 0.00028810567031906553, "loss": 3.9925, "step": 63000 }, { "epoch": 0.13125, "eval_loss": 4.299635410308838, "eval_runtime": 12.1901, "eval_samples_per_second": 0.82, "eval_steps_per_second": 0.246, "step": 63000 }, { "epoch": 0.13127083333333334, "grad_norm": 0.7507321238517761, "learning_rate": 0.0002881018226161425, "loss": 3.8987, "step": 63010 }, { "epoch": 0.13129166666666667, "grad_norm": 0.8207835555076599, "learning_rate": 0.0002880979743166743, "loss": 3.8795, "step": 63020 }, { "epoch": 0.1313125, "grad_norm": 0.7502248287200928, "learning_rate": 0.00028809412542067745, "loss": 4.2668, "step": 63030 }, { "epoch": 0.13133333333333333, "grad_norm": 0.8643938302993774, "learning_rate": 0.0002880902759281687, "loss": 3.9422, "step": 63040 }, { "epoch": 0.13135416666666666, "grad_norm": 0.8056674599647522, "learning_rate": 0.0002880864258391646, "loss": 4.0412, "step": 63050 }, { "epoch": 0.131375, "grad_norm": 0.6892151236534119, "learning_rate": 0.0002880825751536818, "loss": 4.0951, "step": 63060 }, { "epoch": 0.13139583333333332, "grad_norm": 0.7482025027275085, "learning_rate": 0.0002880787238717369, "loss": 3.9598, "step": 63070 }, { "epoch": 0.13141666666666665, "grad_norm": 0.9250709414482117, "learning_rate": 0.0002880748719933466, "loss": 4.0086, "step": 63080 }, { "epoch": 0.1314375, "grad_norm": 0.7416247129440308, "learning_rate": 0.0002880710195185275, "loss": 3.9801, "step": 63090 }, { "epoch": 0.13145833333333334, "grad_norm": 0.7072294354438782, "learning_rate": 0.0002880671664472962, "loss": 3.9088, "step": 63100 }, { "epoch": 0.13147916666666667, "grad_norm": 0.9196757674217224, "learning_rate": 0.0002880633127796695, "loss": 3.9873, "step": 63110 }, { "epoch": 0.1315, "grad_norm": 0.8081299662590027, "learning_rate": 0.0002880594585156639, "loss": 3.827, "step": 63120 }, { "epoch": 0.13152083333333334, "grad_norm": 0.848120927810669, "learning_rate": 0.000288055603655296, "loss": 3.9054, "step": 63130 }, { "epoch": 0.13154166666666667, "grad_norm": 0.7348611950874329, "learning_rate": 0.0002880517481985826, "loss": 4.0324, "step": 63140 }, { "epoch": 0.1315625, "grad_norm": 0.8911242485046387, "learning_rate": 0.0002880478921455403, "loss": 4.0886, "step": 63150 }, { "epoch": 0.13158333333333333, "grad_norm": 0.6909054517745972, "learning_rate": 0.00028804403549618574, "loss": 3.9788, "step": 63160 }, { "epoch": 0.13160416666666666, "grad_norm": 0.6859028339385986, "learning_rate": 0.00028804017825053563, "loss": 3.9725, "step": 63170 }, { "epoch": 0.131625, "grad_norm": 0.8251357078552246, "learning_rate": 0.0002880363204086065, "loss": 4.0571, "step": 63180 }, { "epoch": 0.13164583333333332, "grad_norm": 0.8115269541740417, "learning_rate": 0.0002880324619704152, "loss": 3.8919, "step": 63190 }, { "epoch": 0.13166666666666665, "grad_norm": 1.0634918212890625, "learning_rate": 0.00028802860293597823, "loss": 3.9447, "step": 63200 }, { "epoch": 0.1316875, "grad_norm": 0.7599939107894897, "learning_rate": 0.0002880247433053124, "loss": 4.1629, "step": 63210 }, { "epoch": 0.13170833333333334, "grad_norm": 0.9843525290489197, "learning_rate": 0.0002880208830784342, "loss": 4.0152, "step": 63220 }, { "epoch": 0.13172916666666667, "grad_norm": 0.7430915832519531, "learning_rate": 0.00028801702225536054, "loss": 3.8951, "step": 63230 }, { "epoch": 0.13175, "grad_norm": 0.7486289739608765, "learning_rate": 0.00028801316083610794, "loss": 3.9758, "step": 63240 }, { "epoch": 0.13177083333333334, "grad_norm": 0.692726731300354, "learning_rate": 0.00028800929882069306, "loss": 3.9843, "step": 63250 }, { "epoch": 0.13179166666666667, "grad_norm": 0.794449508190155, "learning_rate": 0.0002880054362091327, "loss": 4.0592, "step": 63260 }, { "epoch": 0.1318125, "grad_norm": 0.8368471264839172, "learning_rate": 0.00028800157300144346, "loss": 4.2132, "step": 63270 }, { "epoch": 0.13183333333333333, "grad_norm": 0.9229752421379089, "learning_rate": 0.00028799770919764203, "loss": 4.0264, "step": 63280 }, { "epoch": 0.13185416666666666, "grad_norm": 0.754412055015564, "learning_rate": 0.00028799384479774516, "loss": 3.9276, "step": 63290 }, { "epoch": 0.131875, "grad_norm": 0.7216253280639648, "learning_rate": 0.0002879899798017695, "loss": 3.9071, "step": 63300 }, { "epoch": 0.13189583333333332, "grad_norm": 0.7412343621253967, "learning_rate": 0.0002879861142097317, "loss": 3.9966, "step": 63310 }, { "epoch": 0.13191666666666665, "grad_norm": 0.7936533093452454, "learning_rate": 0.0002879822480216485, "loss": 3.9159, "step": 63320 }, { "epoch": 0.1319375, "grad_norm": 0.7791702747344971, "learning_rate": 0.00028797838123753664, "loss": 4.0723, "step": 63330 }, { "epoch": 0.13195833333333334, "grad_norm": 0.832996666431427, "learning_rate": 0.0002879745138574128, "loss": 4.0689, "step": 63340 }, { "epoch": 0.13197916666666668, "grad_norm": 0.7833579182624817, "learning_rate": 0.0002879706458812937, "loss": 4.0066, "step": 63350 }, { "epoch": 0.132, "grad_norm": 0.8657096028327942, "learning_rate": 0.000287966777309196, "loss": 4.0955, "step": 63360 }, { "epoch": 0.13202083333333334, "grad_norm": 0.7680641412734985, "learning_rate": 0.00028796290814113635, "loss": 3.918, "step": 63370 }, { "epoch": 0.13204166666666667, "grad_norm": 0.8366602063179016, "learning_rate": 0.0002879590383771316, "loss": 4.0532, "step": 63380 }, { "epoch": 0.1320625, "grad_norm": 0.8713975548744202, "learning_rate": 0.0002879551680171984, "loss": 3.9457, "step": 63390 }, { "epoch": 0.13208333333333333, "grad_norm": 0.7919896841049194, "learning_rate": 0.00028795129706135354, "loss": 3.8972, "step": 63400 }, { "epoch": 0.13210416666666666, "grad_norm": 0.8356661796569824, "learning_rate": 0.00028794742550961364, "loss": 3.8886, "step": 63410 }, { "epoch": 0.132125, "grad_norm": 0.7996866106987, "learning_rate": 0.00028794355336199547, "loss": 3.897, "step": 63420 }, { "epoch": 0.13214583333333332, "grad_norm": 1.0527307987213135, "learning_rate": 0.0002879396806185158, "loss": 3.9848, "step": 63430 }, { "epoch": 0.13216666666666665, "grad_norm": 0.8036921620368958, "learning_rate": 0.0002879358072791912, "loss": 3.8884, "step": 63440 }, { "epoch": 0.1321875, "grad_norm": 0.974702000617981, "learning_rate": 0.0002879319333440386, "loss": 4.0009, "step": 63450 }, { "epoch": 0.13220833333333334, "grad_norm": 0.7566272020339966, "learning_rate": 0.00028792805881307465, "loss": 4.051, "step": 63460 }, { "epoch": 0.13222916666666668, "grad_norm": 0.7824696898460388, "learning_rate": 0.000287924183686316, "loss": 3.9255, "step": 63470 }, { "epoch": 0.13225, "grad_norm": 0.9124252796173096, "learning_rate": 0.0002879203079637795, "loss": 4.013, "step": 63480 }, { "epoch": 0.13227083333333334, "grad_norm": 0.7775617837905884, "learning_rate": 0.00028791643164548193, "loss": 3.888, "step": 63490 }, { "epoch": 0.13229166666666667, "grad_norm": 0.7518961429595947, "learning_rate": 0.0002879125547314399, "loss": 3.7827, "step": 63500 }, { "epoch": 0.1323125, "grad_norm": 0.9457390904426575, "learning_rate": 0.00028790867722167026, "loss": 4.0229, "step": 63510 }, { "epoch": 0.13233333333333333, "grad_norm": 0.8072744011878967, "learning_rate": 0.0002879047991161897, "loss": 3.9434, "step": 63520 }, { "epoch": 0.13235416666666666, "grad_norm": 0.9495784044265747, "learning_rate": 0.000287900920415015, "loss": 3.87, "step": 63530 }, { "epoch": 0.132375, "grad_norm": 0.7524573802947998, "learning_rate": 0.0002878970411181629, "loss": 4.0238, "step": 63540 }, { "epoch": 0.13239583333333332, "grad_norm": 0.8163084387779236, "learning_rate": 0.0002878931612256502, "loss": 3.7865, "step": 63550 }, { "epoch": 0.13241666666666665, "grad_norm": 0.8464440703392029, "learning_rate": 0.0002878892807374936, "loss": 3.9083, "step": 63560 }, { "epoch": 0.1324375, "grad_norm": 0.8992184400558472, "learning_rate": 0.00028788539965370985, "loss": 3.9998, "step": 63570 }, { "epoch": 0.13245833333333334, "grad_norm": 0.7533801198005676, "learning_rate": 0.0002878815179743158, "loss": 4.1624, "step": 63580 }, { "epoch": 0.13247916666666668, "grad_norm": 0.7173408269882202, "learning_rate": 0.00028787763569932816, "loss": 3.9357, "step": 63590 }, { "epoch": 0.1325, "grad_norm": 1.085715889930725, "learning_rate": 0.00028787375282876375, "loss": 4.0159, "step": 63600 }, { "epoch": 0.13252083333333334, "grad_norm": 0.7759045362472534, "learning_rate": 0.00028786986936263923, "loss": 3.7582, "step": 63610 }, { "epoch": 0.13254166666666667, "grad_norm": 0.7972061634063721, "learning_rate": 0.0002878659853009715, "loss": 3.7281, "step": 63620 }, { "epoch": 0.1325625, "grad_norm": 0.7560607194900513, "learning_rate": 0.0002878621006437772, "loss": 4.0303, "step": 63630 }, { "epoch": 0.13258333333333333, "grad_norm": 0.787109911441803, "learning_rate": 0.0002878582153910733, "loss": 3.8756, "step": 63640 }, { "epoch": 0.13260416666666666, "grad_norm": 0.6959081888198853, "learning_rate": 0.0002878543295428765, "loss": 4.0483, "step": 63650 }, { "epoch": 0.132625, "grad_norm": 0.9095045328140259, "learning_rate": 0.00028785044309920346, "loss": 4.0645, "step": 63660 }, { "epoch": 0.13264583333333332, "grad_norm": 0.746985912322998, "learning_rate": 0.00028784655606007106, "loss": 3.9311, "step": 63670 }, { "epoch": 0.13266666666666665, "grad_norm": 0.7584629058837891, "learning_rate": 0.0002878426684254962, "loss": 3.9455, "step": 63680 }, { "epoch": 0.1326875, "grad_norm": 0.7956358790397644, "learning_rate": 0.0002878387801954955, "loss": 3.7763, "step": 63690 }, { "epoch": 0.13270833333333334, "grad_norm": 0.7757930755615234, "learning_rate": 0.00028783489137008587, "loss": 4.0849, "step": 63700 }, { "epoch": 0.13272916666666668, "grad_norm": 0.7097927331924438, "learning_rate": 0.00028783100194928405, "loss": 4.011, "step": 63710 }, { "epoch": 0.13275, "grad_norm": 0.7733318209648132, "learning_rate": 0.0002878271119331068, "loss": 3.938, "step": 63720 }, { "epoch": 0.13277083333333334, "grad_norm": 0.8528494834899902, "learning_rate": 0.0002878232213215711, "loss": 3.7822, "step": 63730 }, { "epoch": 0.13279166666666667, "grad_norm": 0.8102899789810181, "learning_rate": 0.00028781933011469353, "loss": 4.2791, "step": 63740 }, { "epoch": 0.1328125, "grad_norm": 0.833845317363739, "learning_rate": 0.00028781543831249114, "loss": 3.9113, "step": 63750 }, { "epoch": 0.13283333333333333, "grad_norm": 0.7765309810638428, "learning_rate": 0.0002878115459149805, "loss": 3.8415, "step": 63760 }, { "epoch": 0.13285416666666666, "grad_norm": 0.8012934327125549, "learning_rate": 0.00028780765292217857, "loss": 4.0308, "step": 63770 }, { "epoch": 0.132875, "grad_norm": 0.9136009216308594, "learning_rate": 0.0002878037593341021, "loss": 4.0315, "step": 63780 }, { "epoch": 0.13289583333333332, "grad_norm": 0.7849080562591553, "learning_rate": 0.00028779986515076796, "loss": 3.9886, "step": 63790 }, { "epoch": 0.13291666666666666, "grad_norm": 0.7386612296104431, "learning_rate": 0.0002877959703721929, "loss": 3.7774, "step": 63800 }, { "epoch": 0.1329375, "grad_norm": 0.8106445670127869, "learning_rate": 0.0002877920749983938, "loss": 4.0935, "step": 63810 }, { "epoch": 0.13295833333333335, "grad_norm": 0.9517417550086975, "learning_rate": 0.00028778817902938754, "loss": 3.8728, "step": 63820 }, { "epoch": 0.13297916666666668, "grad_norm": 0.8233712911605835, "learning_rate": 0.00028778428246519085, "loss": 4.0447, "step": 63830 }, { "epoch": 0.133, "grad_norm": 0.8694912195205688, "learning_rate": 0.00028778038530582063, "loss": 4.1755, "step": 63840 }, { "epoch": 0.13302083333333334, "grad_norm": 0.8753427267074585, "learning_rate": 0.0002877764875512936, "loss": 3.8714, "step": 63850 }, { "epoch": 0.13304166666666667, "grad_norm": 0.8436046242713928, "learning_rate": 0.0002877725892016268, "loss": 3.8371, "step": 63860 }, { "epoch": 0.1330625, "grad_norm": 0.8479264378547668, "learning_rate": 0.00028776869025683686, "loss": 3.9006, "step": 63870 }, { "epoch": 0.13308333333333333, "grad_norm": 0.734691321849823, "learning_rate": 0.00028776479071694074, "loss": 3.8596, "step": 63880 }, { "epoch": 0.13310416666666666, "grad_norm": 0.7245784401893616, "learning_rate": 0.00028776089058195526, "loss": 3.9782, "step": 63890 }, { "epoch": 0.133125, "grad_norm": 0.8638946413993835, "learning_rate": 0.00028775698985189724, "loss": 3.9058, "step": 63900 }, { "epoch": 0.13314583333333332, "grad_norm": 1.0023601055145264, "learning_rate": 0.0002877530885267836, "loss": 3.9295, "step": 63910 }, { "epoch": 0.13316666666666666, "grad_norm": 0.8663880825042725, "learning_rate": 0.00028774918660663104, "loss": 3.7934, "step": 63920 }, { "epoch": 0.1331875, "grad_norm": 0.8692013621330261, "learning_rate": 0.00028774528409145663, "loss": 3.8468, "step": 63930 }, { "epoch": 0.13320833333333335, "grad_norm": 0.8036627769470215, "learning_rate": 0.00028774138098127707, "loss": 4.0856, "step": 63940 }, { "epoch": 0.13322916666666668, "grad_norm": 0.8842105865478516, "learning_rate": 0.0002877374772761093, "loss": 3.9576, "step": 63950 }, { "epoch": 0.13325, "grad_norm": 0.7062469124794006, "learning_rate": 0.0002877335729759701, "loss": 3.9933, "step": 63960 }, { "epoch": 0.13327083333333334, "grad_norm": 0.7921723127365112, "learning_rate": 0.0002877296680808764, "loss": 3.7534, "step": 63970 }, { "epoch": 0.13329166666666667, "grad_norm": 0.7186169624328613, "learning_rate": 0.00028772576259084503, "loss": 3.9798, "step": 63980 }, { "epoch": 0.1333125, "grad_norm": 0.8491309881210327, "learning_rate": 0.0002877218565058929, "loss": 4.0104, "step": 63990 }, { "epoch": 0.13333333333333333, "grad_norm": 0.7929764986038208, "learning_rate": 0.0002877179498260369, "loss": 3.966, "step": 64000 }, { "epoch": 0.13333333333333333, "eval_loss": 4.283611297607422, "eval_runtime": 10.4844, "eval_samples_per_second": 0.954, "eval_steps_per_second": 0.286, "step": 64000 }, { "epoch": 0.13335416666666666, "grad_norm": 0.8524074554443359, "learning_rate": 0.0002877140425512938, "loss": 4.0084, "step": 64010 }, { "epoch": 0.133375, "grad_norm": 0.7757831811904907, "learning_rate": 0.0002877101346816806, "loss": 3.9578, "step": 64020 }, { "epoch": 0.13339583333333332, "grad_norm": 0.7558451294898987, "learning_rate": 0.0002877062262172141, "loss": 3.9074, "step": 64030 }, { "epoch": 0.13341666666666666, "grad_norm": 0.7895762920379639, "learning_rate": 0.00028770231715791124, "loss": 4.1213, "step": 64040 }, { "epoch": 0.1334375, "grad_norm": 0.9421509504318237, "learning_rate": 0.0002876984075037889, "loss": 3.8427, "step": 64050 }, { "epoch": 0.13345833333333335, "grad_norm": 0.877099335193634, "learning_rate": 0.0002876944972548638, "loss": 3.8763, "step": 64060 }, { "epoch": 0.13347916666666668, "grad_norm": 0.774849534034729, "learning_rate": 0.00028769058641115315, "loss": 4.0344, "step": 64070 }, { "epoch": 0.1335, "grad_norm": 0.7340850830078125, "learning_rate": 0.0002876866749726736, "loss": 3.9634, "step": 64080 }, { "epoch": 0.13352083333333334, "grad_norm": 0.8784515261650085, "learning_rate": 0.0002876827629394421, "loss": 4.066, "step": 64090 }, { "epoch": 0.13354166666666667, "grad_norm": 0.7806510329246521, "learning_rate": 0.00028767885031147556, "loss": 4.1499, "step": 64100 }, { "epoch": 0.1335625, "grad_norm": 0.8111420273780823, "learning_rate": 0.0002876749370887909, "loss": 3.9546, "step": 64110 }, { "epoch": 0.13358333333333333, "grad_norm": 0.7310206890106201, "learning_rate": 0.000287671023271405, "loss": 4.044, "step": 64120 }, { "epoch": 0.13360416666666666, "grad_norm": 0.7263129353523254, "learning_rate": 0.0002876671088593348, "loss": 3.9149, "step": 64130 }, { "epoch": 0.133625, "grad_norm": 0.7650883793830872, "learning_rate": 0.00028766319385259713, "loss": 4.0736, "step": 64140 }, { "epoch": 0.13364583333333332, "grad_norm": 0.654585599899292, "learning_rate": 0.000287659278251209, "loss": 3.9479, "step": 64150 }, { "epoch": 0.13366666666666666, "grad_norm": 0.7454494833946228, "learning_rate": 0.00028765536205518726, "loss": 3.9117, "step": 64160 }, { "epoch": 0.1336875, "grad_norm": 0.7817630767822266, "learning_rate": 0.00028765144526454885, "loss": 3.8748, "step": 64170 }, { "epoch": 0.13370833333333335, "grad_norm": 0.7823349237442017, "learning_rate": 0.00028764752787931066, "loss": 3.9524, "step": 64180 }, { "epoch": 0.13372916666666668, "grad_norm": 0.7817695736885071, "learning_rate": 0.00028764360989948966, "loss": 4.0786, "step": 64190 }, { "epoch": 0.13375, "grad_norm": 0.8429250717163086, "learning_rate": 0.00028763969132510276, "loss": 4.0664, "step": 64200 }, { "epoch": 0.13377083333333334, "grad_norm": 0.7479737997055054, "learning_rate": 0.00028763577215616687, "loss": 3.9719, "step": 64210 }, { "epoch": 0.13379166666666667, "grad_norm": 0.7489782571792603, "learning_rate": 0.00028763185239269885, "loss": 3.8603, "step": 64220 }, { "epoch": 0.1338125, "grad_norm": 0.7412326335906982, "learning_rate": 0.0002876279320347158, "loss": 3.881, "step": 64230 }, { "epoch": 0.13383333333333333, "grad_norm": 0.7301384210586548, "learning_rate": 0.0002876240110822345, "loss": 3.9955, "step": 64240 }, { "epoch": 0.13385416666666666, "grad_norm": 0.9357399940490723, "learning_rate": 0.000287620089535272, "loss": 3.606, "step": 64250 }, { "epoch": 0.133875, "grad_norm": 0.7204338908195496, "learning_rate": 0.0002876161673938452, "loss": 3.9144, "step": 64260 }, { "epoch": 0.13389583333333333, "grad_norm": 0.7620922327041626, "learning_rate": 0.00028761224465797094, "loss": 3.9955, "step": 64270 }, { "epoch": 0.13391666666666666, "grad_norm": 0.7850940823554993, "learning_rate": 0.0002876083213276663, "loss": 3.9677, "step": 64280 }, { "epoch": 0.1339375, "grad_norm": 0.844295084476471, "learning_rate": 0.0002876043974029482, "loss": 3.8566, "step": 64290 }, { "epoch": 0.13395833333333335, "grad_norm": 0.7199763655662537, "learning_rate": 0.00028760047288383354, "loss": 3.9979, "step": 64300 }, { "epoch": 0.13397916666666668, "grad_norm": 0.7989261150360107, "learning_rate": 0.00028759654777033933, "loss": 3.9517, "step": 64310 }, { "epoch": 0.134, "grad_norm": 0.8251125812530518, "learning_rate": 0.0002875926220624825, "loss": 4.0783, "step": 64320 }, { "epoch": 0.13402083333333334, "grad_norm": 0.7119641900062561, "learning_rate": 0.00028758869576028, "loss": 4.0871, "step": 64330 }, { "epoch": 0.13404166666666667, "grad_norm": 0.8363273739814758, "learning_rate": 0.0002875847688637488, "loss": 3.8923, "step": 64340 }, { "epoch": 0.1340625, "grad_norm": 1.1368399858474731, "learning_rate": 0.0002875808413729058, "loss": 4.0604, "step": 64350 }, { "epoch": 0.13408333333333333, "grad_norm": 0.8615038990974426, "learning_rate": 0.00028757691328776806, "loss": 3.8282, "step": 64360 }, { "epoch": 0.13410416666666666, "grad_norm": 0.7559849619865417, "learning_rate": 0.0002875729846083525, "loss": 3.858, "step": 64370 }, { "epoch": 0.134125, "grad_norm": 0.7788131237030029, "learning_rate": 0.00028756905533467613, "loss": 3.8132, "step": 64380 }, { "epoch": 0.13414583333333333, "grad_norm": 0.9932048916816711, "learning_rate": 0.0002875651254667559, "loss": 3.9469, "step": 64390 }, { "epoch": 0.13416666666666666, "grad_norm": 1.3449825048446655, "learning_rate": 0.0002875611950046088, "loss": 3.9473, "step": 64400 }, { "epoch": 0.1341875, "grad_norm": 0.6532223224639893, "learning_rate": 0.00028755726394825174, "loss": 3.866, "step": 64410 }, { "epoch": 0.13420833333333335, "grad_norm": 0.7533696889877319, "learning_rate": 0.00028755333229770174, "loss": 3.8402, "step": 64420 }, { "epoch": 0.13422916666666668, "grad_norm": 0.8253911137580872, "learning_rate": 0.00028754940005297583, "loss": 3.8173, "step": 64430 }, { "epoch": 0.13425, "grad_norm": 0.8294810652732849, "learning_rate": 0.00028754546721409093, "loss": 3.9266, "step": 64440 }, { "epoch": 0.13427083333333334, "grad_norm": 0.713112473487854, "learning_rate": 0.0002875415337810641, "loss": 4.0174, "step": 64450 }, { "epoch": 0.13429166666666667, "grad_norm": 0.7563521862030029, "learning_rate": 0.00028753759975391226, "loss": 3.8377, "step": 64460 }, { "epoch": 0.1343125, "grad_norm": 0.8616205453872681, "learning_rate": 0.0002875336651326524, "loss": 3.8602, "step": 64470 }, { "epoch": 0.13433333333333333, "grad_norm": 0.7441871166229248, "learning_rate": 0.0002875297299173016, "loss": 3.8276, "step": 64480 }, { "epoch": 0.13435416666666666, "grad_norm": 0.8510188460350037, "learning_rate": 0.0002875257941078768, "loss": 3.9761, "step": 64490 }, { "epoch": 0.134375, "grad_norm": 0.8003024458885193, "learning_rate": 0.0002875218577043949, "loss": 4.2189, "step": 64500 }, { "epoch": 0.13439583333333333, "grad_norm": 0.873536229133606, "learning_rate": 0.00028751792070687315, "loss": 3.7914, "step": 64510 }, { "epoch": 0.13441666666666666, "grad_norm": 0.8054498434066772, "learning_rate": 0.00028751398311532833, "loss": 3.9121, "step": 64520 }, { "epoch": 0.1344375, "grad_norm": 0.7320621013641357, "learning_rate": 0.0002875100449297776, "loss": 4.0502, "step": 64530 }, { "epoch": 0.13445833333333335, "grad_norm": 0.7328641414642334, "learning_rate": 0.00028750610615023783, "loss": 4.0566, "step": 64540 }, { "epoch": 0.13447916666666668, "grad_norm": 0.9228671789169312, "learning_rate": 0.00028750216677672614, "loss": 4.1551, "step": 64550 }, { "epoch": 0.1345, "grad_norm": 1.2704331874847412, "learning_rate": 0.00028749822680925954, "loss": 4.1689, "step": 64560 }, { "epoch": 0.13452083333333334, "grad_norm": 0.9475177526473999, "learning_rate": 0.000287494286247855, "loss": 3.9883, "step": 64570 }, { "epoch": 0.13454166666666667, "grad_norm": 0.7184128761291504, "learning_rate": 0.0002874903450925296, "loss": 4.0521, "step": 64580 }, { "epoch": 0.1345625, "grad_norm": 0.8102483153343201, "learning_rate": 0.0002874864033433003, "loss": 4.0656, "step": 64590 }, { "epoch": 0.13458333333333333, "grad_norm": 0.7767441272735596, "learning_rate": 0.0002874824610001842, "loss": 4.1491, "step": 64600 }, { "epoch": 0.13460416666666666, "grad_norm": 0.7404881119728088, "learning_rate": 0.00028747851806319827, "loss": 4.0197, "step": 64610 }, { "epoch": 0.134625, "grad_norm": 0.9094785451889038, "learning_rate": 0.00028747457453235953, "loss": 3.8922, "step": 64620 }, { "epoch": 0.13464583333333333, "grad_norm": 0.7543533444404602, "learning_rate": 0.00028747063040768505, "loss": 3.9384, "step": 64630 }, { "epoch": 0.13466666666666666, "grad_norm": 0.8408339619636536, "learning_rate": 0.0002874666856891919, "loss": 4.1373, "step": 64640 }, { "epoch": 0.1346875, "grad_norm": 0.7669873237609863, "learning_rate": 0.00028746274037689704, "loss": 3.8682, "step": 64650 }, { "epoch": 0.13470833333333335, "grad_norm": 0.7371418476104736, "learning_rate": 0.00028745879447081757, "loss": 4.0197, "step": 64660 }, { "epoch": 0.13472916666666668, "grad_norm": 0.934221625328064, "learning_rate": 0.0002874548479709705, "loss": 3.7489, "step": 64670 }, { "epoch": 0.13475, "grad_norm": 0.7340819835662842, "learning_rate": 0.00028745090087737294, "loss": 3.9932, "step": 64680 }, { "epoch": 0.13477083333333334, "grad_norm": 0.8123356699943542, "learning_rate": 0.00028744695319004183, "loss": 3.9741, "step": 64690 }, { "epoch": 0.13479166666666667, "grad_norm": 0.8786877393722534, "learning_rate": 0.00028744300490899435, "loss": 3.8896, "step": 64700 }, { "epoch": 0.1348125, "grad_norm": 0.9325731992721558, "learning_rate": 0.00028743905603424746, "loss": 3.9605, "step": 64710 }, { "epoch": 0.13483333333333333, "grad_norm": 0.7665776014328003, "learning_rate": 0.00028743510656581824, "loss": 3.9601, "step": 64720 }, { "epoch": 0.13485416666666666, "grad_norm": 0.7228529453277588, "learning_rate": 0.00028743115650372376, "loss": 3.9223, "step": 64730 }, { "epoch": 0.134875, "grad_norm": 0.7234880924224854, "learning_rate": 0.0002874272058479811, "loss": 4.1654, "step": 64740 }, { "epoch": 0.13489583333333333, "grad_norm": 0.8839651942253113, "learning_rate": 0.0002874232545986073, "loss": 4.1489, "step": 64750 }, { "epoch": 0.13491666666666666, "grad_norm": 0.8160261511802673, "learning_rate": 0.0002874193027556195, "loss": 4.029, "step": 64760 }, { "epoch": 0.1349375, "grad_norm": 0.6733654737472534, "learning_rate": 0.0002874153503190346, "loss": 3.8903, "step": 64770 }, { "epoch": 0.13495833333333335, "grad_norm": 0.7644349932670593, "learning_rate": 0.00028741139728886983, "loss": 3.9853, "step": 64780 }, { "epoch": 0.13497916666666668, "grad_norm": 0.7276139259338379, "learning_rate": 0.0002874074436651422, "loss": 4.0622, "step": 64790 }, { "epoch": 0.135, "grad_norm": 0.7839577198028564, "learning_rate": 0.00028740348944786883, "loss": 4.0359, "step": 64800 }, { "epoch": 0.13502083333333334, "grad_norm": 0.7763628959655762, "learning_rate": 0.0002873995346370668, "loss": 3.9303, "step": 64810 }, { "epoch": 0.13504166666666667, "grad_norm": 0.700670599937439, "learning_rate": 0.0002873955792327531, "loss": 4.1579, "step": 64820 }, { "epoch": 0.1350625, "grad_norm": 0.8376744389533997, "learning_rate": 0.0002873916232349449, "loss": 3.8593, "step": 64830 }, { "epoch": 0.13508333333333333, "grad_norm": 0.7327127456665039, "learning_rate": 0.0002873876666436593, "loss": 4.0669, "step": 64840 }, { "epoch": 0.13510416666666666, "grad_norm": 0.8301616907119751, "learning_rate": 0.0002873837094589133, "loss": 3.9105, "step": 64850 }, { "epoch": 0.135125, "grad_norm": 1.02854585647583, "learning_rate": 0.0002873797516807241, "loss": 4.0777, "step": 64860 }, { "epoch": 0.13514583333333333, "grad_norm": 0.8989710211753845, "learning_rate": 0.00028737579330910876, "loss": 4.1353, "step": 64870 }, { "epoch": 0.13516666666666666, "grad_norm": 0.693149209022522, "learning_rate": 0.0002873718343440844, "loss": 4.0146, "step": 64880 }, { "epoch": 0.1351875, "grad_norm": 0.7931642532348633, "learning_rate": 0.000287367874785668, "loss": 3.9828, "step": 64890 }, { "epoch": 0.13520833333333335, "grad_norm": 0.7196096777915955, "learning_rate": 0.00028736391463387683, "loss": 3.8226, "step": 64900 }, { "epoch": 0.13522916666666668, "grad_norm": 0.9476368427276611, "learning_rate": 0.0002873599538887279, "loss": 3.7723, "step": 64910 }, { "epoch": 0.13525, "grad_norm": 0.7710063457489014, "learning_rate": 0.00028735599255023833, "loss": 4.0941, "step": 64920 }, { "epoch": 0.13527083333333334, "grad_norm": 0.9134628176689148, "learning_rate": 0.0002873520306184252, "loss": 4.0182, "step": 64930 }, { "epoch": 0.13529166666666667, "grad_norm": 0.8409550189971924, "learning_rate": 0.0002873480680933058, "loss": 3.8634, "step": 64940 }, { "epoch": 0.1353125, "grad_norm": 0.8538219332695007, "learning_rate": 0.00028734410497489697, "loss": 4.0777, "step": 64950 }, { "epoch": 0.13533333333333333, "grad_norm": 0.8457117676734924, "learning_rate": 0.00028734014126321605, "loss": 3.8193, "step": 64960 }, { "epoch": 0.13535416666666666, "grad_norm": 0.7340303063392639, "learning_rate": 0.00028733617695828, "loss": 3.9134, "step": 64970 }, { "epoch": 0.135375, "grad_norm": 0.761151134967804, "learning_rate": 0.00028733221206010613, "loss": 4.0224, "step": 64980 }, { "epoch": 0.13539583333333333, "grad_norm": 1.1450016498565674, "learning_rate": 0.0002873282465687114, "loss": 4.0665, "step": 64990 }, { "epoch": 0.13541666666666666, "grad_norm": 0.7096083760261536, "learning_rate": 0.0002873242804841131, "loss": 4.162, "step": 65000 }, { "epoch": 0.13541666666666666, "eval_loss": 4.270015716552734, "eval_runtime": 9.216, "eval_samples_per_second": 1.085, "eval_steps_per_second": 0.326, "step": 65000 }, { "epoch": 0.1354375, "grad_norm": 0.7915689945220947, "learning_rate": 0.0002873203138063282, "loss": 3.8182, "step": 65010 }, { "epoch": 0.13545833333333332, "grad_norm": 0.8541768789291382, "learning_rate": 0.0002873163465353738, "loss": 3.917, "step": 65020 }, { "epoch": 0.13547916666666668, "grad_norm": 1.2734990119934082, "learning_rate": 0.00028731237867126727, "loss": 4.0912, "step": 65030 }, { "epoch": 0.1355, "grad_norm": 0.7125342488288879, "learning_rate": 0.00028730841021402557, "loss": 4.0899, "step": 65040 }, { "epoch": 0.13552083333333334, "grad_norm": 0.8634536266326904, "learning_rate": 0.0002873044411636659, "loss": 4.0344, "step": 65050 }, { "epoch": 0.13554166666666667, "grad_norm": 0.8109236359596252, "learning_rate": 0.00028730047152020536, "loss": 4.0332, "step": 65060 }, { "epoch": 0.1355625, "grad_norm": 0.7831248641014099, "learning_rate": 0.00028729650128366116, "loss": 3.7846, "step": 65070 }, { "epoch": 0.13558333333333333, "grad_norm": 0.7490153908729553, "learning_rate": 0.0002872925304540504, "loss": 4.0979, "step": 65080 }, { "epoch": 0.13560416666666666, "grad_norm": 0.7342486381530762, "learning_rate": 0.00028728855903139026, "loss": 3.9611, "step": 65090 }, { "epoch": 0.135625, "grad_norm": 1.0337474346160889, "learning_rate": 0.00028728458701569794, "loss": 3.7365, "step": 65100 }, { "epoch": 0.13564583333333333, "grad_norm": 0.889200747013092, "learning_rate": 0.00028728061440699045, "loss": 4.0339, "step": 65110 }, { "epoch": 0.13566666666666666, "grad_norm": 0.9836903214454651, "learning_rate": 0.0002872766412052851, "loss": 3.9845, "step": 65120 }, { "epoch": 0.1356875, "grad_norm": 0.7733109593391418, "learning_rate": 0.000287272667410599, "loss": 3.9591, "step": 65130 }, { "epoch": 0.13570833333333332, "grad_norm": 0.8711004853248596, "learning_rate": 0.0002872686930229493, "loss": 4.1617, "step": 65140 }, { "epoch": 0.13572916666666668, "grad_norm": 0.7676413655281067, "learning_rate": 0.0002872647180423532, "loss": 3.9984, "step": 65150 }, { "epoch": 0.13575, "grad_norm": 0.7358406782150269, "learning_rate": 0.0002872607424688278, "loss": 3.8362, "step": 65160 }, { "epoch": 0.13577083333333334, "grad_norm": 0.9238478541374207, "learning_rate": 0.00028725676630239036, "loss": 4.0912, "step": 65170 }, { "epoch": 0.13579166666666667, "grad_norm": 0.7800845503807068, "learning_rate": 0.00028725278954305804, "loss": 3.9674, "step": 65180 }, { "epoch": 0.1358125, "grad_norm": 0.7559322714805603, "learning_rate": 0.0002872488121908479, "loss": 4.006, "step": 65190 }, { "epoch": 0.13583333333333333, "grad_norm": 0.8165303468704224, "learning_rate": 0.00028724483424577736, "loss": 3.9804, "step": 65200 }, { "epoch": 0.13585416666666666, "grad_norm": 0.9611272215843201, "learning_rate": 0.0002872408557078634, "loss": 3.8324, "step": 65210 }, { "epoch": 0.135875, "grad_norm": 0.8529415130615234, "learning_rate": 0.00028723687657712324, "loss": 3.8041, "step": 65220 }, { "epoch": 0.13589583333333333, "grad_norm": 1.044836401939392, "learning_rate": 0.00028723289685357416, "loss": 3.9292, "step": 65230 }, { "epoch": 0.13591666666666666, "grad_norm": 0.7357377409934998, "learning_rate": 0.0002872289165372332, "loss": 3.922, "step": 65240 }, { "epoch": 0.1359375, "grad_norm": 0.778701901435852, "learning_rate": 0.0002872249356281177, "loss": 3.9804, "step": 65250 }, { "epoch": 0.13595833333333332, "grad_norm": 0.7653890252113342, "learning_rate": 0.0002872209541262448, "loss": 3.8818, "step": 65260 }, { "epoch": 0.13597916666666668, "grad_norm": 0.8069215416908264, "learning_rate": 0.0002872169720316317, "loss": 3.994, "step": 65270 }, { "epoch": 0.136, "grad_norm": 0.7315927743911743, "learning_rate": 0.0002872129893442956, "loss": 3.8108, "step": 65280 }, { "epoch": 0.13602083333333334, "grad_norm": 0.9079833626747131, "learning_rate": 0.0002872090060642536, "loss": 4.0035, "step": 65290 }, { "epoch": 0.13604166666666667, "grad_norm": 0.8693148493766785, "learning_rate": 0.00028720502219152305, "loss": 3.8689, "step": 65300 }, { "epoch": 0.1360625, "grad_norm": 0.8738946318626404, "learning_rate": 0.00028720103772612117, "loss": 3.9539, "step": 65310 }, { "epoch": 0.13608333333333333, "grad_norm": 0.8064956068992615, "learning_rate": 0.00028719705266806505, "loss": 4.0215, "step": 65320 }, { "epoch": 0.13610416666666666, "grad_norm": 0.7105675339698792, "learning_rate": 0.000287193067017372, "loss": 4.1154, "step": 65330 }, { "epoch": 0.136125, "grad_norm": 0.8013262152671814, "learning_rate": 0.00028718908077405924, "loss": 3.8123, "step": 65340 }, { "epoch": 0.13614583333333333, "grad_norm": 1.2218613624572754, "learning_rate": 0.0002871850939381439, "loss": 3.9452, "step": 65350 }, { "epoch": 0.13616666666666666, "grad_norm": 0.9417993426322937, "learning_rate": 0.0002871811065096433, "loss": 3.8226, "step": 65360 }, { "epoch": 0.1361875, "grad_norm": 1.3034276962280273, "learning_rate": 0.0002871771184885746, "loss": 3.6707, "step": 65370 }, { "epoch": 0.13620833333333332, "grad_norm": 0.8150424957275391, "learning_rate": 0.000287173129874955, "loss": 3.7573, "step": 65380 }, { "epoch": 0.13622916666666668, "grad_norm": 0.7253665328025818, "learning_rate": 0.00028716914066880184, "loss": 3.8997, "step": 65390 }, { "epoch": 0.13625, "grad_norm": 1.119425892829895, "learning_rate": 0.0002871651508701323, "loss": 4.0051, "step": 65400 }, { "epoch": 0.13627083333333334, "grad_norm": 0.7178698182106018, "learning_rate": 0.00028716116047896353, "loss": 4.184, "step": 65410 }, { "epoch": 0.13629166666666667, "grad_norm": 0.7137079238891602, "learning_rate": 0.0002871571694953129, "loss": 3.8225, "step": 65420 }, { "epoch": 0.1363125, "grad_norm": 0.9255494475364685, "learning_rate": 0.0002871531779191975, "loss": 4.0078, "step": 65430 }, { "epoch": 0.13633333333333333, "grad_norm": 0.7485969662666321, "learning_rate": 0.00028714918575063476, "loss": 3.9384, "step": 65440 }, { "epoch": 0.13635416666666667, "grad_norm": 0.9804455041885376, "learning_rate": 0.0002871451929896418, "loss": 4.055, "step": 65450 }, { "epoch": 0.136375, "grad_norm": 0.9150384664535522, "learning_rate": 0.00028714119963623585, "loss": 3.8845, "step": 65460 }, { "epoch": 0.13639583333333333, "grad_norm": 0.8464775681495667, "learning_rate": 0.0002871372056904343, "loss": 3.9178, "step": 65470 }, { "epoch": 0.13641666666666666, "grad_norm": 0.7964507341384888, "learning_rate": 0.0002871332111522542, "loss": 3.9835, "step": 65480 }, { "epoch": 0.1364375, "grad_norm": 0.7888517379760742, "learning_rate": 0.00028712921602171295, "loss": 3.9112, "step": 65490 }, { "epoch": 0.13645833333333332, "grad_norm": 0.7494146823883057, "learning_rate": 0.00028712522029882774, "loss": 4.015, "step": 65500 }, { "epoch": 0.13647916666666668, "grad_norm": 0.8611884117126465, "learning_rate": 0.00028712122398361593, "loss": 4.0493, "step": 65510 }, { "epoch": 0.1365, "grad_norm": 0.8028864860534668, "learning_rate": 0.0002871172270760946, "loss": 4.0986, "step": 65520 }, { "epoch": 0.13652083333333334, "grad_norm": 0.6981949210166931, "learning_rate": 0.0002871132295762812, "loss": 4.0149, "step": 65530 }, { "epoch": 0.13654166666666667, "grad_norm": 0.9052545428276062, "learning_rate": 0.00028710923148419294, "loss": 4.1545, "step": 65540 }, { "epoch": 0.1365625, "grad_norm": 0.8394050598144531, "learning_rate": 0.000287105232799847, "loss": 3.8832, "step": 65550 }, { "epoch": 0.13658333333333333, "grad_norm": 0.7084269523620605, "learning_rate": 0.0002871012335232608, "loss": 3.9726, "step": 65560 }, { "epoch": 0.13660416666666667, "grad_norm": 0.872664749622345, "learning_rate": 0.00028709723365445147, "loss": 3.9799, "step": 65570 }, { "epoch": 0.136625, "grad_norm": 0.7112998962402344, "learning_rate": 0.0002870932331934364, "loss": 4.0741, "step": 65580 }, { "epoch": 0.13664583333333333, "grad_norm": 0.7052416801452637, "learning_rate": 0.0002870892321402328, "loss": 3.9478, "step": 65590 }, { "epoch": 0.13666666666666666, "grad_norm": 0.7768219113349915, "learning_rate": 0.000287085230494858, "loss": 3.8606, "step": 65600 }, { "epoch": 0.1366875, "grad_norm": 0.7721940279006958, "learning_rate": 0.00028708122825732923, "loss": 3.889, "step": 65610 }, { "epoch": 0.13670833333333332, "grad_norm": 0.7931677103042603, "learning_rate": 0.00028707722542766384, "loss": 3.8851, "step": 65620 }, { "epoch": 0.13672916666666668, "grad_norm": 0.8016607761383057, "learning_rate": 0.0002870732220058791, "loss": 3.946, "step": 65630 }, { "epoch": 0.13675, "grad_norm": 0.8310295343399048, "learning_rate": 0.00028706921799199234, "loss": 3.8892, "step": 65640 }, { "epoch": 0.13677083333333334, "grad_norm": 0.7296850681304932, "learning_rate": 0.00028706521338602074, "loss": 3.9353, "step": 65650 }, { "epoch": 0.13679166666666667, "grad_norm": 0.7558501958847046, "learning_rate": 0.00028706120818798174, "loss": 3.7684, "step": 65660 }, { "epoch": 0.1368125, "grad_norm": 0.7843570113182068, "learning_rate": 0.0002870572023978925, "loss": 4.003, "step": 65670 }, { "epoch": 0.13683333333333333, "grad_norm": 0.8324593901634216, "learning_rate": 0.00028705319601577046, "loss": 3.7992, "step": 65680 }, { "epoch": 0.13685416666666667, "grad_norm": 0.8596004247665405, "learning_rate": 0.0002870491890416328, "loss": 3.9707, "step": 65690 }, { "epoch": 0.136875, "grad_norm": 0.769801139831543, "learning_rate": 0.00028704518147549694, "loss": 3.9967, "step": 65700 }, { "epoch": 0.13689583333333333, "grad_norm": 0.7398144602775574, "learning_rate": 0.0002870411733173802, "loss": 3.8826, "step": 65710 }, { "epoch": 0.13691666666666666, "grad_norm": 0.7475129961967468, "learning_rate": 0.00028703716456729975, "loss": 3.9846, "step": 65720 }, { "epoch": 0.1369375, "grad_norm": 0.8137556314468384, "learning_rate": 0.00028703315522527297, "loss": 3.766, "step": 65730 }, { "epoch": 0.13695833333333332, "grad_norm": 0.868998646736145, "learning_rate": 0.00028702914529131723, "loss": 3.9603, "step": 65740 }, { "epoch": 0.13697916666666668, "grad_norm": 0.8844988346099854, "learning_rate": 0.00028702513476544983, "loss": 3.8723, "step": 65750 }, { "epoch": 0.137, "grad_norm": 0.770193338394165, "learning_rate": 0.0002870211236476881, "loss": 4.0065, "step": 65760 }, { "epoch": 0.13702083333333334, "grad_norm": 0.743553102016449, "learning_rate": 0.00028701711193804936, "loss": 4.2644, "step": 65770 }, { "epoch": 0.13704166666666667, "grad_norm": 0.7592821717262268, "learning_rate": 0.0002870130996365509, "loss": 3.8594, "step": 65780 }, { "epoch": 0.1370625, "grad_norm": 0.8209540843963623, "learning_rate": 0.0002870090867432101, "loss": 3.95, "step": 65790 }, { "epoch": 0.13708333333333333, "grad_norm": 0.7818352580070496, "learning_rate": 0.0002870050732580443, "loss": 3.9313, "step": 65800 }, { "epoch": 0.13710416666666667, "grad_norm": 0.7777538299560547, "learning_rate": 0.0002870010591810708, "loss": 4.1911, "step": 65810 }, { "epoch": 0.137125, "grad_norm": 0.9045796394348145, "learning_rate": 0.0002869970445123069, "loss": 4.0692, "step": 65820 }, { "epoch": 0.13714583333333333, "grad_norm": 0.7993079423904419, "learning_rate": 0.00028699302925177004, "loss": 4.048, "step": 65830 }, { "epoch": 0.13716666666666666, "grad_norm": 2.634913206100464, "learning_rate": 0.0002869890133994775, "loss": 3.9703, "step": 65840 }, { "epoch": 0.1371875, "grad_norm": 0.807085394859314, "learning_rate": 0.0002869849969554467, "loss": 4.0553, "step": 65850 }, { "epoch": 0.13720833333333332, "grad_norm": 1.083817958831787, "learning_rate": 0.00028698097991969486, "loss": 4.025, "step": 65860 }, { "epoch": 0.13722916666666668, "grad_norm": 0.7468310594558716, "learning_rate": 0.0002869769622922395, "loss": 4.0082, "step": 65870 }, { "epoch": 0.13725, "grad_norm": 0.990460216999054, "learning_rate": 0.0002869729440730978, "loss": 3.8593, "step": 65880 }, { "epoch": 0.13727083333333334, "grad_norm": 0.8732584118843079, "learning_rate": 0.0002869689252622872, "loss": 4.0827, "step": 65890 }, { "epoch": 0.13729166666666667, "grad_norm": 0.7800723314285278, "learning_rate": 0.0002869649058598251, "loss": 4.1737, "step": 65900 }, { "epoch": 0.1373125, "grad_norm": 0.916387677192688, "learning_rate": 0.00028696088586572876, "loss": 3.9019, "step": 65910 }, { "epoch": 0.13733333333333334, "grad_norm": 0.7495294809341431, "learning_rate": 0.0002869568652800157, "loss": 4.0042, "step": 65920 }, { "epoch": 0.13735416666666667, "grad_norm": 0.7494322657585144, "learning_rate": 0.00028695284410270314, "loss": 3.778, "step": 65930 }, { "epoch": 0.137375, "grad_norm": 0.708899736404419, "learning_rate": 0.0002869488223338085, "loss": 3.7854, "step": 65940 }, { "epoch": 0.13739583333333333, "grad_norm": 0.8492857217788696, "learning_rate": 0.0002869447999733492, "loss": 4.0197, "step": 65950 }, { "epoch": 0.13741666666666666, "grad_norm": 0.7774770855903625, "learning_rate": 0.0002869407770213425, "loss": 3.9175, "step": 65960 }, { "epoch": 0.1374375, "grad_norm": 0.8904722332954407, "learning_rate": 0.00028693675347780587, "loss": 3.8871, "step": 65970 }, { "epoch": 0.13745833333333332, "grad_norm": 0.8568634390830994, "learning_rate": 0.0002869327293427567, "loss": 3.8772, "step": 65980 }, { "epoch": 0.13747916666666668, "grad_norm": 0.8707426190376282, "learning_rate": 0.0002869287046162123, "loss": 3.7674, "step": 65990 }, { "epoch": 0.1375, "grad_norm": 0.8670472502708435, "learning_rate": 0.00028692467929819016, "loss": 4.1639, "step": 66000 }, { "epoch": 0.1375, "eval_loss": 4.280795097351074, "eval_runtime": 10.0378, "eval_samples_per_second": 0.996, "eval_steps_per_second": 0.299, "step": 66000 }, { "epoch": 0.13752083333333334, "grad_norm": 0.740135669708252, "learning_rate": 0.00028692065338870753, "loss": 3.8462, "step": 66010 }, { "epoch": 0.13754166666666667, "grad_norm": 0.9340844750404358, "learning_rate": 0.00028691662688778193, "loss": 3.9741, "step": 66020 }, { "epoch": 0.1375625, "grad_norm": 0.7554949522018433, "learning_rate": 0.00028691259979543067, "loss": 4.1069, "step": 66030 }, { "epoch": 0.13758333333333334, "grad_norm": 0.7845373749732971, "learning_rate": 0.0002869085721116712, "loss": 3.7915, "step": 66040 }, { "epoch": 0.13760416666666667, "grad_norm": 1.071006417274475, "learning_rate": 0.00028690454383652084, "loss": 4.021, "step": 66050 }, { "epoch": 0.137625, "grad_norm": 0.8170678019523621, "learning_rate": 0.00028690051496999707, "loss": 3.8861, "step": 66060 }, { "epoch": 0.13764583333333333, "grad_norm": 0.9291921257972717, "learning_rate": 0.00028689648551211724, "loss": 3.9739, "step": 66070 }, { "epoch": 0.13766666666666666, "grad_norm": 0.7531381249427795, "learning_rate": 0.0002868924554628988, "loss": 3.9176, "step": 66080 }, { "epoch": 0.1376875, "grad_norm": 0.7596206068992615, "learning_rate": 0.00028688842482235916, "loss": 4.0523, "step": 66090 }, { "epoch": 0.13770833333333332, "grad_norm": 0.7787721753120422, "learning_rate": 0.0002868843935905157, "loss": 4.0548, "step": 66100 }, { "epoch": 0.13772916666666668, "grad_norm": 0.7916592359542847, "learning_rate": 0.0002868803617673858, "loss": 4.0309, "step": 66110 }, { "epoch": 0.13775, "grad_norm": 0.8433559536933899, "learning_rate": 0.0002868763293529869, "loss": 4.1242, "step": 66120 }, { "epoch": 0.13777083333333334, "grad_norm": 0.7746022343635559, "learning_rate": 0.00028687229634733656, "loss": 3.8951, "step": 66130 }, { "epoch": 0.13779166666666667, "grad_norm": 0.7962788343429565, "learning_rate": 0.000286868262750452, "loss": 4.0907, "step": 66140 }, { "epoch": 0.1378125, "grad_norm": 0.7643312811851501, "learning_rate": 0.00028686422856235075, "loss": 3.9383, "step": 66150 }, { "epoch": 0.13783333333333334, "grad_norm": 0.8939483165740967, "learning_rate": 0.00028686019378305015, "loss": 3.812, "step": 66160 }, { "epoch": 0.13785416666666667, "grad_norm": 0.6806573271751404, "learning_rate": 0.0002868561584125677, "loss": 3.9889, "step": 66170 }, { "epoch": 0.137875, "grad_norm": 0.7723097801208496, "learning_rate": 0.00028685212245092086, "loss": 3.9836, "step": 66180 }, { "epoch": 0.13789583333333333, "grad_norm": 0.8020229935646057, "learning_rate": 0.00028684808589812697, "loss": 3.9696, "step": 66190 }, { "epoch": 0.13791666666666666, "grad_norm": 0.7712486982345581, "learning_rate": 0.0002868440487542036, "loss": 3.8379, "step": 66200 }, { "epoch": 0.1379375, "grad_norm": 0.8245943188667297, "learning_rate": 0.000286840011019168, "loss": 4.1566, "step": 66210 }, { "epoch": 0.13795833333333332, "grad_norm": 0.8406330347061157, "learning_rate": 0.00028683597269303776, "loss": 3.9494, "step": 66220 }, { "epoch": 0.13797916666666668, "grad_norm": 0.7398877143859863, "learning_rate": 0.0002868319337758303, "loss": 4.2635, "step": 66230 }, { "epoch": 0.138, "grad_norm": 0.7273675203323364, "learning_rate": 0.0002868278942675631, "loss": 3.8957, "step": 66240 }, { "epoch": 0.13802083333333334, "grad_norm": 0.8393301367759705, "learning_rate": 0.00028682385416825345, "loss": 3.8792, "step": 66250 }, { "epoch": 0.13804166666666667, "grad_norm": 0.9525238871574402, "learning_rate": 0.00028681981347791893, "loss": 3.8784, "step": 66260 }, { "epoch": 0.1380625, "grad_norm": 1.0002228021621704, "learning_rate": 0.000286815772196577, "loss": 4.0425, "step": 66270 }, { "epoch": 0.13808333333333334, "grad_norm": 0.7807588577270508, "learning_rate": 0.00028681173032424513, "loss": 4.1447, "step": 66280 }, { "epoch": 0.13810416666666667, "grad_norm": 0.7657002806663513, "learning_rate": 0.00028680768786094066, "loss": 3.9529, "step": 66290 }, { "epoch": 0.138125, "grad_norm": 0.7748212218284607, "learning_rate": 0.00028680364480668116, "loss": 3.9714, "step": 66300 }, { "epoch": 0.13814583333333333, "grad_norm": 0.8226855993270874, "learning_rate": 0.0002867996011614841, "loss": 3.9952, "step": 66310 }, { "epoch": 0.13816666666666666, "grad_norm": 0.6432904601097107, "learning_rate": 0.00028679555692536683, "loss": 4.0371, "step": 66320 }, { "epoch": 0.1381875, "grad_norm": 0.8896268606185913, "learning_rate": 0.00028679151209834696, "loss": 4.043, "step": 66330 }, { "epoch": 0.13820833333333332, "grad_norm": 0.801670253276825, "learning_rate": 0.0002867874666804419, "loss": 3.9039, "step": 66340 }, { "epoch": 0.13822916666666665, "grad_norm": 0.755953311920166, "learning_rate": 0.00028678342067166914, "loss": 4.2403, "step": 66350 }, { "epoch": 0.13825, "grad_norm": 0.8296604752540588, "learning_rate": 0.0002867793740720461, "loss": 4.0175, "step": 66360 }, { "epoch": 0.13827083333333334, "grad_norm": 0.8860189318656921, "learning_rate": 0.00028677532688159034, "loss": 3.9633, "step": 66370 }, { "epoch": 0.13829166666666667, "grad_norm": 0.8846216201782227, "learning_rate": 0.0002867712791003193, "loss": 3.7753, "step": 66380 }, { "epoch": 0.1383125, "grad_norm": 0.725294828414917, "learning_rate": 0.00028676723072825047, "loss": 3.847, "step": 66390 }, { "epoch": 0.13833333333333334, "grad_norm": 0.7203556299209595, "learning_rate": 0.0002867631817654014, "loss": 4.0929, "step": 66400 }, { "epoch": 0.13835416666666667, "grad_norm": 0.7871002554893494, "learning_rate": 0.0002867591322117894, "loss": 4.002, "step": 66410 }, { "epoch": 0.138375, "grad_norm": 0.8023578524589539, "learning_rate": 0.0002867550820674322, "loss": 3.9665, "step": 66420 }, { "epoch": 0.13839583333333333, "grad_norm": 0.9391366243362427, "learning_rate": 0.0002867510313323471, "loss": 4.0523, "step": 66430 }, { "epoch": 0.13841666666666666, "grad_norm": 0.7334455251693726, "learning_rate": 0.0002867469800065517, "loss": 4.2115, "step": 66440 }, { "epoch": 0.1384375, "grad_norm": 0.7620160579681396, "learning_rate": 0.00028674292809006345, "loss": 3.893, "step": 66450 }, { "epoch": 0.13845833333333332, "grad_norm": 0.7667372822761536, "learning_rate": 0.0002867388755828999, "loss": 3.733, "step": 66460 }, { "epoch": 0.13847916666666665, "grad_norm": 1.0828499794006348, "learning_rate": 0.00028673482248507855, "loss": 3.9695, "step": 66470 }, { "epoch": 0.1385, "grad_norm": 0.7990016937255859, "learning_rate": 0.0002867307687966169, "loss": 3.956, "step": 66480 }, { "epoch": 0.13852083333333334, "grad_norm": 0.7766852974891663, "learning_rate": 0.00028672671451753233, "loss": 4.0184, "step": 66490 }, { "epoch": 0.13854166666666667, "grad_norm": 0.7112399935722351, "learning_rate": 0.0002867226596478426, "loss": 4.004, "step": 66500 }, { "epoch": 0.1385625, "grad_norm": 0.8018895983695984, "learning_rate": 0.0002867186041875651, "loss": 3.8946, "step": 66510 }, { "epoch": 0.13858333333333334, "grad_norm": 0.9305739998817444, "learning_rate": 0.00028671454813671726, "loss": 4.2356, "step": 66520 }, { "epoch": 0.13860416666666667, "grad_norm": 0.7580352425575256, "learning_rate": 0.00028671049149531675, "loss": 3.9579, "step": 66530 }, { "epoch": 0.138625, "grad_norm": 0.7714937329292297, "learning_rate": 0.000286706434263381, "loss": 3.9876, "step": 66540 }, { "epoch": 0.13864583333333333, "grad_norm": 0.8185648918151855, "learning_rate": 0.0002867023764409276, "loss": 4.0402, "step": 66550 }, { "epoch": 0.13866666666666666, "grad_norm": 0.8889954686164856, "learning_rate": 0.00028669831802797407, "loss": 4.1126, "step": 66560 }, { "epoch": 0.1386875, "grad_norm": 0.882784366607666, "learning_rate": 0.00028669425902453787, "loss": 3.7506, "step": 66570 }, { "epoch": 0.13870833333333332, "grad_norm": 0.8317544460296631, "learning_rate": 0.0002866901994306366, "loss": 3.8671, "step": 66580 }, { "epoch": 0.13872916666666665, "grad_norm": 0.7309566140174866, "learning_rate": 0.0002866861392462877, "loss": 3.9634, "step": 66590 }, { "epoch": 0.13875, "grad_norm": 0.8411346077919006, "learning_rate": 0.0002866820784715088, "loss": 3.9735, "step": 66600 }, { "epoch": 0.13877083333333334, "grad_norm": 0.7378370761871338, "learning_rate": 0.0002866780171063175, "loss": 3.9803, "step": 66610 }, { "epoch": 0.13879166666666667, "grad_norm": 0.7075258493423462, "learning_rate": 0.0002866739551507312, "loss": 4.0165, "step": 66620 }, { "epoch": 0.1388125, "grad_norm": 0.8132305145263672, "learning_rate": 0.0002866698926047676, "loss": 3.8272, "step": 66630 }, { "epoch": 0.13883333333333334, "grad_norm": 0.8023970723152161, "learning_rate": 0.0002866658294684441, "loss": 3.9566, "step": 66640 }, { "epoch": 0.13885416666666667, "grad_norm": 0.7620745301246643, "learning_rate": 0.0002866617657417783, "loss": 3.9641, "step": 66650 }, { "epoch": 0.138875, "grad_norm": 0.8282944560050964, "learning_rate": 0.00028665770142478783, "loss": 4.0796, "step": 66660 }, { "epoch": 0.13889583333333333, "grad_norm": 0.689987063407898, "learning_rate": 0.00028665363651749013, "loss": 3.9885, "step": 66670 }, { "epoch": 0.13891666666666666, "grad_norm": 0.8217405676841736, "learning_rate": 0.0002866495710199028, "loss": 3.9427, "step": 66680 }, { "epoch": 0.1389375, "grad_norm": 0.7840771079063416, "learning_rate": 0.0002866455049320434, "loss": 4.0037, "step": 66690 }, { "epoch": 0.13895833333333332, "grad_norm": 0.8600865006446838, "learning_rate": 0.00028664143825392953, "loss": 3.7886, "step": 66700 }, { "epoch": 0.13897916666666665, "grad_norm": 0.7443968057632446, "learning_rate": 0.00028663737098557875, "loss": 3.962, "step": 66710 }, { "epoch": 0.139, "grad_norm": 0.9079613089561462, "learning_rate": 0.00028663330312700863, "loss": 3.8281, "step": 66720 }, { "epoch": 0.13902083333333334, "grad_norm": 0.7392581105232239, "learning_rate": 0.0002866292346782367, "loss": 3.957, "step": 66730 }, { "epoch": 0.13904166666666667, "grad_norm": 0.8310708403587341, "learning_rate": 0.00028662516563928055, "loss": 4.0316, "step": 66740 }, { "epoch": 0.1390625, "grad_norm": 0.8175225257873535, "learning_rate": 0.00028662109601015776, "loss": 3.8698, "step": 66750 }, { "epoch": 0.13908333333333334, "grad_norm": 0.7781490087509155, "learning_rate": 0.00028661702579088594, "loss": 3.6807, "step": 66760 }, { "epoch": 0.13910416666666667, "grad_norm": 0.7586997151374817, "learning_rate": 0.0002866129549814826, "loss": 3.9592, "step": 66770 }, { "epoch": 0.139125, "grad_norm": 0.832291841506958, "learning_rate": 0.0002866088835819654, "loss": 3.9807, "step": 66780 }, { "epoch": 0.13914583333333333, "grad_norm": 0.719735324382782, "learning_rate": 0.0002866048115923519, "loss": 3.9444, "step": 66790 }, { "epoch": 0.13916666666666666, "grad_norm": 0.7619137763977051, "learning_rate": 0.0002866007390126597, "loss": 3.9132, "step": 66800 }, { "epoch": 0.1391875, "grad_norm": 0.9500381350517273, "learning_rate": 0.00028659666584290633, "loss": 3.913, "step": 66810 }, { "epoch": 0.13920833333333332, "grad_norm": 0.8629404902458191, "learning_rate": 0.0002865925920831095, "loss": 4.0357, "step": 66820 }, { "epoch": 0.13922916666666665, "grad_norm": 0.7602584362030029, "learning_rate": 0.0002865885177332867, "loss": 4.101, "step": 66830 }, { "epoch": 0.13925, "grad_norm": 0.6978729367256165, "learning_rate": 0.00028658444279345554, "loss": 4.0849, "step": 66840 }, { "epoch": 0.13927083333333334, "grad_norm": 0.7115938067436218, "learning_rate": 0.0002865803672636337, "loss": 3.9577, "step": 66850 }, { "epoch": 0.13929166666666667, "grad_norm": 0.9050566554069519, "learning_rate": 0.00028657629114383867, "loss": 3.7679, "step": 66860 }, { "epoch": 0.1393125, "grad_norm": 1.0012133121490479, "learning_rate": 0.0002865722144340882, "loss": 3.891, "step": 66870 }, { "epoch": 0.13933333333333334, "grad_norm": 0.7658916115760803, "learning_rate": 0.00028656813713439977, "loss": 3.8708, "step": 66880 }, { "epoch": 0.13935416666666667, "grad_norm": 0.7346609234809875, "learning_rate": 0.0002865640592447911, "loss": 4.0782, "step": 66890 }, { "epoch": 0.139375, "grad_norm": 1.2897148132324219, "learning_rate": 0.00028655998076527973, "loss": 3.8769, "step": 66900 }, { "epoch": 0.13939583333333333, "grad_norm": 0.8564690947532654, "learning_rate": 0.00028655590169588324, "loss": 3.8499, "step": 66910 }, { "epoch": 0.13941666666666666, "grad_norm": 0.7858598828315735, "learning_rate": 0.00028655182203661935, "loss": 4.0368, "step": 66920 }, { "epoch": 0.1394375, "grad_norm": 0.7081370949745178, "learning_rate": 0.00028654774178750567, "loss": 3.8307, "step": 66930 }, { "epoch": 0.13945833333333332, "grad_norm": 0.9028245210647583, "learning_rate": 0.0002865436609485597, "loss": 3.9862, "step": 66940 }, { "epoch": 0.13947916666666665, "grad_norm": 0.7501576542854309, "learning_rate": 0.00028653957951979927, "loss": 4.0422, "step": 66950 }, { "epoch": 0.1395, "grad_norm": 0.751736044883728, "learning_rate": 0.00028653549750124184, "loss": 4.0201, "step": 66960 }, { "epoch": 0.13952083333333334, "grad_norm": 0.7579165697097778, "learning_rate": 0.0002865314148929051, "loss": 4.2246, "step": 66970 }, { "epoch": 0.13954166666666667, "grad_norm": 0.8148170709609985, "learning_rate": 0.00028652733169480673, "loss": 4.1324, "step": 66980 }, { "epoch": 0.1395625, "grad_norm": 0.7061417102813721, "learning_rate": 0.0002865232479069643, "loss": 4.0256, "step": 66990 }, { "epoch": 0.13958333333333334, "grad_norm": 0.7910216450691223, "learning_rate": 0.00028651916352939554, "loss": 4.003, "step": 67000 }, { "epoch": 0.13958333333333334, "eval_loss": 4.276420593261719, "eval_runtime": 10.2531, "eval_samples_per_second": 0.975, "eval_steps_per_second": 0.293, "step": 67000 }, { "epoch": 0.13960416666666667, "grad_norm": 0.9156991839408875, "learning_rate": 0.00028651507856211796, "loss": 3.9639, "step": 67010 }, { "epoch": 0.139625, "grad_norm": 0.7979676723480225, "learning_rate": 0.0002865109930051493, "loss": 3.9102, "step": 67020 }, { "epoch": 0.13964583333333333, "grad_norm": 0.7167903184890747, "learning_rate": 0.0002865069068585072, "loss": 4.1039, "step": 67030 }, { "epoch": 0.13966666666666666, "grad_norm": 0.9077431559562683, "learning_rate": 0.0002865028201222093, "loss": 4.0158, "step": 67040 }, { "epoch": 0.1396875, "grad_norm": 0.697561502456665, "learning_rate": 0.0002864987327962732, "loss": 3.9194, "step": 67050 }, { "epoch": 0.13970833333333332, "grad_norm": 0.7293820381164551, "learning_rate": 0.00028649464488071663, "loss": 3.9485, "step": 67060 }, { "epoch": 0.13972916666666665, "grad_norm": 0.7158096432685852, "learning_rate": 0.0002864905563755572, "loss": 4.1011, "step": 67070 }, { "epoch": 0.13975, "grad_norm": 0.7435108423233032, "learning_rate": 0.00028648646728081264, "loss": 4.0432, "step": 67080 }, { "epoch": 0.13977083333333334, "grad_norm": 0.8101531863212585, "learning_rate": 0.0002864823775965005, "loss": 4.0, "step": 67090 }, { "epoch": 0.13979166666666668, "grad_norm": 0.7339980006217957, "learning_rate": 0.0002864782873226386, "loss": 4.1664, "step": 67100 }, { "epoch": 0.1398125, "grad_norm": 0.737366259098053, "learning_rate": 0.0002864741964592445, "loss": 3.7327, "step": 67110 }, { "epoch": 0.13983333333333334, "grad_norm": 0.9386153221130371, "learning_rate": 0.00028647010500633586, "loss": 3.8721, "step": 67120 }, { "epoch": 0.13985416666666667, "grad_norm": 0.8770789504051208, "learning_rate": 0.0002864660129639304, "loss": 4.0339, "step": 67130 }, { "epoch": 0.139875, "grad_norm": 0.764401376247406, "learning_rate": 0.00028646192033204577, "loss": 3.929, "step": 67140 }, { "epoch": 0.13989583333333333, "grad_norm": 0.7835575342178345, "learning_rate": 0.0002864578271106997, "loss": 4.0543, "step": 67150 }, { "epoch": 0.13991666666666666, "grad_norm": 0.7477178573608398, "learning_rate": 0.00028645373329990977, "loss": 4.0098, "step": 67160 }, { "epoch": 0.1399375, "grad_norm": 0.7605560421943665, "learning_rate": 0.00028644963889969376, "loss": 3.9761, "step": 67170 }, { "epoch": 0.13995833333333332, "grad_norm": 0.821408212184906, "learning_rate": 0.0002864455439100693, "loss": 3.9771, "step": 67180 }, { "epoch": 0.13997916666666665, "grad_norm": 0.8547506332397461, "learning_rate": 0.0002864414483310541, "loss": 4.1226, "step": 67190 }, { "epoch": 0.14, "grad_norm": 0.7052234411239624, "learning_rate": 0.0002864373521626659, "loss": 4.3073, "step": 67200 }, { "epoch": 0.14002083333333334, "grad_norm": 0.757892906665802, "learning_rate": 0.0002864332554049223, "loss": 4.2282, "step": 67210 }, { "epoch": 0.14004166666666668, "grad_norm": 0.8175687193870544, "learning_rate": 0.000286429158057841, "loss": 4.1726, "step": 67220 }, { "epoch": 0.1400625, "grad_norm": 0.8422300219535828, "learning_rate": 0.0002864250601214398, "loss": 3.9396, "step": 67230 }, { "epoch": 0.14008333333333334, "grad_norm": 0.733242392539978, "learning_rate": 0.0002864209615957363, "loss": 4.056, "step": 67240 }, { "epoch": 0.14010416666666667, "grad_norm": 0.688207745552063, "learning_rate": 0.00028641686248074834, "loss": 4.055, "step": 67250 }, { "epoch": 0.140125, "grad_norm": 0.8442126512527466, "learning_rate": 0.00028641276277649344, "loss": 4.0531, "step": 67260 }, { "epoch": 0.14014583333333333, "grad_norm": 0.8507494926452637, "learning_rate": 0.0002864086624829894, "loss": 4.0052, "step": 67270 }, { "epoch": 0.14016666666666666, "grad_norm": 0.7374512553215027, "learning_rate": 0.000286404561600254, "loss": 3.9533, "step": 67280 }, { "epoch": 0.1401875, "grad_norm": 0.8030338287353516, "learning_rate": 0.0002864004601283048, "loss": 3.8822, "step": 67290 }, { "epoch": 0.14020833333333332, "grad_norm": 0.781160295009613, "learning_rate": 0.00028639635806715965, "loss": 3.9163, "step": 67300 }, { "epoch": 0.14022916666666665, "grad_norm": 0.7141364812850952, "learning_rate": 0.00028639225541683623, "loss": 3.9323, "step": 67310 }, { "epoch": 0.14025, "grad_norm": 0.8599461913108826, "learning_rate": 0.00028638815217735226, "loss": 4.0808, "step": 67320 }, { "epoch": 0.14027083333333334, "grad_norm": 0.7610298991203308, "learning_rate": 0.0002863840483487254, "loss": 3.8495, "step": 67330 }, { "epoch": 0.14029166666666668, "grad_norm": 0.8625538349151611, "learning_rate": 0.0002863799439309735, "loss": 4.0453, "step": 67340 }, { "epoch": 0.1403125, "grad_norm": 0.8232345581054688, "learning_rate": 0.0002863758389241142, "loss": 3.9452, "step": 67350 }, { "epoch": 0.14033333333333334, "grad_norm": 0.8120365738868713, "learning_rate": 0.0002863717333281653, "loss": 4.0147, "step": 67360 }, { "epoch": 0.14035416666666667, "grad_norm": 0.8351393342018127, "learning_rate": 0.00028636762714314443, "loss": 4.0277, "step": 67370 }, { "epoch": 0.140375, "grad_norm": 0.7913128137588501, "learning_rate": 0.0002863635203690694, "loss": 4.1899, "step": 67380 }, { "epoch": 0.14039583333333333, "grad_norm": 0.9136815667152405, "learning_rate": 0.00028635941300595797, "loss": 3.9516, "step": 67390 }, { "epoch": 0.14041666666666666, "grad_norm": 0.7650099396705627, "learning_rate": 0.0002863553050538278, "loss": 3.9319, "step": 67400 }, { "epoch": 0.1404375, "grad_norm": 0.9565250873565674, "learning_rate": 0.00028635119651269675, "loss": 3.7928, "step": 67410 }, { "epoch": 0.14045833333333332, "grad_norm": 0.8208547830581665, "learning_rate": 0.00028634708738258245, "loss": 4.1785, "step": 67420 }, { "epoch": 0.14047916666666665, "grad_norm": 0.8738393187522888, "learning_rate": 0.0002863429776635027, "loss": 4.1467, "step": 67430 }, { "epoch": 0.1405, "grad_norm": 0.8750103116035461, "learning_rate": 0.00028633886735547533, "loss": 3.9183, "step": 67440 }, { "epoch": 0.14052083333333334, "grad_norm": 0.7483782172203064, "learning_rate": 0.0002863347564585179, "loss": 3.8365, "step": 67450 }, { "epoch": 0.14054166666666668, "grad_norm": 0.6976781487464905, "learning_rate": 0.0002863306449726484, "loss": 4.101, "step": 67460 }, { "epoch": 0.1405625, "grad_norm": 0.8085796236991882, "learning_rate": 0.0002863265328978844, "loss": 3.9653, "step": 67470 }, { "epoch": 0.14058333333333334, "grad_norm": 1.0199956893920898, "learning_rate": 0.00028632242023424377, "loss": 4.0001, "step": 67480 }, { "epoch": 0.14060416666666667, "grad_norm": 0.8205024003982544, "learning_rate": 0.0002863183069817442, "loss": 4.074, "step": 67490 }, { "epoch": 0.140625, "grad_norm": 0.7775112986564636, "learning_rate": 0.0002863141931404036, "loss": 3.8565, "step": 67500 }, { "epoch": 0.14064583333333333, "grad_norm": 0.8740219473838806, "learning_rate": 0.00028631007871023957, "loss": 3.734, "step": 67510 }, { "epoch": 0.14066666666666666, "grad_norm": 0.8270694017410278, "learning_rate": 0.00028630596369126995, "loss": 3.875, "step": 67520 }, { "epoch": 0.1406875, "grad_norm": 0.7835750579833984, "learning_rate": 0.0002863018480835126, "loss": 3.9083, "step": 67530 }, { "epoch": 0.14070833333333332, "grad_norm": 0.6668506860733032, "learning_rate": 0.0002862977318869851, "loss": 3.7652, "step": 67540 }, { "epoch": 0.14072916666666666, "grad_norm": 0.6979983448982239, "learning_rate": 0.0002862936151017055, "loss": 4.2391, "step": 67550 }, { "epoch": 0.14075, "grad_norm": 0.7491747736930847, "learning_rate": 0.00028628949772769127, "loss": 4.0635, "step": 67560 }, { "epoch": 0.14077083333333335, "grad_norm": 0.6643783450126648, "learning_rate": 0.0002862853797649605, "loss": 4.049, "step": 67570 }, { "epoch": 0.14079166666666668, "grad_norm": 0.9443399906158447, "learning_rate": 0.0002862812612135307, "loss": 3.7484, "step": 67580 }, { "epoch": 0.1408125, "grad_norm": 0.8297256231307983, "learning_rate": 0.0002862771420734199, "loss": 3.9352, "step": 67590 }, { "epoch": 0.14083333333333334, "grad_norm": 0.6943755745887756, "learning_rate": 0.0002862730223446457, "loss": 4.0403, "step": 67600 }, { "epoch": 0.14085416666666667, "grad_norm": 0.8211439251899719, "learning_rate": 0.00028626890202722603, "loss": 4.0425, "step": 67610 }, { "epoch": 0.140875, "grad_norm": 0.7740168571472168, "learning_rate": 0.00028626478112117864, "loss": 4.0039, "step": 67620 }, { "epoch": 0.14089583333333333, "grad_norm": 0.7538868188858032, "learning_rate": 0.00028626065962652136, "loss": 3.9336, "step": 67630 }, { "epoch": 0.14091666666666666, "grad_norm": 0.8363707065582275, "learning_rate": 0.00028625653754327197, "loss": 3.8547, "step": 67640 }, { "epoch": 0.1409375, "grad_norm": 0.7309132218360901, "learning_rate": 0.00028625241487144825, "loss": 4.1285, "step": 67650 }, { "epoch": 0.14095833333333332, "grad_norm": 0.7842198610305786, "learning_rate": 0.000286248291611068, "loss": 4.0555, "step": 67660 }, { "epoch": 0.14097916666666666, "grad_norm": 0.8510138392448425, "learning_rate": 0.00028624416776214907, "loss": 3.804, "step": 67670 }, { "epoch": 0.141, "grad_norm": 0.7988179326057434, "learning_rate": 0.0002862400433247093, "loss": 4.1998, "step": 67680 }, { "epoch": 0.14102083333333335, "grad_norm": 0.8140338659286499, "learning_rate": 0.00028623591829876643, "loss": 4.0173, "step": 67690 }, { "epoch": 0.14104166666666668, "grad_norm": 0.7124209403991699, "learning_rate": 0.0002862317926843384, "loss": 3.8901, "step": 67700 }, { "epoch": 0.1410625, "grad_norm": 0.7556617856025696, "learning_rate": 0.00028622766648144285, "loss": 4.1091, "step": 67710 }, { "epoch": 0.14108333333333334, "grad_norm": 0.7983152270317078, "learning_rate": 0.00028622353969009773, "loss": 3.8423, "step": 67720 }, { "epoch": 0.14110416666666667, "grad_norm": 0.8871049880981445, "learning_rate": 0.00028621941231032086, "loss": 3.855, "step": 67730 }, { "epoch": 0.141125, "grad_norm": 0.7759780287742615, "learning_rate": 0.00028621528434213, "loss": 3.997, "step": 67740 }, { "epoch": 0.14114583333333333, "grad_norm": 0.753017008304596, "learning_rate": 0.00028621115578554313, "loss": 4.0343, "step": 67750 }, { "epoch": 0.14116666666666666, "grad_norm": 0.7977811694145203, "learning_rate": 0.0002862070266405779, "loss": 3.884, "step": 67760 }, { "epoch": 0.1411875, "grad_norm": 0.6948860883712769, "learning_rate": 0.0002862028969072523, "loss": 4.0462, "step": 67770 }, { "epoch": 0.14120833333333332, "grad_norm": 0.925207257270813, "learning_rate": 0.000286198766585584, "loss": 4.0486, "step": 67780 }, { "epoch": 0.14122916666666666, "grad_norm": 0.9186550378799438, "learning_rate": 0.00028619463567559103, "loss": 3.9416, "step": 67790 }, { "epoch": 0.14125, "grad_norm": 0.8622272610664368, "learning_rate": 0.0002861905041772911, "loss": 3.9462, "step": 67800 }, { "epoch": 0.14127083333333335, "grad_norm": 0.6530129313468933, "learning_rate": 0.00028618637209070207, "loss": 4.085, "step": 67810 }, { "epoch": 0.14129166666666668, "grad_norm": 0.7675093412399292, "learning_rate": 0.00028618223941584187, "loss": 4.0921, "step": 67820 }, { "epoch": 0.1413125, "grad_norm": 0.7854140996932983, "learning_rate": 0.0002861781061527283, "loss": 4.1592, "step": 67830 }, { "epoch": 0.14133333333333334, "grad_norm": 0.7828556895256042, "learning_rate": 0.0002861739723013792, "loss": 4.011, "step": 67840 }, { "epoch": 0.14135416666666667, "grad_norm": 0.7644075155258179, "learning_rate": 0.00028616983786181245, "loss": 4.0299, "step": 67850 }, { "epoch": 0.141375, "grad_norm": 0.8139627575874329, "learning_rate": 0.0002861657028340459, "loss": 4.001, "step": 67860 }, { "epoch": 0.14139583333333333, "grad_norm": 0.7982949614524841, "learning_rate": 0.0002861615672180974, "loss": 3.9721, "step": 67870 }, { "epoch": 0.14141666666666666, "grad_norm": 0.792457103729248, "learning_rate": 0.0002861574310139848, "loss": 3.9748, "step": 67880 }, { "epoch": 0.1414375, "grad_norm": 0.7915335893630981, "learning_rate": 0.000286153294221726, "loss": 4.172, "step": 67890 }, { "epoch": 0.14145833333333332, "grad_norm": 0.7654396891593933, "learning_rate": 0.00028614915684133894, "loss": 4.0046, "step": 67900 }, { "epoch": 0.14147916666666666, "grad_norm": 0.8173422813415527, "learning_rate": 0.00028614501887284135, "loss": 4.0218, "step": 67910 }, { "epoch": 0.1415, "grad_norm": 0.7302141785621643, "learning_rate": 0.00028614088031625115, "loss": 3.9187, "step": 67920 }, { "epoch": 0.14152083333333335, "grad_norm": 0.7753027081489563, "learning_rate": 0.0002861367411715862, "loss": 3.9306, "step": 67930 }, { "epoch": 0.14154166666666668, "grad_norm": 0.7701120376586914, "learning_rate": 0.0002861326014388645, "loss": 3.8931, "step": 67940 }, { "epoch": 0.1415625, "grad_norm": 0.8398255109786987, "learning_rate": 0.00028612846111810385, "loss": 3.9586, "step": 67950 }, { "epoch": 0.14158333333333334, "grad_norm": 0.7803829908370972, "learning_rate": 0.0002861243202093221, "loss": 4.0788, "step": 67960 }, { "epoch": 0.14160416666666667, "grad_norm": 0.8801718354225159, "learning_rate": 0.0002861201787125372, "loss": 3.9231, "step": 67970 }, { "epoch": 0.141625, "grad_norm": 0.7943689823150635, "learning_rate": 0.00028611603662776695, "loss": 4.0173, "step": 67980 }, { "epoch": 0.14164583333333333, "grad_norm": 0.7450417280197144, "learning_rate": 0.00028611189395502933, "loss": 3.9647, "step": 67990 }, { "epoch": 0.14166666666666666, "grad_norm": 0.6568418145179749, "learning_rate": 0.0002861077506943422, "loss": 3.9027, "step": 68000 }, { "epoch": 0.14166666666666666, "eval_loss": 4.286848545074463, "eval_runtime": 9.2215, "eval_samples_per_second": 1.084, "eval_steps_per_second": 0.325, "step": 68000 }, { "epoch": 0.1416875, "grad_norm": 0.7643829584121704, "learning_rate": 0.0002861036068457235, "loss": 4.0662, "step": 68010 }, { "epoch": 0.14170833333333333, "grad_norm": 0.8547444939613342, "learning_rate": 0.000286099462409191, "loss": 3.9766, "step": 68020 }, { "epoch": 0.14172916666666666, "grad_norm": 0.7716964483261108, "learning_rate": 0.00028609531738476283, "loss": 3.9988, "step": 68030 }, { "epoch": 0.14175, "grad_norm": 1.3800851106643677, "learning_rate": 0.00028609117177245665, "loss": 3.8436, "step": 68040 }, { "epoch": 0.14177083333333335, "grad_norm": 0.7249186635017395, "learning_rate": 0.0002860870255722905, "loss": 3.9899, "step": 68050 }, { "epoch": 0.14179166666666668, "grad_norm": 0.8138715624809265, "learning_rate": 0.00028608287878428227, "loss": 3.9322, "step": 68060 }, { "epoch": 0.1418125, "grad_norm": 0.813245415687561, "learning_rate": 0.0002860787314084499, "loss": 3.9035, "step": 68070 }, { "epoch": 0.14183333333333334, "grad_norm": 0.8059067726135254, "learning_rate": 0.0002860745834448112, "loss": 4.0111, "step": 68080 }, { "epoch": 0.14185416666666667, "grad_norm": 0.7531965374946594, "learning_rate": 0.00028607043489338425, "loss": 3.9871, "step": 68090 }, { "epoch": 0.141875, "grad_norm": 0.7514706254005432, "learning_rate": 0.00028606628575418683, "loss": 3.9158, "step": 68100 }, { "epoch": 0.14189583333333333, "grad_norm": 0.8034390211105347, "learning_rate": 0.0002860621360272369, "loss": 3.7255, "step": 68110 }, { "epoch": 0.14191666666666666, "grad_norm": 0.7740110754966736, "learning_rate": 0.0002860579857125525, "loss": 3.998, "step": 68120 }, { "epoch": 0.1419375, "grad_norm": 0.9132469892501831, "learning_rate": 0.0002860538348101513, "loss": 4.0898, "step": 68130 }, { "epoch": 0.14195833333333333, "grad_norm": 0.8638371825218201, "learning_rate": 0.0002860496833200515, "loss": 3.9487, "step": 68140 }, { "epoch": 0.14197916666666666, "grad_norm": 0.7923216223716736, "learning_rate": 0.0002860455312422709, "loss": 3.9976, "step": 68150 }, { "epoch": 0.142, "grad_norm": 0.764724612236023, "learning_rate": 0.00028604137857682745, "loss": 3.9946, "step": 68160 }, { "epoch": 0.14202083333333335, "grad_norm": 0.6943413019180298, "learning_rate": 0.0002860372253237391, "loss": 4.0631, "step": 68170 }, { "epoch": 0.14204166666666668, "grad_norm": 0.7473767995834351, "learning_rate": 0.00028603307148302375, "loss": 3.9916, "step": 68180 }, { "epoch": 0.1420625, "grad_norm": 0.7849889993667603, "learning_rate": 0.0002860289170546994, "loss": 3.9912, "step": 68190 }, { "epoch": 0.14208333333333334, "grad_norm": 0.9748041033744812, "learning_rate": 0.000286024762038784, "loss": 3.9122, "step": 68200 }, { "epoch": 0.14210416666666667, "grad_norm": 0.908832311630249, "learning_rate": 0.00028602060643529543, "loss": 3.8981, "step": 68210 }, { "epoch": 0.142125, "grad_norm": 0.7090237736701965, "learning_rate": 0.0002860164502442517, "loss": 3.8567, "step": 68220 }, { "epoch": 0.14214583333333333, "grad_norm": 0.8290879726409912, "learning_rate": 0.00028601229346567075, "loss": 4.0328, "step": 68230 }, { "epoch": 0.14216666666666666, "grad_norm": 0.7229495048522949, "learning_rate": 0.0002860081360995705, "loss": 3.9705, "step": 68240 }, { "epoch": 0.1421875, "grad_norm": 0.8187728524208069, "learning_rate": 0.00028600397814596896, "loss": 4.0034, "step": 68250 }, { "epoch": 0.14220833333333333, "grad_norm": 0.8531426787376404, "learning_rate": 0.00028599981960488407, "loss": 3.9797, "step": 68260 }, { "epoch": 0.14222916666666666, "grad_norm": 0.8050381541252136, "learning_rate": 0.00028599566047633377, "loss": 4.1167, "step": 68270 }, { "epoch": 0.14225, "grad_norm": 0.7954885959625244, "learning_rate": 0.00028599150076033606, "loss": 4.061, "step": 68280 }, { "epoch": 0.14227083333333335, "grad_norm": 0.7434096336364746, "learning_rate": 0.0002859873404569089, "loss": 3.9838, "step": 68290 }, { "epoch": 0.14229166666666668, "grad_norm": 0.7522338628768921, "learning_rate": 0.0002859831795660703, "loss": 3.9981, "step": 68300 }, { "epoch": 0.1423125, "grad_norm": 0.8243728280067444, "learning_rate": 0.0002859790180878381, "loss": 3.9135, "step": 68310 }, { "epoch": 0.14233333333333334, "grad_norm": 0.7268194556236267, "learning_rate": 0.00028597485602223046, "loss": 4.0035, "step": 68320 }, { "epoch": 0.14235416666666667, "grad_norm": 0.8003144264221191, "learning_rate": 0.0002859706933692652, "loss": 3.8899, "step": 68330 }, { "epoch": 0.142375, "grad_norm": 1.0348068475723267, "learning_rate": 0.00028596653012896034, "loss": 3.8792, "step": 68340 }, { "epoch": 0.14239583333333333, "grad_norm": 0.7865002751350403, "learning_rate": 0.00028596236630133395, "loss": 3.9494, "step": 68350 }, { "epoch": 0.14241666666666666, "grad_norm": 0.8334981203079224, "learning_rate": 0.0002859582018864039, "loss": 3.8546, "step": 68360 }, { "epoch": 0.1424375, "grad_norm": 0.7282049059867859, "learning_rate": 0.0002859540368841883, "loss": 4.064, "step": 68370 }, { "epoch": 0.14245833333333333, "grad_norm": 0.7172561883926392, "learning_rate": 0.00028594987129470503, "loss": 3.8566, "step": 68380 }, { "epoch": 0.14247916666666666, "grad_norm": 0.7230831980705261, "learning_rate": 0.00028594570511797216, "loss": 3.8113, "step": 68390 }, { "epoch": 0.1425, "grad_norm": 0.6746689081192017, "learning_rate": 0.00028594153835400765, "loss": 3.8732, "step": 68400 }, { "epoch": 0.14252083333333335, "grad_norm": 0.7172960638999939, "learning_rate": 0.0002859373710028295, "loss": 4.043, "step": 68410 }, { "epoch": 0.14254166666666668, "grad_norm": 0.66281658411026, "learning_rate": 0.0002859332030644557, "loss": 3.9268, "step": 68420 }, { "epoch": 0.1425625, "grad_norm": 0.754166305065155, "learning_rate": 0.00028592903453890427, "loss": 4.0261, "step": 68430 }, { "epoch": 0.14258333333333334, "grad_norm": 0.8262802958488464, "learning_rate": 0.00028592486542619323, "loss": 3.8987, "step": 68440 }, { "epoch": 0.14260416666666667, "grad_norm": 0.8017993569374084, "learning_rate": 0.0002859206957263406, "loss": 3.9276, "step": 68450 }, { "epoch": 0.142625, "grad_norm": 0.8600105047225952, "learning_rate": 0.0002859165254393643, "loss": 4.0053, "step": 68460 }, { "epoch": 0.14264583333333333, "grad_norm": 0.7667782306671143, "learning_rate": 0.00028591235456528244, "loss": 3.7532, "step": 68470 }, { "epoch": 0.14266666666666666, "grad_norm": 0.8554555177688599, "learning_rate": 0.000285908183104113, "loss": 3.9408, "step": 68480 }, { "epoch": 0.1426875, "grad_norm": 0.8535481095314026, "learning_rate": 0.00028590401105587406, "loss": 3.9527, "step": 68490 }, { "epoch": 0.14270833333333333, "grad_norm": 0.876471996307373, "learning_rate": 0.0002858998384205835, "loss": 3.8801, "step": 68500 }, { "epoch": 0.14272916666666666, "grad_norm": 0.9083638191223145, "learning_rate": 0.00028589566519825947, "loss": 3.8746, "step": 68510 }, { "epoch": 0.14275, "grad_norm": 0.6900635361671448, "learning_rate": 0.00028589149138892, "loss": 4.0078, "step": 68520 }, { "epoch": 0.14277083333333335, "grad_norm": 0.7093167901039124, "learning_rate": 0.000285887316992583, "loss": 3.8431, "step": 68530 }, { "epoch": 0.14279166666666668, "grad_norm": 0.7775229811668396, "learning_rate": 0.0002858831420092666, "loss": 3.8998, "step": 68540 }, { "epoch": 0.1428125, "grad_norm": 0.7805194854736328, "learning_rate": 0.00028587896643898883, "loss": 3.8318, "step": 68550 }, { "epoch": 0.14283333333333334, "grad_norm": 0.8315593004226685, "learning_rate": 0.00028587479028176774, "loss": 3.8961, "step": 68560 }, { "epoch": 0.14285416666666667, "grad_norm": 0.784963071346283, "learning_rate": 0.0002858706135376213, "loss": 4.1217, "step": 68570 }, { "epoch": 0.142875, "grad_norm": 0.7537537813186646, "learning_rate": 0.0002858664362065676, "loss": 3.9514, "step": 68580 }, { "epoch": 0.14289583333333333, "grad_norm": 0.834528923034668, "learning_rate": 0.00028586225828862465, "loss": 3.8817, "step": 68590 }, { "epoch": 0.14291666666666666, "grad_norm": 0.8019347786903381, "learning_rate": 0.0002858580797838105, "loss": 3.787, "step": 68600 }, { "epoch": 0.1429375, "grad_norm": 0.8701620101928711, "learning_rate": 0.0002858539006921433, "loss": 3.9976, "step": 68610 }, { "epoch": 0.14295833333333333, "grad_norm": 0.7548373937606812, "learning_rate": 0.000285849721013641, "loss": 4.1532, "step": 68620 }, { "epoch": 0.14297916666666666, "grad_norm": 0.8507885932922363, "learning_rate": 0.0002858455407483217, "loss": 3.8716, "step": 68630 }, { "epoch": 0.143, "grad_norm": 0.8160971999168396, "learning_rate": 0.0002858413598962034, "loss": 3.8161, "step": 68640 }, { "epoch": 0.14302083333333335, "grad_norm": 0.8048255443572998, "learning_rate": 0.00028583717845730416, "loss": 4.2902, "step": 68650 }, { "epoch": 0.14304166666666668, "grad_norm": 0.7886331081390381, "learning_rate": 0.0002858329964316421, "loss": 4.045, "step": 68660 }, { "epoch": 0.1430625, "grad_norm": 0.9302475452423096, "learning_rate": 0.00028582881381923527, "loss": 4.0035, "step": 68670 }, { "epoch": 0.14308333333333334, "grad_norm": 0.8202977180480957, "learning_rate": 0.00028582463062010177, "loss": 3.9093, "step": 68680 }, { "epoch": 0.14310416666666667, "grad_norm": 0.9660162329673767, "learning_rate": 0.0002858204468342596, "loss": 4.1651, "step": 68690 }, { "epoch": 0.143125, "grad_norm": 0.7714551687240601, "learning_rate": 0.0002858162624617268, "loss": 3.9611, "step": 68700 }, { "epoch": 0.14314583333333333, "grad_norm": 0.7755201458930969, "learning_rate": 0.0002858120775025216, "loss": 4.0893, "step": 68710 }, { "epoch": 0.14316666666666666, "grad_norm": 0.7933080792427063, "learning_rate": 0.0002858078919566619, "loss": 4.0676, "step": 68720 }, { "epoch": 0.1431875, "grad_norm": 0.7870540022850037, "learning_rate": 0.00028580370582416593, "loss": 3.7976, "step": 68730 }, { "epoch": 0.14320833333333333, "grad_norm": 0.8516893982887268, "learning_rate": 0.0002857995191050517, "loss": 3.8384, "step": 68740 }, { "epoch": 0.14322916666666666, "grad_norm": 0.7151204347610474, "learning_rate": 0.0002857953317993373, "loss": 3.828, "step": 68750 }, { "epoch": 0.14325, "grad_norm": 0.8456266522407532, "learning_rate": 0.00028579114390704077, "loss": 3.986, "step": 68760 }, { "epoch": 0.14327083333333332, "grad_norm": 0.900972843170166, "learning_rate": 0.00028578695542818026, "loss": 3.9533, "step": 68770 }, { "epoch": 0.14329166666666668, "grad_norm": 0.8504452705383301, "learning_rate": 0.0002857827663627739, "loss": 3.822, "step": 68780 }, { "epoch": 0.1433125, "grad_norm": 0.6918832659721375, "learning_rate": 0.0002857785767108397, "loss": 3.8271, "step": 68790 }, { "epoch": 0.14333333333333334, "grad_norm": 0.9858295917510986, "learning_rate": 0.0002857743864723958, "loss": 3.9341, "step": 68800 }, { "epoch": 0.14335416666666667, "grad_norm": 0.700001060962677, "learning_rate": 0.00028577019564746033, "loss": 3.7585, "step": 68810 }, { "epoch": 0.143375, "grad_norm": 1.1042606830596924, "learning_rate": 0.0002857660042360513, "loss": 3.9792, "step": 68820 }, { "epoch": 0.14339583333333333, "grad_norm": 0.7815753817558289, "learning_rate": 0.00028576181223818686, "loss": 3.8902, "step": 68830 }, { "epoch": 0.14341666666666666, "grad_norm": 0.7372857332229614, "learning_rate": 0.0002857576196538852, "loss": 4.0935, "step": 68840 }, { "epoch": 0.1434375, "grad_norm": 0.8020527362823486, "learning_rate": 0.0002857534264831643, "loss": 3.7934, "step": 68850 }, { "epoch": 0.14345833333333333, "grad_norm": 0.8075910806655884, "learning_rate": 0.0002857492327260424, "loss": 3.952, "step": 68860 }, { "epoch": 0.14347916666666666, "grad_norm": 0.8080703616142273, "learning_rate": 0.00028574503838253745, "loss": 4.0199, "step": 68870 }, { "epoch": 0.1435, "grad_norm": 0.8201339244842529, "learning_rate": 0.0002857408434526677, "loss": 3.9655, "step": 68880 }, { "epoch": 0.14352083333333332, "grad_norm": 0.8126558065414429, "learning_rate": 0.00028573664793645127, "loss": 3.8574, "step": 68890 }, { "epoch": 0.14354166666666668, "grad_norm": 0.8648584485054016, "learning_rate": 0.00028573245183390625, "loss": 4.0367, "step": 68900 }, { "epoch": 0.1435625, "grad_norm": 0.834685742855072, "learning_rate": 0.00028572825514505077, "loss": 4.1916, "step": 68910 }, { "epoch": 0.14358333333333334, "grad_norm": 0.6882045269012451, "learning_rate": 0.00028572405786990294, "loss": 3.8745, "step": 68920 }, { "epoch": 0.14360416666666667, "grad_norm": 0.8061152100563049, "learning_rate": 0.00028571986000848086, "loss": 3.8862, "step": 68930 }, { "epoch": 0.143625, "grad_norm": 0.6766529679298401, "learning_rate": 0.00028571566156080275, "loss": 4.0163, "step": 68940 }, { "epoch": 0.14364583333333333, "grad_norm": 0.842812716960907, "learning_rate": 0.0002857114625268867, "loss": 4.0042, "step": 68950 }, { "epoch": 0.14366666666666666, "grad_norm": 0.781862199306488, "learning_rate": 0.00028570726290675085, "loss": 4.1165, "step": 68960 }, { "epoch": 0.1436875, "grad_norm": 0.7969842553138733, "learning_rate": 0.0002857030627004133, "loss": 3.9389, "step": 68970 }, { "epoch": 0.14370833333333333, "grad_norm": 0.79613196849823, "learning_rate": 0.00028569886190789225, "loss": 3.9496, "step": 68980 }, { "epoch": 0.14372916666666666, "grad_norm": 0.777702808380127, "learning_rate": 0.0002856946605292059, "loss": 4.0914, "step": 68990 }, { "epoch": 0.14375, "grad_norm": 0.7720385789871216, "learning_rate": 0.00028569045856437225, "loss": 4.0008, "step": 69000 }, { "epoch": 0.14375, "eval_loss": 4.274445533752441, "eval_runtime": 9.362, "eval_samples_per_second": 1.068, "eval_steps_per_second": 0.32, "step": 69000 }, { "epoch": 0.14377083333333332, "grad_norm": 0.7591381669044495, "learning_rate": 0.00028568625601340953, "loss": 3.8535, "step": 69010 }, { "epoch": 0.14379166666666668, "grad_norm": 0.925487756729126, "learning_rate": 0.00028568205287633595, "loss": 4.1256, "step": 69020 }, { "epoch": 0.1438125, "grad_norm": 0.8254444003105164, "learning_rate": 0.00028567784915316957, "loss": 4.0451, "step": 69030 }, { "epoch": 0.14383333333333334, "grad_norm": 0.7031874656677246, "learning_rate": 0.00028567364484392854, "loss": 3.9958, "step": 69040 }, { "epoch": 0.14385416666666667, "grad_norm": 0.7742382884025574, "learning_rate": 0.0002856694399486312, "loss": 4.0983, "step": 69050 }, { "epoch": 0.143875, "grad_norm": 1.091235876083374, "learning_rate": 0.00028566523446729546, "loss": 3.9992, "step": 69060 }, { "epoch": 0.14389583333333333, "grad_norm": 0.7113263607025146, "learning_rate": 0.0002856610283999396, "loss": 4.0939, "step": 69070 }, { "epoch": 0.14391666666666666, "grad_norm": 0.7767949104309082, "learning_rate": 0.00028565682174658193, "loss": 3.8885, "step": 69080 }, { "epoch": 0.1439375, "grad_norm": 0.7369946837425232, "learning_rate": 0.00028565261450724035, "loss": 3.9517, "step": 69090 }, { "epoch": 0.14395833333333333, "grad_norm": 0.7156903147697449, "learning_rate": 0.00028564840668193325, "loss": 4.0029, "step": 69100 }, { "epoch": 0.14397916666666666, "grad_norm": 0.7362608313560486, "learning_rate": 0.0002856441982706787, "loss": 4.0133, "step": 69110 }, { "epoch": 0.144, "grad_norm": 0.7841430306434631, "learning_rate": 0.00028563998927349485, "loss": 4.0488, "step": 69120 }, { "epoch": 0.14402083333333332, "grad_norm": 0.7672437429428101, "learning_rate": 0.00028563577969040004, "loss": 4.1256, "step": 69130 }, { "epoch": 0.14404166666666668, "grad_norm": 0.779388427734375, "learning_rate": 0.00028563156952141224, "loss": 3.9985, "step": 69140 }, { "epoch": 0.1440625, "grad_norm": 0.9371891617774963, "learning_rate": 0.0002856273587665499, "loss": 3.9048, "step": 69150 }, { "epoch": 0.14408333333333334, "grad_norm": 0.8399186134338379, "learning_rate": 0.0002856231474258309, "loss": 3.9454, "step": 69160 }, { "epoch": 0.14410416666666667, "grad_norm": 0.8997818827629089, "learning_rate": 0.00028561893549927366, "loss": 4.1008, "step": 69170 }, { "epoch": 0.144125, "grad_norm": 0.8138940930366516, "learning_rate": 0.00028561472298689627, "loss": 3.9223, "step": 69180 }, { "epoch": 0.14414583333333333, "grad_norm": 0.8672645092010498, "learning_rate": 0.000285610509888717, "loss": 4.0631, "step": 69190 }, { "epoch": 0.14416666666666667, "grad_norm": 0.7649490833282471, "learning_rate": 0.00028560629620475396, "loss": 3.9558, "step": 69200 }, { "epoch": 0.1441875, "grad_norm": 0.8688150644302368, "learning_rate": 0.0002856020819350254, "loss": 4.0186, "step": 69210 }, { "epoch": 0.14420833333333333, "grad_norm": 0.8281129598617554, "learning_rate": 0.00028559786707954955, "loss": 3.8218, "step": 69220 }, { "epoch": 0.14422916666666666, "grad_norm": 0.7590388059616089, "learning_rate": 0.0002855936516383446, "loss": 3.9423, "step": 69230 }, { "epoch": 0.14425, "grad_norm": 0.9959970116615295, "learning_rate": 0.0002855894356114287, "loss": 3.9673, "step": 69240 }, { "epoch": 0.14427083333333332, "grad_norm": 0.7323176860809326, "learning_rate": 0.00028558521899882015, "loss": 3.798, "step": 69250 }, { "epoch": 0.14429166666666668, "grad_norm": 0.8124967813491821, "learning_rate": 0.00028558100180053707, "loss": 3.9536, "step": 69260 }, { "epoch": 0.1443125, "grad_norm": 0.759676456451416, "learning_rate": 0.0002855767840165978, "loss": 3.9722, "step": 69270 }, { "epoch": 0.14433333333333334, "grad_norm": 0.7552157640457153, "learning_rate": 0.00028557256564702043, "loss": 4.0163, "step": 69280 }, { "epoch": 0.14435416666666667, "grad_norm": 0.8493736982345581, "learning_rate": 0.0002855683466918233, "loss": 3.784, "step": 69290 }, { "epoch": 0.144375, "grad_norm": 0.8520525097846985, "learning_rate": 0.0002855641271510245, "loss": 4.0873, "step": 69300 }, { "epoch": 0.14439583333333333, "grad_norm": 0.7280745506286621, "learning_rate": 0.00028555990702464236, "loss": 4.0469, "step": 69310 }, { "epoch": 0.14441666666666667, "grad_norm": 0.7128655910491943, "learning_rate": 0.0002855556863126951, "loss": 3.8393, "step": 69320 }, { "epoch": 0.1444375, "grad_norm": 0.7885478138923645, "learning_rate": 0.00028555146501520087, "loss": 3.9821, "step": 69330 }, { "epoch": 0.14445833333333333, "grad_norm": 0.72111576795578, "learning_rate": 0.00028554724313217806, "loss": 3.8723, "step": 69340 }, { "epoch": 0.14447916666666666, "grad_norm": 0.7697587609291077, "learning_rate": 0.0002855430206636447, "loss": 3.9614, "step": 69350 }, { "epoch": 0.1445, "grad_norm": 0.7524446845054626, "learning_rate": 0.00028553879760961925, "loss": 3.8673, "step": 69360 }, { "epoch": 0.14452083333333332, "grad_norm": 0.7479594349861145, "learning_rate": 0.0002855345739701198, "loss": 4.046, "step": 69370 }, { "epoch": 0.14454166666666668, "grad_norm": 0.780967652797699, "learning_rate": 0.0002855303497451646, "loss": 3.9597, "step": 69380 }, { "epoch": 0.1445625, "grad_norm": 0.747592568397522, "learning_rate": 0.00028552612493477203, "loss": 4.0796, "step": 69390 }, { "epoch": 0.14458333333333334, "grad_norm": 0.7526564598083496, "learning_rate": 0.00028552189953896014, "loss": 3.866, "step": 69400 }, { "epoch": 0.14460416666666667, "grad_norm": 0.7952519655227661, "learning_rate": 0.00028551767355774733, "loss": 3.9725, "step": 69410 }, { "epoch": 0.144625, "grad_norm": 0.8723101019859314, "learning_rate": 0.00028551344699115187, "loss": 4.0408, "step": 69420 }, { "epoch": 0.14464583333333333, "grad_norm": 0.8834154605865479, "learning_rate": 0.00028550921983919186, "loss": 4.0793, "step": 69430 }, { "epoch": 0.14466666666666667, "grad_norm": 0.7354750037193298, "learning_rate": 0.00028550499210188573, "loss": 4.097, "step": 69440 }, { "epoch": 0.1446875, "grad_norm": 0.7732417583465576, "learning_rate": 0.0002855007637792517, "loss": 3.9854, "step": 69450 }, { "epoch": 0.14470833333333333, "grad_norm": 0.8417448401451111, "learning_rate": 0.00028549653487130794, "loss": 4.184, "step": 69460 }, { "epoch": 0.14472916666666666, "grad_norm": 0.7990826964378357, "learning_rate": 0.0002854923053780728, "loss": 3.9705, "step": 69470 }, { "epoch": 0.14475, "grad_norm": 0.8470094203948975, "learning_rate": 0.00028548807529956446, "loss": 4.0412, "step": 69480 }, { "epoch": 0.14477083333333332, "grad_norm": 0.6993789672851562, "learning_rate": 0.00028548384463580135, "loss": 3.8536, "step": 69490 }, { "epoch": 0.14479166666666668, "grad_norm": 0.7714810967445374, "learning_rate": 0.00028547961338680163, "loss": 4.0203, "step": 69500 }, { "epoch": 0.1448125, "grad_norm": 0.7773483991622925, "learning_rate": 0.0002854753815525837, "loss": 3.9607, "step": 69510 }, { "epoch": 0.14483333333333334, "grad_norm": 0.8836985230445862, "learning_rate": 0.00028547114913316565, "loss": 4.0185, "step": 69520 }, { "epoch": 0.14485416666666667, "grad_norm": 0.8349967002868652, "learning_rate": 0.00028546691612856587, "loss": 4.0824, "step": 69530 }, { "epoch": 0.144875, "grad_norm": 0.9021446108818054, "learning_rate": 0.0002854626825388026, "loss": 3.9734, "step": 69540 }, { "epoch": 0.14489583333333333, "grad_norm": 0.7487984299659729, "learning_rate": 0.00028545844836389423, "loss": 3.8739, "step": 69550 }, { "epoch": 0.14491666666666667, "grad_norm": 0.6895053386688232, "learning_rate": 0.0002854542136038589, "loss": 3.9481, "step": 69560 }, { "epoch": 0.1449375, "grad_norm": 0.7913296818733215, "learning_rate": 0.0002854499782587151, "loss": 4.1279, "step": 69570 }, { "epoch": 0.14495833333333333, "grad_norm": 0.8175643682479858, "learning_rate": 0.0002854457423284809, "loss": 4.0045, "step": 69580 }, { "epoch": 0.14497916666666666, "grad_norm": 0.6936560273170471, "learning_rate": 0.00028544150581317476, "loss": 4.0167, "step": 69590 }, { "epoch": 0.145, "grad_norm": 0.8884903192520142, "learning_rate": 0.00028543726871281495, "loss": 3.904, "step": 69600 }, { "epoch": 0.14502083333333332, "grad_norm": 0.9533629417419434, "learning_rate": 0.0002854330310274197, "loss": 4.0589, "step": 69610 }, { "epoch": 0.14504166666666668, "grad_norm": 0.866701602935791, "learning_rate": 0.0002854287927570074, "loss": 3.9737, "step": 69620 }, { "epoch": 0.1450625, "grad_norm": 0.7778636813163757, "learning_rate": 0.00028542455390159624, "loss": 4.0214, "step": 69630 }, { "epoch": 0.14508333333333334, "grad_norm": 0.7379801869392395, "learning_rate": 0.00028542031446120473, "loss": 3.8982, "step": 69640 }, { "epoch": 0.14510416666666667, "grad_norm": 0.7211340665817261, "learning_rate": 0.00028541607443585096, "loss": 4.0802, "step": 69650 }, { "epoch": 0.145125, "grad_norm": 0.7276806831359863, "learning_rate": 0.0002854118338255534, "loss": 3.9115, "step": 69660 }, { "epoch": 0.14514583333333334, "grad_norm": 0.940612256526947, "learning_rate": 0.00028540759263033033, "loss": 4.0724, "step": 69670 }, { "epoch": 0.14516666666666667, "grad_norm": 0.7032187581062317, "learning_rate": 0.0002854033508502, "loss": 4.0115, "step": 69680 }, { "epoch": 0.1451875, "grad_norm": 0.8130035400390625, "learning_rate": 0.0002853991084851809, "loss": 3.6953, "step": 69690 }, { "epoch": 0.14520833333333333, "grad_norm": 0.8653534650802612, "learning_rate": 0.0002853948655352912, "loss": 3.8345, "step": 69700 }, { "epoch": 0.14522916666666666, "grad_norm": 0.7863739728927612, "learning_rate": 0.0002853906220005492, "loss": 3.9347, "step": 69710 }, { "epoch": 0.14525, "grad_norm": 1.1530100107192993, "learning_rate": 0.00028538637788097336, "loss": 4.1363, "step": 69720 }, { "epoch": 0.14527083333333332, "grad_norm": 0.9772533178329468, "learning_rate": 0.00028538213317658194, "loss": 3.8436, "step": 69730 }, { "epoch": 0.14529166666666668, "grad_norm": 0.7064031958580017, "learning_rate": 0.00028537788788739334, "loss": 4.0474, "step": 69740 }, { "epoch": 0.1453125, "grad_norm": 0.7282333970069885, "learning_rate": 0.00028537364201342583, "loss": 4.07, "step": 69750 }, { "epoch": 0.14533333333333334, "grad_norm": 0.8107814788818359, "learning_rate": 0.0002853693955546977, "loss": 3.9046, "step": 69760 }, { "epoch": 0.14535416666666667, "grad_norm": 0.7895594835281372, "learning_rate": 0.00028536514851122745, "loss": 4.0831, "step": 69770 }, { "epoch": 0.145375, "grad_norm": 0.7873914837837219, "learning_rate": 0.00028536090088303334, "loss": 3.9198, "step": 69780 }, { "epoch": 0.14539583333333334, "grad_norm": 0.6662315130233765, "learning_rate": 0.0002853566526701337, "loss": 3.9052, "step": 69790 }, { "epoch": 0.14541666666666667, "grad_norm": 0.8563457727432251, "learning_rate": 0.0002853524038725469, "loss": 4.0553, "step": 69800 }, { "epoch": 0.1454375, "grad_norm": 0.8611662983894348, "learning_rate": 0.00028534815449029127, "loss": 4.0215, "step": 69810 }, { "epoch": 0.14545833333333333, "grad_norm": 0.9152176976203918, "learning_rate": 0.0002853439045233852, "loss": 3.8795, "step": 69820 }, { "epoch": 0.14547916666666666, "grad_norm": 0.7586793899536133, "learning_rate": 0.000285339653971847, "loss": 4.0224, "step": 69830 }, { "epoch": 0.1455, "grad_norm": 0.9405799508094788, "learning_rate": 0.0002853354028356951, "loss": 4.056, "step": 69840 }, { "epoch": 0.14552083333333332, "grad_norm": 0.7564637660980225, "learning_rate": 0.0002853311511149478, "loss": 3.9918, "step": 69850 }, { "epoch": 0.14554166666666668, "grad_norm": 1.2695329189300537, "learning_rate": 0.00028532689880962354, "loss": 4.1415, "step": 69860 }, { "epoch": 0.1455625, "grad_norm": 0.8357451558113098, "learning_rate": 0.0002853226459197406, "loss": 4.0769, "step": 69870 }, { "epoch": 0.14558333333333334, "grad_norm": 0.7771034240722656, "learning_rate": 0.0002853183924453175, "loss": 3.9863, "step": 69880 }, { "epoch": 0.14560416666666667, "grad_norm": 0.7269699573516846, "learning_rate": 0.0002853141383863724, "loss": 4.0775, "step": 69890 }, { "epoch": 0.145625, "grad_norm": 0.9239238500595093, "learning_rate": 0.0002853098837429238, "loss": 3.9019, "step": 69900 }, { "epoch": 0.14564583333333334, "grad_norm": 0.7467719912528992, "learning_rate": 0.0002853056285149901, "loss": 4.0634, "step": 69910 }, { "epoch": 0.14566666666666667, "grad_norm": 0.7349724173545837, "learning_rate": 0.0002853013727025896, "loss": 4.0585, "step": 69920 }, { "epoch": 0.1456875, "grad_norm": 0.7949094772338867, "learning_rate": 0.00028529711630574076, "loss": 4.0161, "step": 69930 }, { "epoch": 0.14570833333333333, "grad_norm": 0.8780704736709595, "learning_rate": 0.0002852928593244619, "loss": 3.9273, "step": 69940 }, { "epoch": 0.14572916666666666, "grad_norm": 0.8510060906410217, "learning_rate": 0.00028528860175877147, "loss": 4.1394, "step": 69950 }, { "epoch": 0.14575, "grad_norm": 0.9196462631225586, "learning_rate": 0.0002852843436086878, "loss": 4.1695, "step": 69960 }, { "epoch": 0.14577083333333332, "grad_norm": 0.768364429473877, "learning_rate": 0.0002852800848742293, "loss": 3.8931, "step": 69970 }, { "epoch": 0.14579166666666668, "grad_norm": 1.015350341796875, "learning_rate": 0.00028527582555541443, "loss": 4.0062, "step": 69980 }, { "epoch": 0.1458125, "grad_norm": 0.8176626563072205, "learning_rate": 0.0002852715656522615, "loss": 3.7749, "step": 69990 }, { "epoch": 0.14583333333333334, "grad_norm": 0.7892084121704102, "learning_rate": 0.000285267305164789, "loss": 3.9711, "step": 70000 }, { "epoch": 0.14583333333333334, "eval_loss": 4.26912784576416, "eval_runtime": 10.4699, "eval_samples_per_second": 0.955, "eval_steps_per_second": 0.287, "step": 70000 }, { "epoch": 0.14585416666666667, "grad_norm": 0.7435898184776306, "learning_rate": 0.0002852630440930153, "loss": 4.0758, "step": 70010 }, { "epoch": 0.145875, "grad_norm": 0.8915320634841919, "learning_rate": 0.0002852587824369587, "loss": 4.1133, "step": 70020 }, { "epoch": 0.14589583333333334, "grad_norm": 0.819879412651062, "learning_rate": 0.00028525452019663775, "loss": 4.0017, "step": 70030 }, { "epoch": 0.14591666666666667, "grad_norm": 0.6889786720275879, "learning_rate": 0.0002852502573720708, "loss": 3.8728, "step": 70040 }, { "epoch": 0.1459375, "grad_norm": 0.8237648010253906, "learning_rate": 0.00028524599396327627, "loss": 3.9102, "step": 70050 }, { "epoch": 0.14595833333333333, "grad_norm": 0.7609225511550903, "learning_rate": 0.0002852417299702726, "loss": 3.9541, "step": 70060 }, { "epoch": 0.14597916666666666, "grad_norm": 0.7691889405250549, "learning_rate": 0.00028523746539307817, "loss": 4.0239, "step": 70070 }, { "epoch": 0.146, "grad_norm": 0.7535788416862488, "learning_rate": 0.00028523320023171144, "loss": 3.6465, "step": 70080 }, { "epoch": 0.14602083333333332, "grad_norm": 0.7788543105125427, "learning_rate": 0.0002852289344861908, "loss": 4.1644, "step": 70090 }, { "epoch": 0.14604166666666665, "grad_norm": 0.7398819327354431, "learning_rate": 0.00028522466815653465, "loss": 4.025, "step": 70100 }, { "epoch": 0.1460625, "grad_norm": 0.8079652190208435, "learning_rate": 0.00028522040124276155, "loss": 3.8058, "step": 70110 }, { "epoch": 0.14608333333333334, "grad_norm": 0.7243205308914185, "learning_rate": 0.00028521613374488976, "loss": 4.1071, "step": 70120 }, { "epoch": 0.14610416666666667, "grad_norm": 0.9580764770507812, "learning_rate": 0.0002852118656629378, "loss": 4.0586, "step": 70130 }, { "epoch": 0.146125, "grad_norm": 0.9179203510284424, "learning_rate": 0.00028520759699692417, "loss": 3.9349, "step": 70140 }, { "epoch": 0.14614583333333334, "grad_norm": 0.8001128435134888, "learning_rate": 0.00028520332774686723, "loss": 4.0479, "step": 70150 }, { "epoch": 0.14616666666666667, "grad_norm": 0.886451780796051, "learning_rate": 0.0002851990579127854, "loss": 3.7592, "step": 70160 }, { "epoch": 0.1461875, "grad_norm": 0.7593209743499756, "learning_rate": 0.0002851947874946971, "loss": 3.9764, "step": 70170 }, { "epoch": 0.14620833333333333, "grad_norm": 0.7566787004470825, "learning_rate": 0.0002851905164926209, "loss": 3.9242, "step": 70180 }, { "epoch": 0.14622916666666666, "grad_norm": 0.8463684916496277, "learning_rate": 0.00028518624490657515, "loss": 3.9248, "step": 70190 }, { "epoch": 0.14625, "grad_norm": 0.8358814716339111, "learning_rate": 0.00028518197273657837, "loss": 3.8401, "step": 70200 }, { "epoch": 0.14627083333333332, "grad_norm": 0.856998085975647, "learning_rate": 0.00028517769998264895, "loss": 3.7421, "step": 70210 }, { "epoch": 0.14629166666666665, "grad_norm": 0.7047795653343201, "learning_rate": 0.00028517342664480537, "loss": 3.8694, "step": 70220 }, { "epoch": 0.1463125, "grad_norm": 0.8201743960380554, "learning_rate": 0.0002851691527230661, "loss": 3.9812, "step": 70230 }, { "epoch": 0.14633333333333334, "grad_norm": 0.7604708671569824, "learning_rate": 0.0002851648782174496, "loss": 4.0802, "step": 70240 }, { "epoch": 0.14635416666666667, "grad_norm": 0.8410369753837585, "learning_rate": 0.0002851606031279743, "loss": 3.9369, "step": 70250 }, { "epoch": 0.146375, "grad_norm": 0.7235720753669739, "learning_rate": 0.00028515632745465877, "loss": 3.9319, "step": 70260 }, { "epoch": 0.14639583333333334, "grad_norm": 0.6920164227485657, "learning_rate": 0.0002851520511975213, "loss": 3.9149, "step": 70270 }, { "epoch": 0.14641666666666667, "grad_norm": 0.7080636024475098, "learning_rate": 0.00028514777435658057, "loss": 4.1572, "step": 70280 }, { "epoch": 0.1464375, "grad_norm": 0.7709580659866333, "learning_rate": 0.0002851434969318549, "loss": 3.9161, "step": 70290 }, { "epoch": 0.14645833333333333, "grad_norm": 0.7972705960273743, "learning_rate": 0.0002851392189233628, "loss": 4.0601, "step": 70300 }, { "epoch": 0.14647916666666666, "grad_norm": 0.7233147621154785, "learning_rate": 0.0002851349403311228, "loss": 4.0458, "step": 70310 }, { "epoch": 0.1465, "grad_norm": 0.9602296352386475, "learning_rate": 0.00028513066115515333, "loss": 4.0154, "step": 70320 }, { "epoch": 0.14652083333333332, "grad_norm": 0.8137286901473999, "learning_rate": 0.00028512638139547284, "loss": 3.98, "step": 70330 }, { "epoch": 0.14654166666666665, "grad_norm": 0.8879191279411316, "learning_rate": 0.00028512210105209997, "loss": 4.0604, "step": 70340 }, { "epoch": 0.1465625, "grad_norm": 0.8675897121429443, "learning_rate": 0.00028511782012505303, "loss": 3.9614, "step": 70350 }, { "epoch": 0.14658333333333334, "grad_norm": 0.7635958194732666, "learning_rate": 0.00028511353861435064, "loss": 3.9918, "step": 70360 }, { "epoch": 0.14660416666666667, "grad_norm": 0.8240454792976379, "learning_rate": 0.0002851092565200112, "loss": 4.0146, "step": 70370 }, { "epoch": 0.146625, "grad_norm": 0.7570258975028992, "learning_rate": 0.0002851049738420533, "loss": 4.109, "step": 70380 }, { "epoch": 0.14664583333333334, "grad_norm": 0.7569277882575989, "learning_rate": 0.00028510069058049534, "loss": 3.9234, "step": 70390 }, { "epoch": 0.14666666666666667, "grad_norm": 0.836298942565918, "learning_rate": 0.00028509640673535594, "loss": 3.9572, "step": 70400 }, { "epoch": 0.1466875, "grad_norm": 0.7335907220840454, "learning_rate": 0.00028509212230665344, "loss": 3.9976, "step": 70410 }, { "epoch": 0.14670833333333333, "grad_norm": 0.837879478931427, "learning_rate": 0.00028508783729440655, "loss": 4.0464, "step": 70420 }, { "epoch": 0.14672916666666666, "grad_norm": 0.761587381362915, "learning_rate": 0.0002850835516986336, "loss": 3.906, "step": 70430 }, { "epoch": 0.14675, "grad_norm": 0.8922468423843384, "learning_rate": 0.0002850792655193532, "loss": 4.1039, "step": 70440 }, { "epoch": 0.14677083333333332, "grad_norm": 0.7889083623886108, "learning_rate": 0.0002850749787565838, "loss": 4.025, "step": 70450 }, { "epoch": 0.14679166666666665, "grad_norm": 0.8785921931266785, "learning_rate": 0.0002850706914103441, "loss": 3.8719, "step": 70460 }, { "epoch": 0.1468125, "grad_norm": 0.8289032578468323, "learning_rate": 0.00028506640348065237, "loss": 3.8434, "step": 70470 }, { "epoch": 0.14683333333333334, "grad_norm": 0.6950792670249939, "learning_rate": 0.0002850621149675272, "loss": 3.9272, "step": 70480 }, { "epoch": 0.14685416666666667, "grad_norm": 1.0378618240356445, "learning_rate": 0.0002850578258709872, "loss": 3.8932, "step": 70490 }, { "epoch": 0.146875, "grad_norm": 0.7387932538986206, "learning_rate": 0.0002850535361910509, "loss": 4.0066, "step": 70500 }, { "epoch": 0.14689583333333334, "grad_norm": 0.9211015701293945, "learning_rate": 0.0002850492459277367, "loss": 3.8786, "step": 70510 }, { "epoch": 0.14691666666666667, "grad_norm": 0.780335545539856, "learning_rate": 0.00028504495508106326, "loss": 3.9988, "step": 70520 }, { "epoch": 0.1469375, "grad_norm": 0.7700327038764954, "learning_rate": 0.00028504066365104907, "loss": 3.8681, "step": 70530 }, { "epoch": 0.14695833333333333, "grad_norm": 0.7493449449539185, "learning_rate": 0.00028503637163771264, "loss": 3.9319, "step": 70540 }, { "epoch": 0.14697916666666666, "grad_norm": 0.9285547137260437, "learning_rate": 0.0002850320790410726, "loss": 4.1259, "step": 70550 }, { "epoch": 0.147, "grad_norm": 0.7321125864982605, "learning_rate": 0.00028502778586114735, "loss": 4.0552, "step": 70560 }, { "epoch": 0.14702083333333332, "grad_norm": 0.860734224319458, "learning_rate": 0.0002850234920979555, "loss": 3.9526, "step": 70570 }, { "epoch": 0.14704166666666665, "grad_norm": 0.911291241645813, "learning_rate": 0.0002850191977515157, "loss": 3.8496, "step": 70580 }, { "epoch": 0.1470625, "grad_norm": 0.7311672568321228, "learning_rate": 0.00028501490282184635, "loss": 4.0824, "step": 70590 }, { "epoch": 0.14708333333333334, "grad_norm": 0.7769649624824524, "learning_rate": 0.00028501060730896607, "loss": 4.1192, "step": 70600 }, { "epoch": 0.14710416666666667, "grad_norm": 0.6574681401252747, "learning_rate": 0.0002850063112128934, "loss": 4.0061, "step": 70610 }, { "epoch": 0.147125, "grad_norm": 0.7548052072525024, "learning_rate": 0.00028500201453364693, "loss": 3.8955, "step": 70620 }, { "epoch": 0.14714583333333334, "grad_norm": 0.7816272377967834, "learning_rate": 0.00028499771727124516, "loss": 3.8382, "step": 70630 }, { "epoch": 0.14716666666666667, "grad_norm": 0.9138084053993225, "learning_rate": 0.00028499341942570677, "loss": 4.0052, "step": 70640 }, { "epoch": 0.1471875, "grad_norm": 0.7758882641792297, "learning_rate": 0.00028498912099705014, "loss": 3.8247, "step": 70650 }, { "epoch": 0.14720833333333333, "grad_norm": 0.7486403584480286, "learning_rate": 0.00028498482198529397, "loss": 4.0722, "step": 70660 }, { "epoch": 0.14722916666666666, "grad_norm": 0.9078393578529358, "learning_rate": 0.00028498052239045685, "loss": 4.1625, "step": 70670 }, { "epoch": 0.14725, "grad_norm": 0.7558035254478455, "learning_rate": 0.0002849762222125572, "loss": 3.8941, "step": 70680 }, { "epoch": 0.14727083333333332, "grad_norm": 0.7405322790145874, "learning_rate": 0.00028497192145161376, "loss": 4.1048, "step": 70690 }, { "epoch": 0.14729166666666665, "grad_norm": 0.7279923558235168, "learning_rate": 0.0002849676201076451, "loss": 3.9966, "step": 70700 }, { "epoch": 0.1473125, "grad_norm": 1.0375614166259766, "learning_rate": 0.00028496331818066964, "loss": 3.7154, "step": 70710 }, { "epoch": 0.14733333333333334, "grad_norm": 0.8000854849815369, "learning_rate": 0.00028495901567070615, "loss": 3.8953, "step": 70720 }, { "epoch": 0.14735416666666667, "grad_norm": 0.7650704979896545, "learning_rate": 0.0002849547125777731, "loss": 4.0827, "step": 70730 }, { "epoch": 0.147375, "grad_norm": 0.7293088436126709, "learning_rate": 0.00028495040890188914, "loss": 4.0645, "step": 70740 }, { "epoch": 0.14739583333333334, "grad_norm": 0.8080040216445923, "learning_rate": 0.00028494610464307275, "loss": 3.9648, "step": 70750 }, { "epoch": 0.14741666666666667, "grad_norm": 0.7630507946014404, "learning_rate": 0.00028494179980134265, "loss": 4.1478, "step": 70760 }, { "epoch": 0.1474375, "grad_norm": 0.8327875733375549, "learning_rate": 0.00028493749437671743, "loss": 3.92, "step": 70770 }, { "epoch": 0.14745833333333333, "grad_norm": 0.7751945853233337, "learning_rate": 0.0002849331883692156, "loss": 3.8638, "step": 70780 }, { "epoch": 0.14747916666666666, "grad_norm": 0.8261473178863525, "learning_rate": 0.0002849288817788558, "loss": 3.9871, "step": 70790 }, { "epoch": 0.1475, "grad_norm": 0.7510938048362732, "learning_rate": 0.00028492457460565666, "loss": 4.1507, "step": 70800 }, { "epoch": 0.14752083333333332, "grad_norm": 0.7204061150550842, "learning_rate": 0.00028492026684963676, "loss": 3.8249, "step": 70810 }, { "epoch": 0.14754166666666665, "grad_norm": 0.8568095564842224, "learning_rate": 0.0002849159585108147, "loss": 4.0815, "step": 70820 }, { "epoch": 0.1475625, "grad_norm": 0.6975789070129395, "learning_rate": 0.00028491164958920913, "loss": 3.8742, "step": 70830 }, { "epoch": 0.14758333333333334, "grad_norm": 0.7814606428146362, "learning_rate": 0.00028490734008483864, "loss": 3.9741, "step": 70840 }, { "epoch": 0.14760416666666668, "grad_norm": 0.6680817008018494, "learning_rate": 0.00028490302999772184, "loss": 3.7527, "step": 70850 }, { "epoch": 0.147625, "grad_norm": 0.7374251484870911, "learning_rate": 0.0002848987193278773, "loss": 3.9141, "step": 70860 }, { "epoch": 0.14764583333333334, "grad_norm": 0.7649693489074707, "learning_rate": 0.00028489440807532375, "loss": 3.9403, "step": 70870 }, { "epoch": 0.14766666666666667, "grad_norm": 0.7564494013786316, "learning_rate": 0.0002848900962400797, "loss": 3.9429, "step": 70880 }, { "epoch": 0.1476875, "grad_norm": 0.793039083480835, "learning_rate": 0.0002848857838221638, "loss": 3.977, "step": 70890 }, { "epoch": 0.14770833333333333, "grad_norm": 0.9813269376754761, "learning_rate": 0.0002848814708215948, "loss": 4.0172, "step": 70900 }, { "epoch": 0.14772916666666666, "grad_norm": 0.757882833480835, "learning_rate": 0.0002848771572383912, "loss": 3.7661, "step": 70910 }, { "epoch": 0.14775, "grad_norm": 0.7030050754547119, "learning_rate": 0.00028487284307257164, "loss": 3.9025, "step": 70920 }, { "epoch": 0.14777083333333332, "grad_norm": 0.7204713821411133, "learning_rate": 0.0002848685283241548, "loss": 3.963, "step": 70930 }, { "epoch": 0.14779166666666665, "grad_norm": 1.171222448348999, "learning_rate": 0.0002848642129931593, "loss": 3.9744, "step": 70940 }, { "epoch": 0.1478125, "grad_norm": 0.6897326111793518, "learning_rate": 0.0002848598970796038, "loss": 4.0045, "step": 70950 }, { "epoch": 0.14783333333333334, "grad_norm": 0.7398867011070251, "learning_rate": 0.0002848555805835069, "loss": 3.7481, "step": 70960 }, { "epoch": 0.14785416666666668, "grad_norm": 0.7656953930854797, "learning_rate": 0.0002848512635048873, "loss": 3.8326, "step": 70970 }, { "epoch": 0.147875, "grad_norm": 0.8426531553268433, "learning_rate": 0.0002848469458437636, "loss": 4.1601, "step": 70980 }, { "epoch": 0.14789583333333334, "grad_norm": 0.7725698947906494, "learning_rate": 0.0002848426276001545, "loss": 3.9413, "step": 70990 }, { "epoch": 0.14791666666666667, "grad_norm": 0.7696405053138733, "learning_rate": 0.00028483830877407856, "loss": 4.0112, "step": 71000 }, { "epoch": 0.14791666666666667, "eval_loss": 4.284165382385254, "eval_runtime": 9.1084, "eval_samples_per_second": 1.098, "eval_steps_per_second": 0.329, "step": 71000 }, { "epoch": 0.1479375, "grad_norm": 0.7905187010765076, "learning_rate": 0.00028483398936555456, "loss": 3.9901, "step": 71010 }, { "epoch": 0.14795833333333333, "grad_norm": 0.8021465539932251, "learning_rate": 0.00028482966937460106, "loss": 4.0941, "step": 71020 }, { "epoch": 0.14797916666666666, "grad_norm": 0.7418262362480164, "learning_rate": 0.00028482534880123675, "loss": 3.9853, "step": 71030 }, { "epoch": 0.148, "grad_norm": 0.7624172568321228, "learning_rate": 0.00028482102764548035, "loss": 3.8035, "step": 71040 }, { "epoch": 0.14802083333333332, "grad_norm": 0.8580581545829773, "learning_rate": 0.00028481670590735044, "loss": 3.8673, "step": 71050 }, { "epoch": 0.14804166666666665, "grad_norm": 0.7686579823493958, "learning_rate": 0.00028481238358686573, "loss": 4.0046, "step": 71060 }, { "epoch": 0.1480625, "grad_norm": 0.7011567950248718, "learning_rate": 0.00028480806068404487, "loss": 3.9806, "step": 71070 }, { "epoch": 0.14808333333333334, "grad_norm": 0.779774010181427, "learning_rate": 0.0002848037371989066, "loss": 3.9366, "step": 71080 }, { "epoch": 0.14810416666666668, "grad_norm": 0.7824998497962952, "learning_rate": 0.0002847994131314695, "loss": 3.9259, "step": 71090 }, { "epoch": 0.148125, "grad_norm": 0.7422212958335876, "learning_rate": 0.0002847950884817523, "loss": 3.9097, "step": 71100 }, { "epoch": 0.14814583333333334, "grad_norm": 0.6770913600921631, "learning_rate": 0.0002847907632497737, "loss": 4.1077, "step": 71110 }, { "epoch": 0.14816666666666667, "grad_norm": 0.7348718643188477, "learning_rate": 0.00028478643743555233, "loss": 4.0255, "step": 71120 }, { "epoch": 0.1481875, "grad_norm": 0.9059455394744873, "learning_rate": 0.0002847821110391069, "loss": 3.72, "step": 71130 }, { "epoch": 0.14820833333333333, "grad_norm": 0.7659428119659424, "learning_rate": 0.0002847777840604561, "loss": 4.1059, "step": 71140 }, { "epoch": 0.14822916666666666, "grad_norm": 0.7198939919471741, "learning_rate": 0.00028477345649961864, "loss": 4.0336, "step": 71150 }, { "epoch": 0.14825, "grad_norm": 0.7605399489402771, "learning_rate": 0.0002847691283566132, "loss": 3.975, "step": 71160 }, { "epoch": 0.14827083333333332, "grad_norm": 0.8730732202529907, "learning_rate": 0.00028476479963145845, "loss": 4.0358, "step": 71170 }, { "epoch": 0.14829166666666665, "grad_norm": 0.7102091312408447, "learning_rate": 0.0002847604703241731, "loss": 3.9719, "step": 71180 }, { "epoch": 0.1483125, "grad_norm": 0.8173009753227234, "learning_rate": 0.0002847561404347759, "loss": 4.1131, "step": 71190 }, { "epoch": 0.14833333333333334, "grad_norm": 0.7617464065551758, "learning_rate": 0.0002847518099632855, "loss": 4.002, "step": 71200 }, { "epoch": 0.14835416666666668, "grad_norm": 0.7886496782302856, "learning_rate": 0.0002847474789097206, "loss": 4.0719, "step": 71210 }, { "epoch": 0.148375, "grad_norm": 0.7785465717315674, "learning_rate": 0.00028474314727409993, "loss": 3.9436, "step": 71220 }, { "epoch": 0.14839583333333334, "grad_norm": 0.8125216960906982, "learning_rate": 0.0002847388150564422, "loss": 3.9755, "step": 71230 }, { "epoch": 0.14841666666666667, "grad_norm": 0.7480450868606567, "learning_rate": 0.0002847344822567661, "loss": 3.907, "step": 71240 }, { "epoch": 0.1484375, "grad_norm": 0.7671841979026794, "learning_rate": 0.0002847301488750904, "loss": 4.052, "step": 71250 }, { "epoch": 0.14845833333333333, "grad_norm": 0.9425755143165588, "learning_rate": 0.0002847258149114338, "loss": 4.0931, "step": 71260 }, { "epoch": 0.14847916666666666, "grad_norm": 0.7930712699890137, "learning_rate": 0.000284721480365815, "loss": 3.9558, "step": 71270 }, { "epoch": 0.1485, "grad_norm": 0.8144110441207886, "learning_rate": 0.0002847171452382527, "loss": 3.8485, "step": 71280 }, { "epoch": 0.14852083333333332, "grad_norm": 1.0648144483566284, "learning_rate": 0.0002847128095287657, "loss": 4.0264, "step": 71290 }, { "epoch": 0.14854166666666666, "grad_norm": 0.8163142800331116, "learning_rate": 0.00028470847323737263, "loss": 3.8487, "step": 71300 }, { "epoch": 0.1485625, "grad_norm": 0.7700211405754089, "learning_rate": 0.0002847041363640923, "loss": 4.0265, "step": 71310 }, { "epoch": 0.14858333333333335, "grad_norm": 1.1434084177017212, "learning_rate": 0.00028469979890894347, "loss": 3.9967, "step": 71320 }, { "epoch": 0.14860416666666668, "grad_norm": 0.8698025941848755, "learning_rate": 0.0002846954608719448, "loss": 4.0618, "step": 71330 }, { "epoch": 0.148625, "grad_norm": 0.8047134876251221, "learning_rate": 0.000284691122253115, "loss": 3.9848, "step": 71340 }, { "epoch": 0.14864583333333334, "grad_norm": 0.7494893074035645, "learning_rate": 0.0002846867830524729, "loss": 3.9671, "step": 71350 }, { "epoch": 0.14866666666666667, "grad_norm": 0.8174264430999756, "learning_rate": 0.00028468244327003724, "loss": 4.0091, "step": 71360 }, { "epoch": 0.1486875, "grad_norm": 0.7800838351249695, "learning_rate": 0.0002846781029058267, "loss": 3.9655, "step": 71370 }, { "epoch": 0.14870833333333333, "grad_norm": 0.7907758355140686, "learning_rate": 0.0002846737619598601, "loss": 3.9742, "step": 71380 }, { "epoch": 0.14872916666666666, "grad_norm": 0.8528965711593628, "learning_rate": 0.00028466942043215614, "loss": 3.9647, "step": 71390 }, { "epoch": 0.14875, "grad_norm": 0.9358994960784912, "learning_rate": 0.0002846650783227336, "loss": 3.8695, "step": 71400 }, { "epoch": 0.14877083333333332, "grad_norm": 0.8777825236320496, "learning_rate": 0.0002846607356316112, "loss": 3.9801, "step": 71410 }, { "epoch": 0.14879166666666666, "grad_norm": 0.8991490006446838, "learning_rate": 0.0002846563923588077, "loss": 3.9912, "step": 71420 }, { "epoch": 0.1488125, "grad_norm": 0.7709356546401978, "learning_rate": 0.00028465204850434197, "loss": 4.0917, "step": 71430 }, { "epoch": 0.14883333333333335, "grad_norm": 0.7932181358337402, "learning_rate": 0.0002846477040682326, "loss": 3.9192, "step": 71440 }, { "epoch": 0.14885416666666668, "grad_norm": 0.740972638130188, "learning_rate": 0.0002846433590504985, "loss": 3.8576, "step": 71450 }, { "epoch": 0.148875, "grad_norm": 0.7025546431541443, "learning_rate": 0.00028463901345115837, "loss": 3.8922, "step": 71460 }, { "epoch": 0.14889583333333334, "grad_norm": 0.7704331874847412, "learning_rate": 0.000284634667270231, "loss": 4.0307, "step": 71470 }, { "epoch": 0.14891666666666667, "grad_norm": 1.0900804996490479, "learning_rate": 0.00028463032050773517, "loss": 3.9595, "step": 71480 }, { "epoch": 0.1489375, "grad_norm": 0.8697716593742371, "learning_rate": 0.0002846259731636896, "loss": 3.9997, "step": 71490 }, { "epoch": 0.14895833333333333, "grad_norm": 0.8139185309410095, "learning_rate": 0.00028462162523811317, "loss": 3.9287, "step": 71500 }, { "epoch": 0.14897916666666666, "grad_norm": 0.9552225470542908, "learning_rate": 0.00028461727673102457, "loss": 4.0279, "step": 71510 }, { "epoch": 0.149, "grad_norm": 0.7749955654144287, "learning_rate": 0.00028461292764244263, "loss": 4.0088, "step": 71520 }, { "epoch": 0.14902083333333332, "grad_norm": 0.7781401872634888, "learning_rate": 0.00028460857797238615, "loss": 3.8408, "step": 71530 }, { "epoch": 0.14904166666666666, "grad_norm": 0.7465201020240784, "learning_rate": 0.00028460422772087383, "loss": 3.9059, "step": 71540 }, { "epoch": 0.1490625, "grad_norm": 0.710066020488739, "learning_rate": 0.0002845998768879246, "loss": 3.9026, "step": 71550 }, { "epoch": 0.14908333333333335, "grad_norm": 0.7229118347167969, "learning_rate": 0.00028459552547355715, "loss": 3.9192, "step": 71560 }, { "epoch": 0.14910416666666668, "grad_norm": 1.1155638694763184, "learning_rate": 0.0002845911734777903, "loss": 3.7946, "step": 71570 }, { "epoch": 0.149125, "grad_norm": 0.8917801380157471, "learning_rate": 0.0002845868209006429, "loss": 4.0234, "step": 71580 }, { "epoch": 0.14914583333333334, "grad_norm": 0.94773930311203, "learning_rate": 0.0002845824677421336, "loss": 3.7823, "step": 71590 }, { "epoch": 0.14916666666666667, "grad_norm": 0.8116409778594971, "learning_rate": 0.0002845781140022814, "loss": 3.8846, "step": 71600 }, { "epoch": 0.1491875, "grad_norm": 0.7623091340065002, "learning_rate": 0.000284573759681105, "loss": 3.9585, "step": 71610 }, { "epoch": 0.14920833333333333, "grad_norm": 0.8278562426567078, "learning_rate": 0.0002845694047786232, "loss": 4.0079, "step": 71620 }, { "epoch": 0.14922916666666666, "grad_norm": 0.9009554386138916, "learning_rate": 0.0002845650492948549, "loss": 3.9093, "step": 71630 }, { "epoch": 0.14925, "grad_norm": 0.7580499053001404, "learning_rate": 0.0002845606932298188, "loss": 4.0763, "step": 71640 }, { "epoch": 0.14927083333333332, "grad_norm": 0.8750494718551636, "learning_rate": 0.0002845563365835338, "loss": 4.0393, "step": 71650 }, { "epoch": 0.14929166666666666, "grad_norm": 0.7408109903335571, "learning_rate": 0.0002845519793560186, "loss": 3.9725, "step": 71660 }, { "epoch": 0.1493125, "grad_norm": 0.8094432950019836, "learning_rate": 0.0002845476215472922, "loss": 3.8375, "step": 71670 }, { "epoch": 0.14933333333333335, "grad_norm": 0.7717129588127136, "learning_rate": 0.00028454326315737334, "loss": 4.0632, "step": 71680 }, { "epoch": 0.14935416666666668, "grad_norm": 0.7702759504318237, "learning_rate": 0.00028453890418628084, "loss": 4.0045, "step": 71690 }, { "epoch": 0.149375, "grad_norm": 0.8685171604156494, "learning_rate": 0.0002845345446340334, "loss": 3.8928, "step": 71700 }, { "epoch": 0.14939583333333334, "grad_norm": 0.9150027632713318, "learning_rate": 0.0002845301845006501, "loss": 3.9233, "step": 71710 }, { "epoch": 0.14941666666666667, "grad_norm": 0.7720416784286499, "learning_rate": 0.0002845258237861497, "loss": 3.8108, "step": 71720 }, { "epoch": 0.1494375, "grad_norm": 0.9362589120864868, "learning_rate": 0.0002845214624905509, "loss": 3.9277, "step": 71730 }, { "epoch": 0.14945833333333333, "grad_norm": 0.8128464818000793, "learning_rate": 0.0002845171006138726, "loss": 4.1033, "step": 71740 }, { "epoch": 0.14947916666666666, "grad_norm": 0.752554178237915, "learning_rate": 0.00028451273815613377, "loss": 3.8588, "step": 71750 }, { "epoch": 0.1495, "grad_norm": 0.8801952600479126, "learning_rate": 0.0002845083751173531, "loss": 3.9596, "step": 71760 }, { "epoch": 0.14952083333333333, "grad_norm": 0.8071030974388123, "learning_rate": 0.0002845040114975495, "loss": 3.9856, "step": 71770 }, { "epoch": 0.14954166666666666, "grad_norm": 0.7862836122512817, "learning_rate": 0.0002844996472967418, "loss": 3.9644, "step": 71780 }, { "epoch": 0.1495625, "grad_norm": 0.7857822775840759, "learning_rate": 0.00028449528251494883, "loss": 4.0167, "step": 71790 }, { "epoch": 0.14958333333333335, "grad_norm": 0.7912495732307434, "learning_rate": 0.00028449091715218957, "loss": 3.8651, "step": 71800 }, { "epoch": 0.14960416666666668, "grad_norm": 0.7305403351783752, "learning_rate": 0.0002844865512084827, "loss": 3.9962, "step": 71810 }, { "epoch": 0.149625, "grad_norm": 0.7999270558357239, "learning_rate": 0.00028448218468384717, "loss": 3.9629, "step": 71820 }, { "epoch": 0.14964583333333334, "grad_norm": 0.8545464873313904, "learning_rate": 0.0002844778175783019, "loss": 3.8118, "step": 71830 }, { "epoch": 0.14966666666666667, "grad_norm": 0.8261105418205261, "learning_rate": 0.0002844734498918656, "loss": 3.868, "step": 71840 }, { "epoch": 0.1496875, "grad_norm": 0.7680333852767944, "learning_rate": 0.0002844690816245573, "loss": 3.9965, "step": 71850 }, { "epoch": 0.14970833333333333, "grad_norm": 0.886259913444519, "learning_rate": 0.00028446471277639575, "loss": 3.9505, "step": 71860 }, { "epoch": 0.14972916666666666, "grad_norm": 0.7556746006011963, "learning_rate": 0.0002844603433473999, "loss": 3.9307, "step": 71870 }, { "epoch": 0.14975, "grad_norm": 0.7038658261299133, "learning_rate": 0.0002844559733375885, "loss": 3.9779, "step": 71880 }, { "epoch": 0.14977083333333333, "grad_norm": 0.7639734745025635, "learning_rate": 0.0002844516027469806, "loss": 3.9773, "step": 71890 }, { "epoch": 0.14979166666666666, "grad_norm": 0.7529335021972656, "learning_rate": 0.000284447231575595, "loss": 4.0046, "step": 71900 }, { "epoch": 0.1498125, "grad_norm": 0.9344610571861267, "learning_rate": 0.00028444285982345054, "loss": 3.9518, "step": 71910 }, { "epoch": 0.14983333333333335, "grad_norm": 0.7351492643356323, "learning_rate": 0.0002844384874905662, "loss": 4.0872, "step": 71920 }, { "epoch": 0.14985416666666668, "grad_norm": 0.7677125930786133, "learning_rate": 0.0002844341145769608, "loss": 3.9007, "step": 71930 }, { "epoch": 0.149875, "grad_norm": 0.693696916103363, "learning_rate": 0.00028442974108265314, "loss": 4.008, "step": 71940 }, { "epoch": 0.14989583333333334, "grad_norm": 0.7964749336242676, "learning_rate": 0.00028442536700766226, "loss": 3.8951, "step": 71950 }, { "epoch": 0.14991666666666667, "grad_norm": 0.8002138137817383, "learning_rate": 0.00028442099235200706, "loss": 4.0999, "step": 71960 }, { "epoch": 0.1499375, "grad_norm": 0.9176610112190247, "learning_rate": 0.0002844166171157063, "loss": 3.9667, "step": 71970 }, { "epoch": 0.14995833333333333, "grad_norm": 0.7362682819366455, "learning_rate": 0.00028441224129877897, "loss": 3.9581, "step": 71980 }, { "epoch": 0.14997916666666666, "grad_norm": 0.7761439085006714, "learning_rate": 0.000284407864901244, "loss": 3.9336, "step": 71990 }, { "epoch": 0.15, "grad_norm": 0.7397243976593018, "learning_rate": 0.0002844034879231203, "loss": 4.0251, "step": 72000 }, { "epoch": 0.15, "eval_loss": 4.295764923095703, "eval_runtime": 9.5639, "eval_samples_per_second": 1.046, "eval_steps_per_second": 0.314, "step": 72000 }, { "epoch": 0.15002083333333333, "grad_norm": 0.8388078808784485, "learning_rate": 0.0002843991103644267, "loss": 4.0227, "step": 72010 }, { "epoch": 0.15004166666666666, "grad_norm": 0.9408968091011047, "learning_rate": 0.00028439473222518206, "loss": 3.9341, "step": 72020 }, { "epoch": 0.1500625, "grad_norm": 0.7338883280754089, "learning_rate": 0.00028439035350540543, "loss": 3.8319, "step": 72030 }, { "epoch": 0.15008333333333335, "grad_norm": 0.7317513823509216, "learning_rate": 0.00028438597420511573, "loss": 3.9728, "step": 72040 }, { "epoch": 0.15010416666666668, "grad_norm": 0.828517735004425, "learning_rate": 0.0002843815943243317, "loss": 3.762, "step": 72050 }, { "epoch": 0.150125, "grad_norm": 1.0389846563339233, "learning_rate": 0.0002843772138630725, "loss": 3.8084, "step": 72060 }, { "epoch": 0.15014583333333334, "grad_norm": 0.6843791007995605, "learning_rate": 0.0002843728328213568, "loss": 4.0249, "step": 72070 }, { "epoch": 0.15016666666666667, "grad_norm": 0.8441025018692017, "learning_rate": 0.00028436845119920377, "loss": 4.0895, "step": 72080 }, { "epoch": 0.1501875, "grad_norm": 0.718093752861023, "learning_rate": 0.00028436406899663214, "loss": 4.1182, "step": 72090 }, { "epoch": 0.15020833333333333, "grad_norm": 0.735041081905365, "learning_rate": 0.0002843596862136609, "loss": 4.0152, "step": 72100 }, { "epoch": 0.15022916666666666, "grad_norm": 0.7616361379623413, "learning_rate": 0.00028435530285030904, "loss": 3.9742, "step": 72110 }, { "epoch": 0.15025, "grad_norm": 0.766974925994873, "learning_rate": 0.00028435091890659545, "loss": 3.9273, "step": 72120 }, { "epoch": 0.15027083333333333, "grad_norm": 1.0119668245315552, "learning_rate": 0.0002843465343825391, "loss": 3.8686, "step": 72130 }, { "epoch": 0.15029166666666666, "grad_norm": 0.7462304830551147, "learning_rate": 0.0002843421492781588, "loss": 4.1103, "step": 72140 }, { "epoch": 0.1503125, "grad_norm": 0.7401243448257446, "learning_rate": 0.0002843377635934737, "loss": 3.8154, "step": 72150 }, { "epoch": 0.15033333333333335, "grad_norm": 0.8520476818084717, "learning_rate": 0.00028433337732850254, "loss": 4.0405, "step": 72160 }, { "epoch": 0.15035416666666668, "grad_norm": 0.8213244080543518, "learning_rate": 0.00028432899048326445, "loss": 3.8169, "step": 72170 }, { "epoch": 0.150375, "grad_norm": 0.8177028894424438, "learning_rate": 0.0002843246030577782, "loss": 4.1099, "step": 72180 }, { "epoch": 0.15039583333333334, "grad_norm": 0.7936242818832397, "learning_rate": 0.000284320215052063, "loss": 3.9734, "step": 72190 }, { "epoch": 0.15041666666666667, "grad_norm": 0.8216565847396851, "learning_rate": 0.0002843158264661375, "loss": 4.0511, "step": 72200 }, { "epoch": 0.1504375, "grad_norm": 0.697338879108429, "learning_rate": 0.00028431143730002083, "loss": 3.9714, "step": 72210 }, { "epoch": 0.15045833333333333, "grad_norm": 0.9458749294281006, "learning_rate": 0.0002843070475537319, "loss": 3.8303, "step": 72220 }, { "epoch": 0.15047916666666666, "grad_norm": 0.7465956211090088, "learning_rate": 0.0002843026572272897, "loss": 3.9151, "step": 72230 }, { "epoch": 0.1505, "grad_norm": 0.8416056632995605, "learning_rate": 0.0002842982663207132, "loss": 3.9581, "step": 72240 }, { "epoch": 0.15052083333333333, "grad_norm": 0.8168357014656067, "learning_rate": 0.0002842938748340213, "loss": 3.9749, "step": 72250 }, { "epoch": 0.15054166666666666, "grad_norm": 0.8974773287773132, "learning_rate": 0.000284289482767233, "loss": 3.9778, "step": 72260 }, { "epoch": 0.1505625, "grad_norm": 0.7147213220596313, "learning_rate": 0.0002842850901203674, "loss": 4.0194, "step": 72270 }, { "epoch": 0.15058333333333335, "grad_norm": 0.8465138673782349, "learning_rate": 0.00028428069689344327, "loss": 4.0292, "step": 72280 }, { "epoch": 0.15060416666666668, "grad_norm": 0.8558012843132019, "learning_rate": 0.0002842763030864797, "loss": 3.936, "step": 72290 }, { "epoch": 0.150625, "grad_norm": 0.983116626739502, "learning_rate": 0.0002842719086994957, "loss": 4.0686, "step": 72300 }, { "epoch": 0.15064583333333334, "grad_norm": 0.7522895932197571, "learning_rate": 0.00028426751373251014, "loss": 4.0658, "step": 72310 }, { "epoch": 0.15066666666666667, "grad_norm": 0.7169217467308044, "learning_rate": 0.0002842631181855421, "loss": 4.1575, "step": 72320 }, { "epoch": 0.1506875, "grad_norm": 0.7256879806518555, "learning_rate": 0.0002842587220586105, "loss": 4.0786, "step": 72330 }, { "epoch": 0.15070833333333333, "grad_norm": 0.7191252708435059, "learning_rate": 0.00028425432535173444, "loss": 3.9841, "step": 72340 }, { "epoch": 0.15072916666666666, "grad_norm": 0.7323718070983887, "learning_rate": 0.0002842499280649328, "loss": 4.068, "step": 72350 }, { "epoch": 0.15075, "grad_norm": 0.7600184082984924, "learning_rate": 0.00028424553019822454, "loss": 3.9458, "step": 72360 }, { "epoch": 0.15077083333333333, "grad_norm": 0.8027377724647522, "learning_rate": 0.00028424113175162883, "loss": 4.0308, "step": 72370 }, { "epoch": 0.15079166666666666, "grad_norm": 0.8312699794769287, "learning_rate": 0.0002842367327251645, "loss": 4.0085, "step": 72380 }, { "epoch": 0.1508125, "grad_norm": 0.7182160019874573, "learning_rate": 0.0002842323331188507, "loss": 3.9754, "step": 72390 }, { "epoch": 0.15083333333333335, "grad_norm": 0.7611488699913025, "learning_rate": 0.00028422793293270625, "loss": 4.0225, "step": 72400 }, { "epoch": 0.15085416666666668, "grad_norm": 0.7022058367729187, "learning_rate": 0.0002842235321667503, "loss": 3.9381, "step": 72410 }, { "epoch": 0.150875, "grad_norm": 0.7718464136123657, "learning_rate": 0.0002842191308210018, "loss": 4.0963, "step": 72420 }, { "epoch": 0.15089583333333334, "grad_norm": 0.9441313743591309, "learning_rate": 0.00028421472889547986, "loss": 3.956, "step": 72430 }, { "epoch": 0.15091666666666667, "grad_norm": 0.942916214466095, "learning_rate": 0.00028421032639020335, "loss": 3.9402, "step": 72440 }, { "epoch": 0.1509375, "grad_norm": 1.022138237953186, "learning_rate": 0.0002842059233051914, "loss": 4.0063, "step": 72450 }, { "epoch": 0.15095833333333333, "grad_norm": 0.8479210734367371, "learning_rate": 0.0002842015196404629, "loss": 3.9831, "step": 72460 }, { "epoch": 0.15097916666666666, "grad_norm": 1.0297539234161377, "learning_rate": 0.00028419711539603705, "loss": 4.0513, "step": 72470 }, { "epoch": 0.151, "grad_norm": 0.9022752642631531, "learning_rate": 0.00028419271057193273, "loss": 4.1092, "step": 72480 }, { "epoch": 0.15102083333333333, "grad_norm": 1.5635342597961426, "learning_rate": 0.00028418830516816905, "loss": 3.8363, "step": 72490 }, { "epoch": 0.15104166666666666, "grad_norm": 0.9071887731552124, "learning_rate": 0.000284183899184765, "loss": 3.9169, "step": 72500 }, { "epoch": 0.1510625, "grad_norm": 0.7524942755699158, "learning_rate": 0.0002841794926217396, "loss": 4.0659, "step": 72510 }, { "epoch": 0.15108333333333332, "grad_norm": 0.8225988149642944, "learning_rate": 0.00028417508547911186, "loss": 4.0076, "step": 72520 }, { "epoch": 0.15110416666666668, "grad_norm": 0.955308735370636, "learning_rate": 0.00028417067775690093, "loss": 4.0221, "step": 72530 }, { "epoch": 0.151125, "grad_norm": 0.8638079762458801, "learning_rate": 0.0002841662694551258, "loss": 4.1908, "step": 72540 }, { "epoch": 0.15114583333333334, "grad_norm": 0.815079391002655, "learning_rate": 0.0002841618605738054, "loss": 3.952, "step": 72550 }, { "epoch": 0.15116666666666667, "grad_norm": 0.7443315386772156, "learning_rate": 0.00028415745111295894, "loss": 3.8732, "step": 72560 }, { "epoch": 0.1511875, "grad_norm": 0.7739659547805786, "learning_rate": 0.0002841530410726054, "loss": 4.062, "step": 72570 }, { "epoch": 0.15120833333333333, "grad_norm": 0.7999347448348999, "learning_rate": 0.0002841486304527638, "loss": 4.2184, "step": 72580 }, { "epoch": 0.15122916666666666, "grad_norm": 0.8120511174201965, "learning_rate": 0.0002841442192534532, "loss": 3.885, "step": 72590 }, { "epoch": 0.15125, "grad_norm": 0.7557273507118225, "learning_rate": 0.00028413980747469267, "loss": 3.9144, "step": 72600 }, { "epoch": 0.15127083333333333, "grad_norm": 0.7908822894096375, "learning_rate": 0.0002841353951165013, "loss": 3.8818, "step": 72610 }, { "epoch": 0.15129166666666666, "grad_norm": 0.7700543999671936, "learning_rate": 0.00028413098217889806, "loss": 4.0513, "step": 72620 }, { "epoch": 0.1513125, "grad_norm": 0.8138931393623352, "learning_rate": 0.0002841265686619021, "loss": 3.9867, "step": 72630 }, { "epoch": 0.15133333333333332, "grad_norm": 0.7181718945503235, "learning_rate": 0.00028412215456553245, "loss": 4.0142, "step": 72640 }, { "epoch": 0.15135416666666668, "grad_norm": 0.8626682758331299, "learning_rate": 0.00028411773988980824, "loss": 4.0082, "step": 72650 }, { "epoch": 0.151375, "grad_norm": 0.7466697692871094, "learning_rate": 0.00028411332463474845, "loss": 4.0678, "step": 72660 }, { "epoch": 0.15139583333333334, "grad_norm": 0.8079784512519836, "learning_rate": 0.0002841089088003721, "loss": 3.9889, "step": 72670 }, { "epoch": 0.15141666666666667, "grad_norm": 0.7213324904441833, "learning_rate": 0.00028410449238669845, "loss": 3.9646, "step": 72680 }, { "epoch": 0.1514375, "grad_norm": 0.7599303722381592, "learning_rate": 0.00028410007539374644, "loss": 4.1372, "step": 72690 }, { "epoch": 0.15145833333333333, "grad_norm": 0.7314761877059937, "learning_rate": 0.0002840956578215352, "loss": 4.177, "step": 72700 }, { "epoch": 0.15147916666666666, "grad_norm": 0.9583154320716858, "learning_rate": 0.0002840912396700838, "loss": 4.1015, "step": 72710 }, { "epoch": 0.1515, "grad_norm": 0.8020080327987671, "learning_rate": 0.0002840868209394113, "loss": 4.0157, "step": 72720 }, { "epoch": 0.15152083333333333, "grad_norm": 0.7528849244117737, "learning_rate": 0.0002840824016295368, "loss": 3.9454, "step": 72730 }, { "epoch": 0.15154166666666666, "grad_norm": 0.9540367722511292, "learning_rate": 0.0002840779817404794, "loss": 3.8685, "step": 72740 }, { "epoch": 0.1515625, "grad_norm": 0.8045822978019714, "learning_rate": 0.00028407356127225825, "loss": 4.0676, "step": 72750 }, { "epoch": 0.15158333333333332, "grad_norm": 0.709798276424408, "learning_rate": 0.0002840691402248923, "loss": 4.0525, "step": 72760 }, { "epoch": 0.15160416666666668, "grad_norm": 0.905811607837677, "learning_rate": 0.00028406471859840083, "loss": 4.1315, "step": 72770 }, { "epoch": 0.151625, "grad_norm": 0.7818454504013062, "learning_rate": 0.00028406029639280276, "loss": 3.9897, "step": 72780 }, { "epoch": 0.15164583333333334, "grad_norm": 0.7797512412071228, "learning_rate": 0.0002840558736081173, "loss": 4.0339, "step": 72790 }, { "epoch": 0.15166666666666667, "grad_norm": 0.9299226999282837, "learning_rate": 0.00028405145024436356, "loss": 3.8646, "step": 72800 }, { "epoch": 0.1516875, "grad_norm": 0.8420463800430298, "learning_rate": 0.00028404702630156054, "loss": 4.0367, "step": 72810 }, { "epoch": 0.15170833333333333, "grad_norm": 0.8580852746963501, "learning_rate": 0.0002840426017797275, "loss": 3.9131, "step": 72820 }, { "epoch": 0.15172916666666666, "grad_norm": 0.7600605487823486, "learning_rate": 0.00028403817667888346, "loss": 3.9144, "step": 72830 }, { "epoch": 0.15175, "grad_norm": 0.9438735246658325, "learning_rate": 0.0002840337509990475, "loss": 4.0707, "step": 72840 }, { "epoch": 0.15177083333333333, "grad_norm": 0.7981035709381104, "learning_rate": 0.0002840293247402388, "loss": 3.9633, "step": 72850 }, { "epoch": 0.15179166666666666, "grad_norm": 0.7321599125862122, "learning_rate": 0.0002840248979024765, "loss": 4.0976, "step": 72860 }, { "epoch": 0.1518125, "grad_norm": 0.743794858455658, "learning_rate": 0.00028402047048577974, "loss": 3.9909, "step": 72870 }, { "epoch": 0.15183333333333332, "grad_norm": 0.7463403940200806, "learning_rate": 0.0002840160424901676, "loss": 3.9713, "step": 72880 }, { "epoch": 0.15185416666666668, "grad_norm": 0.7467679977416992, "learning_rate": 0.00028401161391565906, "loss": 3.9249, "step": 72890 }, { "epoch": 0.151875, "grad_norm": 0.7973138093948364, "learning_rate": 0.00028400718476227353, "loss": 4.0584, "step": 72900 }, { "epoch": 0.15189583333333334, "grad_norm": 0.6751752495765686, "learning_rate": 0.00028400275503003, "loss": 3.9658, "step": 72910 }, { "epoch": 0.15191666666666667, "grad_norm": 0.7750449180603027, "learning_rate": 0.0002839983247189475, "loss": 4.0311, "step": 72920 }, { "epoch": 0.1519375, "grad_norm": 0.8871482610702515, "learning_rate": 0.00028399389382904535, "loss": 3.9979, "step": 72930 }, { "epoch": 0.15195833333333333, "grad_norm": 0.7578150629997253, "learning_rate": 0.0002839894623603426, "loss": 3.9, "step": 72940 }, { "epoch": 0.15197916666666667, "grad_norm": 0.7444786429405212, "learning_rate": 0.00028398503031285845, "loss": 4.0309, "step": 72950 }, { "epoch": 0.152, "grad_norm": 0.7813825011253357, "learning_rate": 0.00028398059768661204, "loss": 4.0679, "step": 72960 }, { "epoch": 0.15202083333333333, "grad_norm": 0.7288935780525208, "learning_rate": 0.00028397616448162235, "loss": 4.0372, "step": 72970 }, { "epoch": 0.15204166666666666, "grad_norm": 0.765454113483429, "learning_rate": 0.00028397173069790875, "loss": 3.9429, "step": 72980 }, { "epoch": 0.1520625, "grad_norm": 0.8828328847885132, "learning_rate": 0.00028396729633549026, "loss": 4.0985, "step": 72990 }, { "epoch": 0.15208333333333332, "grad_norm": 0.8802688717842102, "learning_rate": 0.0002839628613943861, "loss": 3.9756, "step": 73000 }, { "epoch": 0.15208333333333332, "eval_loss": 4.289035797119141, "eval_runtime": 9.6587, "eval_samples_per_second": 1.035, "eval_steps_per_second": 0.311, "step": 73000 }, { "epoch": 0.15210416666666668, "grad_norm": 0.7039880156517029, "learning_rate": 0.0002839584258746154, "loss": 3.9436, "step": 73010 }, { "epoch": 0.152125, "grad_norm": 0.772083580493927, "learning_rate": 0.00028395398977619735, "loss": 3.9297, "step": 73020 }, { "epoch": 0.15214583333333334, "grad_norm": 0.9898645281791687, "learning_rate": 0.0002839495530991511, "loss": 4.1193, "step": 73030 }, { "epoch": 0.15216666666666667, "grad_norm": 0.768926203250885, "learning_rate": 0.0002839451158434958, "loss": 4.0435, "step": 73040 }, { "epoch": 0.1521875, "grad_norm": 0.7805061340332031, "learning_rate": 0.00028394067800925057, "loss": 3.8929, "step": 73050 }, { "epoch": 0.15220833333333333, "grad_norm": 0.7719686627388, "learning_rate": 0.0002839362395964346, "loss": 3.7854, "step": 73060 }, { "epoch": 0.15222916666666667, "grad_norm": 0.8028059005737305, "learning_rate": 0.0002839318006050672, "loss": 3.9693, "step": 73070 }, { "epoch": 0.15225, "grad_norm": 0.8585761189460754, "learning_rate": 0.0002839273610351674, "loss": 3.9051, "step": 73080 }, { "epoch": 0.15227083333333333, "grad_norm": 0.7626745104789734, "learning_rate": 0.00028392292088675437, "loss": 3.9207, "step": 73090 }, { "epoch": 0.15229166666666666, "grad_norm": 0.7298381924629211, "learning_rate": 0.0002839184801598473, "loss": 4.0438, "step": 73100 }, { "epoch": 0.1523125, "grad_norm": 0.8463944792747498, "learning_rate": 0.0002839140388544655, "loss": 3.9336, "step": 73110 }, { "epoch": 0.15233333333333332, "grad_norm": 0.7844811081886292, "learning_rate": 0.000283909596970628, "loss": 3.9378, "step": 73120 }, { "epoch": 0.15235416666666668, "grad_norm": 0.8684730529785156, "learning_rate": 0.000283905154508354, "loss": 3.6447, "step": 73130 }, { "epoch": 0.152375, "grad_norm": 0.7893691658973694, "learning_rate": 0.0002839007114676628, "loss": 3.9233, "step": 73140 }, { "epoch": 0.15239583333333334, "grad_norm": 0.7345757484436035, "learning_rate": 0.00028389626784857357, "loss": 3.8923, "step": 73150 }, { "epoch": 0.15241666666666667, "grad_norm": 0.9433168172836304, "learning_rate": 0.0002838918236511054, "loss": 4.068, "step": 73160 }, { "epoch": 0.1524375, "grad_norm": 0.8687768578529358, "learning_rate": 0.00028388737887527753, "loss": 4.1145, "step": 73170 }, { "epoch": 0.15245833333333333, "grad_norm": 0.8037504553794861, "learning_rate": 0.00028388293352110927, "loss": 3.8816, "step": 73180 }, { "epoch": 0.15247916666666667, "grad_norm": 0.8040510416030884, "learning_rate": 0.0002838784875886196, "loss": 4.0265, "step": 73190 }, { "epoch": 0.1525, "grad_norm": 0.8467494249343872, "learning_rate": 0.000283874041077828, "loss": 3.9374, "step": 73200 }, { "epoch": 0.15252083333333333, "grad_norm": 0.7648420929908752, "learning_rate": 0.0002838695939887535, "loss": 3.9582, "step": 73210 }, { "epoch": 0.15254166666666666, "grad_norm": 0.7715051770210266, "learning_rate": 0.0002838651463214152, "loss": 4.0835, "step": 73220 }, { "epoch": 0.1525625, "grad_norm": 0.7688460350036621, "learning_rate": 0.00028386069807583264, "loss": 4.0062, "step": 73230 }, { "epoch": 0.15258333333333332, "grad_norm": 0.7146083116531372, "learning_rate": 0.00028385624925202476, "loss": 4.0293, "step": 73240 }, { "epoch": 0.15260416666666668, "grad_norm": 0.7722119092941284, "learning_rate": 0.0002838517998500108, "loss": 3.9419, "step": 73250 }, { "epoch": 0.152625, "grad_norm": 0.7356873154640198, "learning_rate": 0.0002838473498698102, "loss": 4.12, "step": 73260 }, { "epoch": 0.15264583333333334, "grad_norm": 0.7520571351051331, "learning_rate": 0.00028384289931144196, "loss": 3.9967, "step": 73270 }, { "epoch": 0.15266666666666667, "grad_norm": 0.6952807903289795, "learning_rate": 0.00028383844817492536, "loss": 4.2289, "step": 73280 }, { "epoch": 0.1526875, "grad_norm": 0.8427094221115112, "learning_rate": 0.0002838339964602797, "loss": 3.9082, "step": 73290 }, { "epoch": 0.15270833333333333, "grad_norm": 0.827663242816925, "learning_rate": 0.00028382954416752407, "loss": 4.0389, "step": 73300 }, { "epoch": 0.15272916666666667, "grad_norm": 0.9176377654075623, "learning_rate": 0.0002838250912966778, "loss": 4.1204, "step": 73310 }, { "epoch": 0.15275, "grad_norm": 0.8079107403755188, "learning_rate": 0.00028382063784776013, "loss": 4.0683, "step": 73320 }, { "epoch": 0.15277083333333333, "grad_norm": 0.7335153222084045, "learning_rate": 0.00028381618382079024, "loss": 4.0067, "step": 73330 }, { "epoch": 0.15279166666666666, "grad_norm": 0.7644971013069153, "learning_rate": 0.00028381172921578744, "loss": 3.9507, "step": 73340 }, { "epoch": 0.1528125, "grad_norm": 0.8006301522254944, "learning_rate": 0.00028380727403277094, "loss": 3.9322, "step": 73350 }, { "epoch": 0.15283333333333332, "grad_norm": 0.7938095927238464, "learning_rate": 0.00028380281827175997, "loss": 4.041, "step": 73360 }, { "epoch": 0.15285416666666668, "grad_norm": 0.8033451437950134, "learning_rate": 0.00028379836193277377, "loss": 3.88, "step": 73370 }, { "epoch": 0.152875, "grad_norm": 0.7751308083534241, "learning_rate": 0.00028379390501583166, "loss": 4.0363, "step": 73380 }, { "epoch": 0.15289583333333334, "grad_norm": 0.7850701212882996, "learning_rate": 0.0002837894475209528, "loss": 4.0163, "step": 73390 }, { "epoch": 0.15291666666666667, "grad_norm": 0.7530560493469238, "learning_rate": 0.00028378498944815647, "loss": 3.9799, "step": 73400 }, { "epoch": 0.1529375, "grad_norm": 0.8355073928833008, "learning_rate": 0.00028378053079746194, "loss": 4.0634, "step": 73410 }, { "epoch": 0.15295833333333334, "grad_norm": 0.7835350036621094, "learning_rate": 0.00028377607156888847, "loss": 4.095, "step": 73420 }, { "epoch": 0.15297916666666667, "grad_norm": 0.7210692167282104, "learning_rate": 0.0002837716117624554, "loss": 3.8746, "step": 73430 }, { "epoch": 0.153, "grad_norm": 0.8039471507072449, "learning_rate": 0.00028376715137818184, "loss": 3.9442, "step": 73440 }, { "epoch": 0.15302083333333333, "grad_norm": 0.7650304436683655, "learning_rate": 0.00028376269041608716, "loss": 4.0332, "step": 73450 }, { "epoch": 0.15304166666666666, "grad_norm": 0.7592710852622986, "learning_rate": 0.00028375822887619057, "loss": 3.9801, "step": 73460 }, { "epoch": 0.1530625, "grad_norm": 0.8189033269882202, "learning_rate": 0.0002837537667585114, "loss": 4.2142, "step": 73470 }, { "epoch": 0.15308333333333332, "grad_norm": 0.7113751173019409, "learning_rate": 0.00028374930406306896, "loss": 4.0691, "step": 73480 }, { "epoch": 0.15310416666666668, "grad_norm": 0.7578450441360474, "learning_rate": 0.0002837448407898824, "loss": 3.9702, "step": 73490 }, { "epoch": 0.153125, "grad_norm": 0.7560532093048096, "learning_rate": 0.0002837403769389711, "loss": 3.9826, "step": 73500 }, { "epoch": 0.15314583333333334, "grad_norm": 0.8160309791564941, "learning_rate": 0.00028373591251035425, "loss": 4.1464, "step": 73510 }, { "epoch": 0.15316666666666667, "grad_norm": 0.7979289293289185, "learning_rate": 0.00028373144750405124, "loss": 4.2059, "step": 73520 }, { "epoch": 0.1531875, "grad_norm": 1.3935414552688599, "learning_rate": 0.0002837269819200813, "loss": 3.9896, "step": 73530 }, { "epoch": 0.15320833333333334, "grad_norm": 0.7592385411262512, "learning_rate": 0.00028372251575846375, "loss": 3.8376, "step": 73540 }, { "epoch": 0.15322916666666667, "grad_norm": 0.9285362362861633, "learning_rate": 0.00028371804901921785, "loss": 4.0821, "step": 73550 }, { "epoch": 0.15325, "grad_norm": 0.8936423063278198, "learning_rate": 0.0002837135817023629, "loss": 3.8755, "step": 73560 }, { "epoch": 0.15327083333333333, "grad_norm": 0.7954498529434204, "learning_rate": 0.0002837091138079182, "loss": 3.8762, "step": 73570 }, { "epoch": 0.15329166666666666, "grad_norm": 0.8194359540939331, "learning_rate": 0.0002837046453359031, "loss": 3.857, "step": 73580 }, { "epoch": 0.1533125, "grad_norm": 0.8303548097610474, "learning_rate": 0.00028370017628633683, "loss": 3.9694, "step": 73590 }, { "epoch": 0.15333333333333332, "grad_norm": 0.7597904205322266, "learning_rate": 0.0002836957066592387, "loss": 3.8603, "step": 73600 }, { "epoch": 0.15335416666666668, "grad_norm": 0.7998079061508179, "learning_rate": 0.00028369123645462805, "loss": 4.0151, "step": 73610 }, { "epoch": 0.153375, "grad_norm": 0.7875493764877319, "learning_rate": 0.0002836867656725242, "loss": 4.031, "step": 73620 }, { "epoch": 0.15339583333333334, "grad_norm": 0.7740491032600403, "learning_rate": 0.0002836822943129464, "loss": 3.9649, "step": 73630 }, { "epoch": 0.15341666666666667, "grad_norm": 0.8287675380706787, "learning_rate": 0.00028367782237591403, "loss": 3.9921, "step": 73640 }, { "epoch": 0.1534375, "grad_norm": 0.8252224326133728, "learning_rate": 0.00028367334986144637, "loss": 3.8955, "step": 73650 }, { "epoch": 0.15345833333333334, "grad_norm": 0.8693181276321411, "learning_rate": 0.00028366887676956276, "loss": 4.1401, "step": 73660 }, { "epoch": 0.15347916666666667, "grad_norm": 0.8157568573951721, "learning_rate": 0.00028366440310028247, "loss": 3.9597, "step": 73670 }, { "epoch": 0.1535, "grad_norm": 0.822344183921814, "learning_rate": 0.00028365992885362495, "loss": 3.9391, "step": 73680 }, { "epoch": 0.15352083333333333, "grad_norm": 0.9049589037895203, "learning_rate": 0.0002836554540296094, "loss": 3.9783, "step": 73690 }, { "epoch": 0.15354166666666666, "grad_norm": 0.7346199750900269, "learning_rate": 0.00028365097862825513, "loss": 3.8874, "step": 73700 }, { "epoch": 0.1535625, "grad_norm": 0.8062243461608887, "learning_rate": 0.00028364650264958165, "loss": 4.1499, "step": 73710 }, { "epoch": 0.15358333333333332, "grad_norm": 0.7193365693092346, "learning_rate": 0.0002836420260936081, "loss": 4.0235, "step": 73720 }, { "epoch": 0.15360416666666668, "grad_norm": 0.787533164024353, "learning_rate": 0.00028363754896035395, "loss": 3.983, "step": 73730 }, { "epoch": 0.153625, "grad_norm": 0.8192620873451233, "learning_rate": 0.0002836330712498384, "loss": 4.0264, "step": 73740 }, { "epoch": 0.15364583333333334, "grad_norm": 0.709965705871582, "learning_rate": 0.00028362859296208093, "loss": 4.0014, "step": 73750 }, { "epoch": 0.15366666666666667, "grad_norm": 0.6903032660484314, "learning_rate": 0.00028362411409710086, "loss": 4.1528, "step": 73760 }, { "epoch": 0.1536875, "grad_norm": 0.8671177625656128, "learning_rate": 0.00028361963465491747, "loss": 3.7804, "step": 73770 }, { "epoch": 0.15370833333333334, "grad_norm": 0.7458586692810059, "learning_rate": 0.00028361515463555016, "loss": 4.028, "step": 73780 }, { "epoch": 0.15372916666666667, "grad_norm": 0.7680201530456543, "learning_rate": 0.0002836106740390183, "loss": 4.161, "step": 73790 }, { "epoch": 0.15375, "grad_norm": 0.8758038282394409, "learning_rate": 0.0002836061928653412, "loss": 3.9732, "step": 73800 }, { "epoch": 0.15377083333333333, "grad_norm": 0.7092270255088806, "learning_rate": 0.00028360171111453816, "loss": 3.9179, "step": 73810 }, { "epoch": 0.15379166666666666, "grad_norm": 0.7810970544815063, "learning_rate": 0.0002835972287866287, "loss": 4.0487, "step": 73820 }, { "epoch": 0.1538125, "grad_norm": 0.7219531536102295, "learning_rate": 0.00028359274588163206, "loss": 4.0425, "step": 73830 }, { "epoch": 0.15383333333333332, "grad_norm": 0.6883900165557861, "learning_rate": 0.00028358826239956766, "loss": 3.9364, "step": 73840 }, { "epoch": 0.15385416666666665, "grad_norm": 0.6988272070884705, "learning_rate": 0.0002835837783404548, "loss": 3.9364, "step": 73850 }, { "epoch": 0.153875, "grad_norm": 0.6967785954475403, "learning_rate": 0.00028357929370431294, "loss": 4.1574, "step": 73860 }, { "epoch": 0.15389583333333334, "grad_norm": 0.832975447177887, "learning_rate": 0.0002835748084911614, "loss": 3.9732, "step": 73870 }, { "epoch": 0.15391666666666667, "grad_norm": 0.8089030981063843, "learning_rate": 0.0002835703227010196, "loss": 4.0968, "step": 73880 }, { "epoch": 0.1539375, "grad_norm": 0.7326657772064209, "learning_rate": 0.00028356583633390675, "loss": 4.0256, "step": 73890 }, { "epoch": 0.15395833333333334, "grad_norm": 0.6976575255393982, "learning_rate": 0.00028356134938984246, "loss": 4.1072, "step": 73900 }, { "epoch": 0.15397916666666667, "grad_norm": 0.8250044584274292, "learning_rate": 0.00028355686186884595, "loss": 4.1239, "step": 73910 }, { "epoch": 0.154, "grad_norm": 0.8209596872329712, "learning_rate": 0.0002835523737709367, "loss": 3.9264, "step": 73920 }, { "epoch": 0.15402083333333333, "grad_norm": 0.7477697730064392, "learning_rate": 0.000283547885096134, "loss": 3.9181, "step": 73930 }, { "epoch": 0.15404166666666666, "grad_norm": 0.708919107913971, "learning_rate": 0.0002835433958444574, "loss": 3.8325, "step": 73940 }, { "epoch": 0.1540625, "grad_norm": 0.8785334229469299, "learning_rate": 0.00028353890601592614, "loss": 3.9662, "step": 73950 }, { "epoch": 0.15408333333333332, "grad_norm": 0.7577531933784485, "learning_rate": 0.00028353441561055964, "loss": 3.7741, "step": 73960 }, { "epoch": 0.15410416666666665, "grad_norm": 0.7160803079605103, "learning_rate": 0.00028352992462837736, "loss": 3.947, "step": 73970 }, { "epoch": 0.154125, "grad_norm": 0.7292088270187378, "learning_rate": 0.0002835254330693986, "loss": 4.0908, "step": 73980 }, { "epoch": 0.15414583333333334, "grad_norm": 0.671909749507904, "learning_rate": 0.0002835209409336429, "loss": 4.0251, "step": 73990 }, { "epoch": 0.15416666666666667, "grad_norm": 0.6892721652984619, "learning_rate": 0.0002835164482211295, "loss": 4.0327, "step": 74000 }, { "epoch": 0.15416666666666667, "eval_loss": 4.283780574798584, "eval_runtime": 10.0265, "eval_samples_per_second": 0.997, "eval_steps_per_second": 0.299, "step": 74000 }, { "epoch": 0.1541875, "grad_norm": 0.7777121067047119, "learning_rate": 0.00028351195493187795, "loss": 3.895, "step": 74010 }, { "epoch": 0.15420833333333334, "grad_norm": 0.733920693397522, "learning_rate": 0.00028350746106590763, "loss": 4.0647, "step": 74020 }, { "epoch": 0.15422916666666667, "grad_norm": 0.6507008671760559, "learning_rate": 0.00028350296662323787, "loss": 3.8509, "step": 74030 }, { "epoch": 0.15425, "grad_norm": 0.833376944065094, "learning_rate": 0.0002834984716038882, "loss": 4.0186, "step": 74040 }, { "epoch": 0.15427083333333333, "grad_norm": 0.8900867104530334, "learning_rate": 0.00028349397600787793, "loss": 4.1141, "step": 74050 }, { "epoch": 0.15429166666666666, "grad_norm": 0.7419366836547852, "learning_rate": 0.0002834894798352265, "loss": 4.0453, "step": 74060 }, { "epoch": 0.1543125, "grad_norm": 0.6885731220245361, "learning_rate": 0.0002834849830859534, "loss": 4.1278, "step": 74070 }, { "epoch": 0.15433333333333332, "grad_norm": 0.9258619546890259, "learning_rate": 0.000283480485760078, "loss": 3.8765, "step": 74080 }, { "epoch": 0.15435416666666665, "grad_norm": 0.7779691219329834, "learning_rate": 0.00028347598785761975, "loss": 4.0027, "step": 74090 }, { "epoch": 0.154375, "grad_norm": 0.8266304135322571, "learning_rate": 0.000283471489378598, "loss": 3.8708, "step": 74100 }, { "epoch": 0.15439583333333334, "grad_norm": 0.7437942028045654, "learning_rate": 0.0002834669903230323, "loss": 3.6922, "step": 74110 }, { "epoch": 0.15441666666666667, "grad_norm": 0.7675392031669617, "learning_rate": 0.00028346249069094204, "loss": 4.0626, "step": 74120 }, { "epoch": 0.1544375, "grad_norm": 0.7813106775283813, "learning_rate": 0.0002834579904823467, "loss": 4.1491, "step": 74130 }, { "epoch": 0.15445833333333334, "grad_norm": 0.7985984086990356, "learning_rate": 0.00028345348969726556, "loss": 4.0049, "step": 74140 }, { "epoch": 0.15447916666666667, "grad_norm": 0.7868517637252808, "learning_rate": 0.00028344898833571817, "loss": 4.0591, "step": 74150 }, { "epoch": 0.1545, "grad_norm": 0.798766553401947, "learning_rate": 0.000283444486397724, "loss": 3.9644, "step": 74160 }, { "epoch": 0.15452083333333333, "grad_norm": 0.7904515862464905, "learning_rate": 0.0002834399838833025, "loss": 4.0561, "step": 74170 }, { "epoch": 0.15454166666666666, "grad_norm": 0.8406566977500916, "learning_rate": 0.00028343548079247307, "loss": 3.8442, "step": 74180 }, { "epoch": 0.1545625, "grad_norm": 0.8060728311538696, "learning_rate": 0.0002834309771252552, "loss": 3.849, "step": 74190 }, { "epoch": 0.15458333333333332, "grad_norm": 0.741301953792572, "learning_rate": 0.0002834264728816683, "loss": 4.0383, "step": 74200 }, { "epoch": 0.15460416666666665, "grad_norm": 0.6978849172592163, "learning_rate": 0.00028342196806173186, "loss": 3.8633, "step": 74210 }, { "epoch": 0.154625, "grad_norm": 0.861434280872345, "learning_rate": 0.00028341746266546535, "loss": 4.0145, "step": 74220 }, { "epoch": 0.15464583333333334, "grad_norm": 0.6940504312515259, "learning_rate": 0.0002834129566928882, "loss": 4.129, "step": 74230 }, { "epoch": 0.15466666666666667, "grad_norm": 0.7726131081581116, "learning_rate": 0.00028340845014401985, "loss": 3.9589, "step": 74240 }, { "epoch": 0.1546875, "grad_norm": 0.7230958342552185, "learning_rate": 0.00028340394301887983, "loss": 3.9849, "step": 74250 }, { "epoch": 0.15470833333333334, "grad_norm": 0.839603841304779, "learning_rate": 0.0002833994353174876, "loss": 3.9395, "step": 74260 }, { "epoch": 0.15472916666666667, "grad_norm": 0.852306067943573, "learning_rate": 0.0002833949270398626, "loss": 3.8796, "step": 74270 }, { "epoch": 0.15475, "grad_norm": 0.7826898097991943, "learning_rate": 0.0002833904181860243, "loss": 3.9891, "step": 74280 }, { "epoch": 0.15477083333333333, "grad_norm": 0.7693696022033691, "learning_rate": 0.00028338590875599215, "loss": 4.034, "step": 74290 }, { "epoch": 0.15479166666666666, "grad_norm": 1.066893458366394, "learning_rate": 0.0002833813987497857, "loss": 4.0199, "step": 74300 }, { "epoch": 0.1548125, "grad_norm": 0.8082525134086609, "learning_rate": 0.00028337688816742443, "loss": 4.0038, "step": 74310 }, { "epoch": 0.15483333333333332, "grad_norm": 0.7809162735939026, "learning_rate": 0.0002833723770089278, "loss": 3.8246, "step": 74320 }, { "epoch": 0.15485416666666665, "grad_norm": 0.7808398008346558, "learning_rate": 0.00028336786527431533, "loss": 3.7959, "step": 74330 }, { "epoch": 0.154875, "grad_norm": 0.764299750328064, "learning_rate": 0.00028336335296360644, "loss": 3.9448, "step": 74340 }, { "epoch": 0.15489583333333334, "grad_norm": 0.9053197503089905, "learning_rate": 0.00028335884007682065, "loss": 3.8515, "step": 74350 }, { "epoch": 0.15491666666666667, "grad_norm": 0.7905935645103455, "learning_rate": 0.00028335432661397744, "loss": 3.8667, "step": 74360 }, { "epoch": 0.1549375, "grad_norm": 0.7395516633987427, "learning_rate": 0.00028334981257509636, "loss": 4.0472, "step": 74370 }, { "epoch": 0.15495833333333334, "grad_norm": 0.7712090015411377, "learning_rate": 0.00028334529796019683, "loss": 3.9215, "step": 74380 }, { "epoch": 0.15497916666666667, "grad_norm": 0.7608568668365479, "learning_rate": 0.0002833407827692984, "loss": 3.9064, "step": 74390 }, { "epoch": 0.155, "grad_norm": 0.8871476054191589, "learning_rate": 0.0002833362670024206, "loss": 3.8726, "step": 74400 }, { "epoch": 0.15502083333333333, "grad_norm": 0.8368592262268066, "learning_rate": 0.0002833317506595829, "loss": 3.8461, "step": 74410 }, { "epoch": 0.15504166666666666, "grad_norm": 0.9319838285446167, "learning_rate": 0.00028332723374080475, "loss": 3.9123, "step": 74420 }, { "epoch": 0.1550625, "grad_norm": 0.8985961079597473, "learning_rate": 0.0002833227162461058, "loss": 3.9965, "step": 74430 }, { "epoch": 0.15508333333333332, "grad_norm": 0.7412881255149841, "learning_rate": 0.0002833181981755055, "loss": 4.1284, "step": 74440 }, { "epoch": 0.15510416666666665, "grad_norm": 0.8004097938537598, "learning_rate": 0.00028331367952902326, "loss": 3.9482, "step": 74450 }, { "epoch": 0.155125, "grad_norm": 0.7659456133842468, "learning_rate": 0.0002833091603066788, "loss": 3.7329, "step": 74460 }, { "epoch": 0.15514583333333334, "grad_norm": 0.9894313216209412, "learning_rate": 0.00028330464050849147, "loss": 4.0193, "step": 74470 }, { "epoch": 0.15516666666666667, "grad_norm": 0.7359451651573181, "learning_rate": 0.00028330012013448087, "loss": 4.1081, "step": 74480 }, { "epoch": 0.1551875, "grad_norm": 0.9135481715202332, "learning_rate": 0.00028329559918466654, "loss": 3.8511, "step": 74490 }, { "epoch": 0.15520833333333334, "grad_norm": 0.8564267158508301, "learning_rate": 0.00028329107765906795, "loss": 3.7711, "step": 74500 }, { "epoch": 0.15522916666666667, "grad_norm": 0.7380326390266418, "learning_rate": 0.0002832865555577047, "loss": 4.1417, "step": 74510 }, { "epoch": 0.15525, "grad_norm": 0.7813717126846313, "learning_rate": 0.00028328203288059624, "loss": 4.0239, "step": 74520 }, { "epoch": 0.15527083333333333, "grad_norm": 0.8706365823745728, "learning_rate": 0.0002832775096277622, "loss": 3.968, "step": 74530 }, { "epoch": 0.15529166666666666, "grad_norm": 0.9258253574371338, "learning_rate": 0.00028327298579922203, "loss": 3.881, "step": 74540 }, { "epoch": 0.1553125, "grad_norm": 0.7382897138595581, "learning_rate": 0.00028326846139499533, "loss": 3.8864, "step": 74550 }, { "epoch": 0.15533333333333332, "grad_norm": 0.7979393005371094, "learning_rate": 0.00028326393641510167, "loss": 3.9732, "step": 74560 }, { "epoch": 0.15535416666666665, "grad_norm": 0.7758294343948364, "learning_rate": 0.0002832594108595605, "loss": 3.9235, "step": 74570 }, { "epoch": 0.155375, "grad_norm": 0.8742675185203552, "learning_rate": 0.00028325488472839144, "loss": 3.8543, "step": 74580 }, { "epoch": 0.15539583333333334, "grad_norm": 0.8914968967437744, "learning_rate": 0.00028325035802161406, "loss": 4.0674, "step": 74590 }, { "epoch": 0.15541666666666668, "grad_norm": 0.726053774356842, "learning_rate": 0.00028324583073924785, "loss": 4.0089, "step": 74600 }, { "epoch": 0.1554375, "grad_norm": 0.7506197094917297, "learning_rate": 0.0002832413028813124, "loss": 4.052, "step": 74610 }, { "epoch": 0.15545833333333334, "grad_norm": 0.8418910503387451, "learning_rate": 0.00028323677444782723, "loss": 4.0174, "step": 74620 }, { "epoch": 0.15547916666666667, "grad_norm": 0.7669274806976318, "learning_rate": 0.000283232245438812, "loss": 3.9461, "step": 74630 }, { "epoch": 0.1555, "grad_norm": 0.9000797867774963, "learning_rate": 0.0002832277158542861, "loss": 4.0901, "step": 74640 }, { "epoch": 0.15552083333333333, "grad_norm": 0.8246632814407349, "learning_rate": 0.0002832231856942693, "loss": 3.9433, "step": 74650 }, { "epoch": 0.15554166666666666, "grad_norm": 0.7363452911376953, "learning_rate": 0.000283218654958781, "loss": 4.0827, "step": 74660 }, { "epoch": 0.1555625, "grad_norm": 0.883378267288208, "learning_rate": 0.0002832141236478409, "loss": 4.0913, "step": 74670 }, { "epoch": 0.15558333333333332, "grad_norm": 0.7422046661376953, "learning_rate": 0.0002832095917614685, "loss": 3.9332, "step": 74680 }, { "epoch": 0.15560416666666665, "grad_norm": 0.7264895439147949, "learning_rate": 0.0002832050592996834, "loss": 3.9544, "step": 74690 }, { "epoch": 0.155625, "grad_norm": 0.8372377157211304, "learning_rate": 0.00028320052626250514, "loss": 3.9209, "step": 74700 }, { "epoch": 0.15564583333333334, "grad_norm": 0.7496258020401001, "learning_rate": 0.00028319599264995337, "loss": 4.0893, "step": 74710 }, { "epoch": 0.15566666666666668, "grad_norm": 0.7789977788925171, "learning_rate": 0.0002831914584620476, "loss": 3.8135, "step": 74720 }, { "epoch": 0.1556875, "grad_norm": 0.8583061695098877, "learning_rate": 0.00028318692369880743, "loss": 4.1, "step": 74730 }, { "epoch": 0.15570833333333334, "grad_norm": 0.8171669244766235, "learning_rate": 0.0002831823883602525, "loss": 3.9395, "step": 74740 }, { "epoch": 0.15572916666666667, "grad_norm": 0.7158638834953308, "learning_rate": 0.0002831778524464024, "loss": 3.9229, "step": 74750 }, { "epoch": 0.15575, "grad_norm": 0.9157170653343201, "learning_rate": 0.0002831733159572767, "loss": 3.9164, "step": 74760 }, { "epoch": 0.15577083333333333, "grad_norm": 0.7919090390205383, "learning_rate": 0.00028316877889289493, "loss": 3.8648, "step": 74770 }, { "epoch": 0.15579166666666666, "grad_norm": 0.7721575498580933, "learning_rate": 0.00028316424125327677, "loss": 3.8953, "step": 74780 }, { "epoch": 0.1558125, "grad_norm": 0.759651243686676, "learning_rate": 0.00028315970303844176, "loss": 4.0241, "step": 74790 }, { "epoch": 0.15583333333333332, "grad_norm": 0.7491286993026733, "learning_rate": 0.00028315516424840963, "loss": 3.9421, "step": 74800 }, { "epoch": 0.15585416666666665, "grad_norm": 0.7453456521034241, "learning_rate": 0.00028315062488319984, "loss": 3.9273, "step": 74810 }, { "epoch": 0.155875, "grad_norm": 0.6912851333618164, "learning_rate": 0.000283146084942832, "loss": 3.9494, "step": 74820 }, { "epoch": 0.15589583333333334, "grad_norm": 0.9785271883010864, "learning_rate": 0.00028314154442732586, "loss": 3.7434, "step": 74830 }, { "epoch": 0.15591666666666668, "grad_norm": 0.7941310405731201, "learning_rate": 0.0002831370033367009, "loss": 3.8623, "step": 74840 }, { "epoch": 0.1559375, "grad_norm": 0.8088726997375488, "learning_rate": 0.00028313246167097685, "loss": 3.8937, "step": 74850 }, { "epoch": 0.15595833333333334, "grad_norm": 0.7639140486717224, "learning_rate": 0.0002831279194301732, "loss": 3.9745, "step": 74860 }, { "epoch": 0.15597916666666667, "grad_norm": 0.8269873857498169, "learning_rate": 0.00028312337661430965, "loss": 4.0387, "step": 74870 }, { "epoch": 0.156, "grad_norm": 0.7784593105316162, "learning_rate": 0.0002831188332234058, "loss": 4.2092, "step": 74880 }, { "epoch": 0.15602083333333333, "grad_norm": 0.7027403712272644, "learning_rate": 0.00028311428925748136, "loss": 3.8101, "step": 74890 }, { "epoch": 0.15604166666666666, "grad_norm": 0.6909337639808655, "learning_rate": 0.00028310974471655576, "loss": 4.0768, "step": 74900 }, { "epoch": 0.1560625, "grad_norm": 0.7203516960144043, "learning_rate": 0.0002831051996006488, "loss": 3.9196, "step": 74910 }, { "epoch": 0.15608333333333332, "grad_norm": 0.7892189621925354, "learning_rate": 0.0002831006539097801, "loss": 3.9966, "step": 74920 }, { "epoch": 0.15610416666666665, "grad_norm": 0.7794607877731323, "learning_rate": 0.0002830961076439692, "loss": 3.8825, "step": 74930 }, { "epoch": 0.156125, "grad_norm": 0.801398515701294, "learning_rate": 0.00028309156080323584, "loss": 4.1467, "step": 74940 }, { "epoch": 0.15614583333333334, "grad_norm": 0.899466872215271, "learning_rate": 0.00028308701338759963, "loss": 4.0464, "step": 74950 }, { "epoch": 0.15616666666666668, "grad_norm": 0.8653557300567627, "learning_rate": 0.0002830824653970802, "loss": 4.194, "step": 74960 }, { "epoch": 0.1561875, "grad_norm": 0.7732663750648499, "learning_rate": 0.00028307791683169716, "loss": 4.0648, "step": 74970 }, { "epoch": 0.15620833333333334, "grad_norm": 0.7247009873390198, "learning_rate": 0.0002830733676914702, "loss": 3.8168, "step": 74980 }, { "epoch": 0.15622916666666667, "grad_norm": 0.8430490493774414, "learning_rate": 0.000283068817976419, "loss": 4.0307, "step": 74990 }, { "epoch": 0.15625, "grad_norm": 0.9032727479934692, "learning_rate": 0.00028306426768656315, "loss": 4.0919, "step": 75000 }, { "epoch": 0.15625, "eval_loss": 4.294827461242676, "eval_runtime": 10.3173, "eval_samples_per_second": 0.969, "eval_steps_per_second": 0.291, "step": 75000 }, { "epoch": 0.15627083333333333, "grad_norm": 0.7757003307342529, "learning_rate": 0.00028305971682192235, "loss": 4.1201, "step": 75010 }, { "epoch": 0.15629166666666666, "grad_norm": 0.7746261358261108, "learning_rate": 0.0002830551653825162, "loss": 3.9816, "step": 75020 }, { "epoch": 0.1563125, "grad_norm": 0.9182020425796509, "learning_rate": 0.0002830506133683645, "loss": 4.0319, "step": 75030 }, { "epoch": 0.15633333333333332, "grad_norm": 0.7626779675483704, "learning_rate": 0.0002830460607794867, "loss": 4.0332, "step": 75040 }, { "epoch": 0.15635416666666666, "grad_norm": 0.7736157178878784, "learning_rate": 0.00028304150761590264, "loss": 3.831, "step": 75050 }, { "epoch": 0.156375, "grad_norm": 0.8082687258720398, "learning_rate": 0.00028303695387763196, "loss": 3.9608, "step": 75060 }, { "epoch": 0.15639583333333335, "grad_norm": 0.7461254000663757, "learning_rate": 0.0002830323995646943, "loss": 3.9867, "step": 75070 }, { "epoch": 0.15641666666666668, "grad_norm": 0.931937038898468, "learning_rate": 0.0002830278446771092, "loss": 3.9162, "step": 75080 }, { "epoch": 0.1564375, "grad_norm": 0.7474852204322815, "learning_rate": 0.0002830232892148966, "loss": 3.9125, "step": 75090 }, { "epoch": 0.15645833333333334, "grad_norm": 0.9105162620544434, "learning_rate": 0.000283018733178076, "loss": 3.9957, "step": 75100 }, { "epoch": 0.15647916666666667, "grad_norm": 0.9142236113548279, "learning_rate": 0.0002830141765666671, "loss": 4.0368, "step": 75110 }, { "epoch": 0.1565, "grad_norm": 0.7089110612869263, "learning_rate": 0.00028300961938068967, "loss": 3.8386, "step": 75120 }, { "epoch": 0.15652083333333333, "grad_norm": 0.7883853912353516, "learning_rate": 0.0002830050616201633, "loss": 4.0413, "step": 75130 }, { "epoch": 0.15654166666666666, "grad_norm": 0.7496956586837769, "learning_rate": 0.0002830005032851077, "loss": 3.9571, "step": 75140 }, { "epoch": 0.1565625, "grad_norm": 0.8716757297515869, "learning_rate": 0.0002829959443755426, "loss": 4.1665, "step": 75150 }, { "epoch": 0.15658333333333332, "grad_norm": 0.8706633448600769, "learning_rate": 0.0002829913848914876, "loss": 3.8684, "step": 75160 }, { "epoch": 0.15660416666666666, "grad_norm": 0.7000560164451599, "learning_rate": 0.0002829868248329625, "loss": 4.0183, "step": 75170 }, { "epoch": 0.156625, "grad_norm": 0.743086576461792, "learning_rate": 0.000282982264199987, "loss": 3.9112, "step": 75180 }, { "epoch": 0.15664583333333335, "grad_norm": 0.8093251585960388, "learning_rate": 0.0002829777029925807, "loss": 3.8349, "step": 75190 }, { "epoch": 0.15666666666666668, "grad_norm": 0.7323092222213745, "learning_rate": 0.0002829731412107634, "loss": 3.8805, "step": 75200 }, { "epoch": 0.1566875, "grad_norm": 0.884686291217804, "learning_rate": 0.0002829685788545547, "loss": 4.1359, "step": 75210 }, { "epoch": 0.15670833333333334, "grad_norm": 0.7528038620948792, "learning_rate": 0.0002829640159239744, "loss": 4.0419, "step": 75220 }, { "epoch": 0.15672916666666667, "grad_norm": 0.8092496395111084, "learning_rate": 0.0002829594524190422, "loss": 3.9373, "step": 75230 }, { "epoch": 0.15675, "grad_norm": 0.7876416444778442, "learning_rate": 0.0002829548883397778, "loss": 4.1648, "step": 75240 }, { "epoch": 0.15677083333333333, "grad_norm": 0.7210633158683777, "learning_rate": 0.0002829503236862009, "loss": 3.8416, "step": 75250 }, { "epoch": 0.15679166666666666, "grad_norm": 0.7232616543769836, "learning_rate": 0.00028294575845833124, "loss": 4.0833, "step": 75260 }, { "epoch": 0.1568125, "grad_norm": 0.7114320397377014, "learning_rate": 0.0002829411926561885, "loss": 3.8361, "step": 75270 }, { "epoch": 0.15683333333333332, "grad_norm": 0.7165527939796448, "learning_rate": 0.0002829366262797925, "loss": 3.832, "step": 75280 }, { "epoch": 0.15685416666666666, "grad_norm": 0.7345494627952576, "learning_rate": 0.0002829320593291628, "loss": 4.1464, "step": 75290 }, { "epoch": 0.156875, "grad_norm": 0.9463992714881897, "learning_rate": 0.00028292749180431926, "loss": 3.9632, "step": 75300 }, { "epoch": 0.15689583333333335, "grad_norm": 0.759655237197876, "learning_rate": 0.00028292292370528155, "loss": 4.0121, "step": 75310 }, { "epoch": 0.15691666666666668, "grad_norm": 0.7070793509483337, "learning_rate": 0.00028291835503206945, "loss": 3.8624, "step": 75320 }, { "epoch": 0.1569375, "grad_norm": 0.7248652577400208, "learning_rate": 0.00028291378578470264, "loss": 3.9107, "step": 75330 }, { "epoch": 0.15695833333333334, "grad_norm": 0.7431178092956543, "learning_rate": 0.00028290921596320096, "loss": 4.0116, "step": 75340 }, { "epoch": 0.15697916666666667, "grad_norm": 0.7796943187713623, "learning_rate": 0.000282904645567584, "loss": 3.925, "step": 75350 }, { "epoch": 0.157, "grad_norm": 0.7473316788673401, "learning_rate": 0.0002829000745978716, "loss": 3.9615, "step": 75360 }, { "epoch": 0.15702083333333333, "grad_norm": 0.8708781003952026, "learning_rate": 0.0002828955030540835, "loss": 4.0168, "step": 75370 }, { "epoch": 0.15704166666666666, "grad_norm": 0.7890445590019226, "learning_rate": 0.00028289093093623944, "loss": 3.8572, "step": 75380 }, { "epoch": 0.1570625, "grad_norm": 0.7362475991249084, "learning_rate": 0.00028288635824435913, "loss": 4.1805, "step": 75390 }, { "epoch": 0.15708333333333332, "grad_norm": 0.8462713956832886, "learning_rate": 0.00028288178497846235, "loss": 3.9365, "step": 75400 }, { "epoch": 0.15710416666666666, "grad_norm": 0.8394783139228821, "learning_rate": 0.0002828772111385689, "loss": 3.9892, "step": 75410 }, { "epoch": 0.157125, "grad_norm": 0.8036385774612427, "learning_rate": 0.00028287263672469845, "loss": 3.8587, "step": 75420 }, { "epoch": 0.15714583333333335, "grad_norm": 0.7561196088790894, "learning_rate": 0.0002828680617368708, "loss": 3.9055, "step": 75430 }, { "epoch": 0.15716666666666668, "grad_norm": 0.7310805320739746, "learning_rate": 0.0002828634861751057, "loss": 4.1096, "step": 75440 }, { "epoch": 0.1571875, "grad_norm": 0.8661282658576965, "learning_rate": 0.000282858910039423, "loss": 4.0184, "step": 75450 }, { "epoch": 0.15720833333333334, "grad_norm": 0.732476532459259, "learning_rate": 0.0002828543333298424, "loss": 3.892, "step": 75460 }, { "epoch": 0.15722916666666667, "grad_norm": 0.8299885988235474, "learning_rate": 0.0002828497560463836, "loss": 4.0139, "step": 75470 }, { "epoch": 0.15725, "grad_norm": 0.7175517082214355, "learning_rate": 0.00028284517818906647, "loss": 3.9803, "step": 75480 }, { "epoch": 0.15727083333333333, "grad_norm": 0.7774081230163574, "learning_rate": 0.00028284059975791073, "loss": 3.923, "step": 75490 }, { "epoch": 0.15729166666666666, "grad_norm": 0.7744555473327637, "learning_rate": 0.0002828360207529362, "loss": 3.987, "step": 75500 }, { "epoch": 0.1573125, "grad_norm": 0.8110352754592896, "learning_rate": 0.0002828314411741627, "loss": 4.0954, "step": 75510 }, { "epoch": 0.15733333333333333, "grad_norm": 0.7841536998748779, "learning_rate": 0.0002828268610216099, "loss": 4.0763, "step": 75520 }, { "epoch": 0.15735416666666666, "grad_norm": 0.7307306528091431, "learning_rate": 0.00028282228029529756, "loss": 4.0889, "step": 75530 }, { "epoch": 0.157375, "grad_norm": 0.7668660283088684, "learning_rate": 0.0002828176989952457, "loss": 3.8062, "step": 75540 }, { "epoch": 0.15739583333333335, "grad_norm": 1.111364483833313, "learning_rate": 0.0002828131171214738, "loss": 4.0511, "step": 75550 }, { "epoch": 0.15741666666666668, "grad_norm": 0.9632977843284607, "learning_rate": 0.0002828085346740019, "loss": 4.1244, "step": 75560 }, { "epoch": 0.1574375, "grad_norm": 0.7989946603775024, "learning_rate": 0.00028280395165284966, "loss": 3.9036, "step": 75570 }, { "epoch": 0.15745833333333334, "grad_norm": 0.863825261592865, "learning_rate": 0.00028279936805803693, "loss": 3.9993, "step": 75580 }, { "epoch": 0.15747916666666667, "grad_norm": 0.6984753012657166, "learning_rate": 0.00028279478388958346, "loss": 4.0045, "step": 75590 }, { "epoch": 0.1575, "grad_norm": 0.6629810333251953, "learning_rate": 0.00028279019914750913, "loss": 4.0051, "step": 75600 }, { "epoch": 0.15752083333333333, "grad_norm": 0.8555633425712585, "learning_rate": 0.00028278561383183375, "loss": 3.8364, "step": 75610 }, { "epoch": 0.15754166666666666, "grad_norm": 0.8599917888641357, "learning_rate": 0.000282781027942577, "loss": 3.9253, "step": 75620 }, { "epoch": 0.1575625, "grad_norm": 0.6819707155227661, "learning_rate": 0.0002827764414797588, "loss": 3.9887, "step": 75630 }, { "epoch": 0.15758333333333333, "grad_norm": 0.7660525441169739, "learning_rate": 0.0002827718544433989, "loss": 3.9117, "step": 75640 }, { "epoch": 0.15760416666666666, "grad_norm": 0.7988559603691101, "learning_rate": 0.0002827672668335172, "loss": 4.1743, "step": 75650 }, { "epoch": 0.157625, "grad_norm": 0.7464930415153503, "learning_rate": 0.0002827626786501334, "loss": 3.9746, "step": 75660 }, { "epoch": 0.15764583333333335, "grad_norm": 0.7660095691680908, "learning_rate": 0.00028275808989326745, "loss": 4.0881, "step": 75670 }, { "epoch": 0.15766666666666668, "grad_norm": 0.754641592502594, "learning_rate": 0.00028275350056293903, "loss": 3.9551, "step": 75680 }, { "epoch": 0.1576875, "grad_norm": 0.8997551202774048, "learning_rate": 0.00028274891065916807, "loss": 3.9043, "step": 75690 }, { "epoch": 0.15770833333333334, "grad_norm": 0.707555890083313, "learning_rate": 0.00028274432018197433, "loss": 3.9313, "step": 75700 }, { "epoch": 0.15772916666666667, "grad_norm": 0.6391733884811401, "learning_rate": 0.0002827397291313777, "loss": 4.0724, "step": 75710 }, { "epoch": 0.15775, "grad_norm": 0.7472472190856934, "learning_rate": 0.000282735137507398, "loss": 4.0522, "step": 75720 }, { "epoch": 0.15777083333333333, "grad_norm": 0.8960394859313965, "learning_rate": 0.000282730545310055, "loss": 3.9112, "step": 75730 }, { "epoch": 0.15779166666666666, "grad_norm": 0.7747138142585754, "learning_rate": 0.0002827259525393686, "loss": 4.1642, "step": 75740 }, { "epoch": 0.1578125, "grad_norm": 0.9636256098747253, "learning_rate": 0.0002827213591953586, "loss": 3.8899, "step": 75750 }, { "epoch": 0.15783333333333333, "grad_norm": 0.739754855632782, "learning_rate": 0.0002827167652780449, "loss": 3.9994, "step": 75760 }, { "epoch": 0.15785416666666666, "grad_norm": 0.7010102868080139, "learning_rate": 0.0002827121707874473, "loss": 3.9364, "step": 75770 }, { "epoch": 0.157875, "grad_norm": 0.717714250087738, "learning_rate": 0.00028270757572358566, "loss": 3.8546, "step": 75780 }, { "epoch": 0.15789583333333335, "grad_norm": 0.8208504915237427, "learning_rate": 0.0002827029800864798, "loss": 3.9711, "step": 75790 }, { "epoch": 0.15791666666666668, "grad_norm": 0.7008508443832397, "learning_rate": 0.00028269838387614963, "loss": 3.9697, "step": 75800 }, { "epoch": 0.1579375, "grad_norm": 0.8128792643547058, "learning_rate": 0.0002826937870926149, "loss": 4.0092, "step": 75810 }, { "epoch": 0.15795833333333334, "grad_norm": 0.7969948053359985, "learning_rate": 0.0002826891897358956, "loss": 4.0281, "step": 75820 }, { "epoch": 0.15797916666666667, "grad_norm": 0.8015409111976624, "learning_rate": 0.0002826845918060115, "loss": 4.0891, "step": 75830 }, { "epoch": 0.158, "grad_norm": 0.8711457848548889, "learning_rate": 0.0002826799933029825, "loss": 3.9759, "step": 75840 }, { "epoch": 0.15802083333333333, "grad_norm": 0.7980551719665527, "learning_rate": 0.00028267539422682845, "loss": 4.0469, "step": 75850 }, { "epoch": 0.15804166666666666, "grad_norm": 0.8307015299797058, "learning_rate": 0.00028267079457756916, "loss": 4.1748, "step": 75860 }, { "epoch": 0.1580625, "grad_norm": 0.7450071573257446, "learning_rate": 0.00028266619435522456, "loss": 3.8955, "step": 75870 }, { "epoch": 0.15808333333333333, "grad_norm": 0.8116423487663269, "learning_rate": 0.00028266159355981455, "loss": 4.0846, "step": 75880 }, { "epoch": 0.15810416666666666, "grad_norm": 0.7603946328163147, "learning_rate": 0.00028265699219135897, "loss": 3.9982, "step": 75890 }, { "epoch": 0.158125, "grad_norm": 1.1051918268203735, "learning_rate": 0.00028265239024987765, "loss": 3.8064, "step": 75900 }, { "epoch": 0.15814583333333335, "grad_norm": 0.8650094270706177, "learning_rate": 0.00028264778773539055, "loss": 3.8878, "step": 75910 }, { "epoch": 0.15816666666666668, "grad_norm": 0.6954330801963806, "learning_rate": 0.0002826431846479175, "loss": 3.9075, "step": 75920 }, { "epoch": 0.1581875, "grad_norm": 0.7248063087463379, "learning_rate": 0.0002826385809874784, "loss": 4.0262, "step": 75930 }, { "epoch": 0.15820833333333334, "grad_norm": 0.7589444518089294, "learning_rate": 0.0002826339767540931, "loss": 3.9346, "step": 75940 }, { "epoch": 0.15822916666666667, "grad_norm": 0.8581456542015076, "learning_rate": 0.0002826293719477816, "loss": 3.8324, "step": 75950 }, { "epoch": 0.15825, "grad_norm": 0.8212421536445618, "learning_rate": 0.00028262476656856365, "loss": 3.9996, "step": 75960 }, { "epoch": 0.15827083333333333, "grad_norm": 0.7714158892631531, "learning_rate": 0.00028262016061645923, "loss": 3.9726, "step": 75970 }, { "epoch": 0.15829166666666666, "grad_norm": 0.8194051384925842, "learning_rate": 0.0002826155540914882, "loss": 3.8854, "step": 75980 }, { "epoch": 0.1583125, "grad_norm": 0.7520144581794739, "learning_rate": 0.0002826109469936704, "loss": 3.9951, "step": 75990 }, { "epoch": 0.15833333333333333, "grad_norm": 0.7012163400650024, "learning_rate": 0.0002826063393230259, "loss": 3.9199, "step": 76000 }, { "epoch": 0.15833333333333333, "eval_loss": 4.272346496582031, "eval_runtime": 10.0944, "eval_samples_per_second": 0.991, "eval_steps_per_second": 0.297, "step": 76000 }, { "epoch": 0.15835416666666666, "grad_norm": 0.7953590750694275, "learning_rate": 0.00028260173107957454, "loss": 3.9434, "step": 76010 }, { "epoch": 0.158375, "grad_norm": 0.7307195663452148, "learning_rate": 0.00028259712226333606, "loss": 4.0165, "step": 76020 }, { "epoch": 0.15839583333333335, "grad_norm": 0.6790753602981567, "learning_rate": 0.0002825925128743306, "loss": 3.9749, "step": 76030 }, { "epoch": 0.15841666666666668, "grad_norm": 0.810470700263977, "learning_rate": 0.0002825879029125779, "loss": 3.861, "step": 76040 }, { "epoch": 0.1584375, "grad_norm": 0.7752151489257812, "learning_rate": 0.00028258329237809796, "loss": 3.8787, "step": 76050 }, { "epoch": 0.15845833333333334, "grad_norm": 0.7679166793823242, "learning_rate": 0.0002825786812709107, "loss": 3.9744, "step": 76060 }, { "epoch": 0.15847916666666667, "grad_norm": 0.71307373046875, "learning_rate": 0.000282574069591036, "loss": 4.014, "step": 76070 }, { "epoch": 0.1585, "grad_norm": 1.0094187259674072, "learning_rate": 0.0002825694573384938, "loss": 4.1499, "step": 76080 }, { "epoch": 0.15852083333333333, "grad_norm": 0.8448809385299683, "learning_rate": 0.00028256484451330403, "loss": 3.8072, "step": 76090 }, { "epoch": 0.15854166666666666, "grad_norm": 0.7933937311172485, "learning_rate": 0.00028256023111548656, "loss": 3.8486, "step": 76100 }, { "epoch": 0.1585625, "grad_norm": 0.9107272028923035, "learning_rate": 0.0002825556171450614, "loss": 4.1473, "step": 76110 }, { "epoch": 0.15858333333333333, "grad_norm": 0.7458012104034424, "learning_rate": 0.00028255100260204843, "loss": 3.9965, "step": 76120 }, { "epoch": 0.15860416666666666, "grad_norm": 0.9108791351318359, "learning_rate": 0.0002825463874864676, "loss": 4.1176, "step": 76130 }, { "epoch": 0.158625, "grad_norm": 0.7635220885276794, "learning_rate": 0.0002825417717983388, "loss": 3.8508, "step": 76140 }, { "epoch": 0.15864583333333335, "grad_norm": 0.7483041286468506, "learning_rate": 0.0002825371555376821, "loss": 3.8851, "step": 76150 }, { "epoch": 0.15866666666666668, "grad_norm": 0.7423616051673889, "learning_rate": 0.0002825325387045173, "loss": 4.0143, "step": 76160 }, { "epoch": 0.1586875, "grad_norm": 0.734764814376831, "learning_rate": 0.0002825279212988644, "loss": 3.9756, "step": 76170 }, { "epoch": 0.15870833333333334, "grad_norm": 0.6881306767463684, "learning_rate": 0.0002825233033207433, "loss": 3.8625, "step": 76180 }, { "epoch": 0.15872916666666667, "grad_norm": 0.7634227871894836, "learning_rate": 0.00028251868477017404, "loss": 4.0287, "step": 76190 }, { "epoch": 0.15875, "grad_norm": 0.9399139881134033, "learning_rate": 0.0002825140656471765, "loss": 4.0365, "step": 76200 }, { "epoch": 0.15877083333333333, "grad_norm": 0.7672933340072632, "learning_rate": 0.0002825094459517706, "loss": 3.8002, "step": 76210 }, { "epoch": 0.15879166666666666, "grad_norm": 0.8738235831260681, "learning_rate": 0.00028250482568397637, "loss": 3.9399, "step": 76220 }, { "epoch": 0.1588125, "grad_norm": 0.8719350099563599, "learning_rate": 0.0002825002048438138, "loss": 4.0996, "step": 76230 }, { "epoch": 0.15883333333333333, "grad_norm": 0.9176362156867981, "learning_rate": 0.00028249558343130274, "loss": 3.9686, "step": 76240 }, { "epoch": 0.15885416666666666, "grad_norm": 0.7847700715065002, "learning_rate": 0.00028249096144646323, "loss": 3.9953, "step": 76250 }, { "epoch": 0.158875, "grad_norm": 0.851382851600647, "learning_rate": 0.0002824863388893152, "loss": 3.9484, "step": 76260 }, { "epoch": 0.15889583333333332, "grad_norm": 0.9926491975784302, "learning_rate": 0.0002824817157598786, "loss": 3.9231, "step": 76270 }, { "epoch": 0.15891666666666668, "grad_norm": 0.7713356614112854, "learning_rate": 0.0002824770920581735, "loss": 3.9503, "step": 76280 }, { "epoch": 0.1589375, "grad_norm": 0.7865144610404968, "learning_rate": 0.00028247246778421975, "loss": 4.0258, "step": 76290 }, { "epoch": 0.15895833333333334, "grad_norm": 0.7672379016876221, "learning_rate": 0.00028246784293803736, "loss": 3.9187, "step": 76300 }, { "epoch": 0.15897916666666667, "grad_norm": 0.7569628953933716, "learning_rate": 0.00028246321751964633, "loss": 4.1577, "step": 76310 }, { "epoch": 0.159, "grad_norm": 0.8109440207481384, "learning_rate": 0.00028245859152906664, "loss": 3.9639, "step": 76320 }, { "epoch": 0.15902083333333333, "grad_norm": 0.7655479907989502, "learning_rate": 0.0002824539649663183, "loss": 4.0783, "step": 76330 }, { "epoch": 0.15904166666666666, "grad_norm": 0.7938690185546875, "learning_rate": 0.0002824493378314212, "loss": 4.0984, "step": 76340 }, { "epoch": 0.1590625, "grad_norm": 0.8598443865776062, "learning_rate": 0.0002824447101243954, "loss": 3.9626, "step": 76350 }, { "epoch": 0.15908333333333333, "grad_norm": 0.757732093334198, "learning_rate": 0.0002824400818452609, "loss": 4.1777, "step": 76360 }, { "epoch": 0.15910416666666666, "grad_norm": 0.7349156737327576, "learning_rate": 0.00028243545299403767, "loss": 3.7897, "step": 76370 }, { "epoch": 0.159125, "grad_norm": 0.7714874744415283, "learning_rate": 0.0002824308235707457, "loss": 3.9498, "step": 76380 }, { "epoch": 0.15914583333333332, "grad_norm": 0.8085525631904602, "learning_rate": 0.000282426193575405, "loss": 3.8451, "step": 76390 }, { "epoch": 0.15916666666666668, "grad_norm": 0.6810000538825989, "learning_rate": 0.0002824215630080356, "loss": 4.0197, "step": 76400 }, { "epoch": 0.1591875, "grad_norm": 0.8029125332832336, "learning_rate": 0.0002824169318686574, "loss": 4.1265, "step": 76410 }, { "epoch": 0.15920833333333334, "grad_norm": 0.7993583679199219, "learning_rate": 0.00028241230015729047, "loss": 3.9688, "step": 76420 }, { "epoch": 0.15922916666666667, "grad_norm": 0.8246841430664062, "learning_rate": 0.00028240766787395485, "loss": 4.0704, "step": 76430 }, { "epoch": 0.15925, "grad_norm": 1.060900330543518, "learning_rate": 0.0002824030350186705, "loss": 4.1199, "step": 76440 }, { "epoch": 0.15927083333333333, "grad_norm": 0.8627856969833374, "learning_rate": 0.0002823984015914574, "loss": 3.9793, "step": 76450 }, { "epoch": 0.15929166666666666, "grad_norm": 0.7318389415740967, "learning_rate": 0.0002823937675923357, "loss": 3.8164, "step": 76460 }, { "epoch": 0.1593125, "grad_norm": 1.0034836530685425, "learning_rate": 0.00028238913302132526, "loss": 3.9914, "step": 76470 }, { "epoch": 0.15933333333333333, "grad_norm": 0.9493329524993896, "learning_rate": 0.0002823844978784462, "loss": 4.0402, "step": 76480 }, { "epoch": 0.15935416666666666, "grad_norm": 0.9153264760971069, "learning_rate": 0.0002823798621637185, "loss": 4.0026, "step": 76490 }, { "epoch": 0.159375, "grad_norm": 0.7304118871688843, "learning_rate": 0.0002823752258771622, "loss": 3.9285, "step": 76500 }, { "epoch": 0.15939583333333332, "grad_norm": 0.6958821415901184, "learning_rate": 0.00028237058901879733, "loss": 3.8933, "step": 76510 }, { "epoch": 0.15941666666666668, "grad_norm": 0.84634929895401, "learning_rate": 0.0002823659515886439, "loss": 3.9329, "step": 76520 }, { "epoch": 0.1594375, "grad_norm": 0.7458611726760864, "learning_rate": 0.0002823613135867219, "loss": 4.0467, "step": 76530 }, { "epoch": 0.15945833333333334, "grad_norm": 0.9980223774909973, "learning_rate": 0.0002823566750130515, "loss": 3.9446, "step": 76540 }, { "epoch": 0.15947916666666667, "grad_norm": 0.770721435546875, "learning_rate": 0.00028235203586765263, "loss": 3.8964, "step": 76550 }, { "epoch": 0.1595, "grad_norm": 0.7319120764732361, "learning_rate": 0.0002823473961505454, "loss": 3.8982, "step": 76560 }, { "epoch": 0.15952083333333333, "grad_norm": 0.7265445590019226, "learning_rate": 0.00028234275586174975, "loss": 3.9067, "step": 76570 }, { "epoch": 0.15954166666666666, "grad_norm": 0.7723459005355835, "learning_rate": 0.00028233811500128576, "loss": 4.0191, "step": 76580 }, { "epoch": 0.1595625, "grad_norm": 0.792067289352417, "learning_rate": 0.0002823334735691736, "loss": 3.8823, "step": 76590 }, { "epoch": 0.15958333333333333, "grad_norm": 1.020997405052185, "learning_rate": 0.0002823288315654331, "loss": 4.0901, "step": 76600 }, { "epoch": 0.15960416666666666, "grad_norm": 0.7044355869293213, "learning_rate": 0.0002823241889900844, "loss": 3.9314, "step": 76610 }, { "epoch": 0.159625, "grad_norm": 0.7365557551383972, "learning_rate": 0.00028231954584314765, "loss": 3.9013, "step": 76620 }, { "epoch": 0.15964583333333332, "grad_norm": 0.8813196420669556, "learning_rate": 0.00028231490212464287, "loss": 3.8871, "step": 76630 }, { "epoch": 0.15966666666666668, "grad_norm": 0.8245474100112915, "learning_rate": 0.0002823102578345901, "loss": 4.1159, "step": 76640 }, { "epoch": 0.1596875, "grad_norm": 0.7396581172943115, "learning_rate": 0.0002823056129730093, "loss": 3.9981, "step": 76650 }, { "epoch": 0.15970833333333334, "grad_norm": 0.7071628570556641, "learning_rate": 0.00028230096753992066, "loss": 3.9196, "step": 76660 }, { "epoch": 0.15972916666666667, "grad_norm": 0.7886711359024048, "learning_rate": 0.00028229632153534416, "loss": 3.8484, "step": 76670 }, { "epoch": 0.15975, "grad_norm": 0.7425145506858826, "learning_rate": 0.0002822916749593, "loss": 4.0454, "step": 76680 }, { "epoch": 0.15977083333333333, "grad_norm": 0.8378704786300659, "learning_rate": 0.0002822870278118082, "loss": 3.9837, "step": 76690 }, { "epoch": 0.15979166666666667, "grad_norm": 0.8082764744758606, "learning_rate": 0.0002822823800928887, "loss": 4.0394, "step": 76700 }, { "epoch": 0.1598125, "grad_norm": 0.7006628513336182, "learning_rate": 0.0002822777318025617, "loss": 3.8999, "step": 76710 }, { "epoch": 0.15983333333333333, "grad_norm": 0.7836378216743469, "learning_rate": 0.00028227308294084726, "loss": 3.8537, "step": 76720 }, { "epoch": 0.15985416666666666, "grad_norm": 0.7611981630325317, "learning_rate": 0.0002822684335077655, "loss": 3.9553, "step": 76730 }, { "epoch": 0.159875, "grad_norm": 0.8038240075111389, "learning_rate": 0.0002822637835033364, "loss": 3.8048, "step": 76740 }, { "epoch": 0.15989583333333332, "grad_norm": 0.6807552576065063, "learning_rate": 0.0002822591329275802, "loss": 4.0335, "step": 76750 }, { "epoch": 0.15991666666666668, "grad_norm": 0.9691339731216431, "learning_rate": 0.00028225448178051686, "loss": 3.9505, "step": 76760 }, { "epoch": 0.1599375, "grad_norm": 0.7016648650169373, "learning_rate": 0.00028224983006216645, "loss": 3.8443, "step": 76770 }, { "epoch": 0.15995833333333334, "grad_norm": 0.7145435810089111, "learning_rate": 0.00028224517777254916, "loss": 3.8608, "step": 76780 }, { "epoch": 0.15997916666666667, "grad_norm": 0.9416621923446655, "learning_rate": 0.00028224052491168504, "loss": 3.9035, "step": 76790 }, { "epoch": 0.16, "grad_norm": 0.7591504454612732, "learning_rate": 0.00028223587147959426, "loss": 3.8585, "step": 76800 }, { "epoch": 0.16002083333333333, "grad_norm": 0.711595356464386, "learning_rate": 0.00028223121747629677, "loss": 3.9054, "step": 76810 }, { "epoch": 0.16004166666666667, "grad_norm": 0.9354443550109863, "learning_rate": 0.0002822265629018128, "loss": 4.204, "step": 76820 }, { "epoch": 0.1600625, "grad_norm": 0.8565996885299683, "learning_rate": 0.00028222190775616243, "loss": 3.923, "step": 76830 }, { "epoch": 0.16008333333333333, "grad_norm": 0.7267017960548401, "learning_rate": 0.00028221725203936575, "loss": 4.0982, "step": 76840 }, { "epoch": 0.16010416666666666, "grad_norm": 0.7077228426933289, "learning_rate": 0.00028221259575144286, "loss": 3.9528, "step": 76850 }, { "epoch": 0.160125, "grad_norm": 0.82989102602005, "learning_rate": 0.0002822079388924139, "loss": 3.991, "step": 76860 }, { "epoch": 0.16014583333333332, "grad_norm": 0.863614559173584, "learning_rate": 0.00028220328146229897, "loss": 3.7618, "step": 76870 }, { "epoch": 0.16016666666666668, "grad_norm": 0.8223214745521545, "learning_rate": 0.0002821986234611182, "loss": 3.8776, "step": 76880 }, { "epoch": 0.1601875, "grad_norm": 0.784129798412323, "learning_rate": 0.0002821939648888917, "loss": 3.961, "step": 76890 }, { "epoch": 0.16020833333333334, "grad_norm": 0.9202289581298828, "learning_rate": 0.0002821893057456396, "loss": 4.0354, "step": 76900 }, { "epoch": 0.16022916666666667, "grad_norm": 0.8466525077819824, "learning_rate": 0.00028218464603138203, "loss": 3.8609, "step": 76910 }, { "epoch": 0.16025, "grad_norm": 0.7251555323600769, "learning_rate": 0.0002821799857461391, "loss": 3.8541, "step": 76920 }, { "epoch": 0.16027083333333333, "grad_norm": 0.8714814782142639, "learning_rate": 0.00028217532488993095, "loss": 3.9944, "step": 76930 }, { "epoch": 0.16029166666666667, "grad_norm": 0.8698439598083496, "learning_rate": 0.0002821706634627777, "loss": 3.8205, "step": 76940 }, { "epoch": 0.1603125, "grad_norm": 0.7079991698265076, "learning_rate": 0.00028216600146469955, "loss": 4.0399, "step": 76950 }, { "epoch": 0.16033333333333333, "grad_norm": 0.8054331541061401, "learning_rate": 0.00028216133889571657, "loss": 3.9445, "step": 76960 }, { "epoch": 0.16035416666666666, "grad_norm": 0.9675517678260803, "learning_rate": 0.0002821566757558489, "loss": 3.9687, "step": 76970 }, { "epoch": 0.160375, "grad_norm": 0.9152339100837708, "learning_rate": 0.00028215201204511667, "loss": 3.9525, "step": 76980 }, { "epoch": 0.16039583333333332, "grad_norm": 0.8617864847183228, "learning_rate": 0.00028214734776354014, "loss": 3.9535, "step": 76990 }, { "epoch": 0.16041666666666668, "grad_norm": 0.7914890646934509, "learning_rate": 0.00028214268291113935, "loss": 3.9125, "step": 77000 }, { "epoch": 0.16041666666666668, "eval_loss": 4.286554336547852, "eval_runtime": 9.1004, "eval_samples_per_second": 1.099, "eval_steps_per_second": 0.33, "step": 77000 }, { "epoch": 0.1604375, "grad_norm": 0.7892403602600098, "learning_rate": 0.0002821380174879344, "loss": 3.8947, "step": 77010 }, { "epoch": 0.16045833333333334, "grad_norm": 0.734053373336792, "learning_rate": 0.0002821333514939456, "loss": 3.7525, "step": 77020 }, { "epoch": 0.16047916666666667, "grad_norm": 0.9047618508338928, "learning_rate": 0.00028212868492919304, "loss": 4.0585, "step": 77030 }, { "epoch": 0.1605, "grad_norm": 0.8187105655670166, "learning_rate": 0.0002821240177936968, "loss": 3.8896, "step": 77040 }, { "epoch": 0.16052083333333333, "grad_norm": 0.764279842376709, "learning_rate": 0.00028211935008747713, "loss": 3.9885, "step": 77050 }, { "epoch": 0.16054166666666667, "grad_norm": 0.8400261402130127, "learning_rate": 0.00028211468181055417, "loss": 4.0983, "step": 77060 }, { "epoch": 0.1605625, "grad_norm": 0.8541538715362549, "learning_rate": 0.00028211001296294806, "loss": 3.8116, "step": 77070 }, { "epoch": 0.16058333333333333, "grad_norm": 0.7912912368774414, "learning_rate": 0.000282105343544679, "loss": 3.937, "step": 77080 }, { "epoch": 0.16060416666666666, "grad_norm": 0.8191346526145935, "learning_rate": 0.0002821006735557671, "loss": 4.0099, "step": 77090 }, { "epoch": 0.160625, "grad_norm": 0.6960261464118958, "learning_rate": 0.0002820960029962327, "loss": 3.8428, "step": 77100 }, { "epoch": 0.16064583333333332, "grad_norm": 0.8192920088768005, "learning_rate": 0.00028209133186609574, "loss": 3.8466, "step": 77110 }, { "epoch": 0.16066666666666668, "grad_norm": 0.7489382028579712, "learning_rate": 0.00028208666016537654, "loss": 4.1436, "step": 77120 }, { "epoch": 0.1606875, "grad_norm": 0.8770329356193542, "learning_rate": 0.00028208198789409525, "loss": 3.9381, "step": 77130 }, { "epoch": 0.16070833333333334, "grad_norm": 0.7646051645278931, "learning_rate": 0.0002820773150522721, "loss": 3.8024, "step": 77140 }, { "epoch": 0.16072916666666667, "grad_norm": 0.8767563700675964, "learning_rate": 0.00028207264163992714, "loss": 4.1352, "step": 77150 }, { "epoch": 0.16075, "grad_norm": 0.7900148630142212, "learning_rate": 0.0002820679676570807, "loss": 3.6969, "step": 77160 }, { "epoch": 0.16077083333333334, "grad_norm": 0.6644408106803894, "learning_rate": 0.0002820632931037529, "loss": 4.0676, "step": 77170 }, { "epoch": 0.16079166666666667, "grad_norm": 0.9282814264297485, "learning_rate": 0.000282058617979964, "loss": 4.0554, "step": 77180 }, { "epoch": 0.1608125, "grad_norm": 0.6623526215553284, "learning_rate": 0.0002820539422857341, "loss": 4.1582, "step": 77190 }, { "epoch": 0.16083333333333333, "grad_norm": 0.7399011850357056, "learning_rate": 0.00028204926602108345, "loss": 4.1355, "step": 77200 }, { "epoch": 0.16085416666666666, "grad_norm": 0.7266656756401062, "learning_rate": 0.0002820445891860322, "loss": 3.9737, "step": 77210 }, { "epoch": 0.160875, "grad_norm": 0.9031581282615662, "learning_rate": 0.00028203991178060066, "loss": 3.8918, "step": 77220 }, { "epoch": 0.16089583333333332, "grad_norm": 0.9557989239692688, "learning_rate": 0.0002820352338048089, "loss": 3.8668, "step": 77230 }, { "epoch": 0.16091666666666668, "grad_norm": 0.8384221792221069, "learning_rate": 0.0002820305552586772, "loss": 3.9748, "step": 77240 }, { "epoch": 0.1609375, "grad_norm": 0.8813395500183105, "learning_rate": 0.0002820258761422258, "loss": 3.9288, "step": 77250 }, { "epoch": 0.16095833333333334, "grad_norm": 0.672451376914978, "learning_rate": 0.00028202119645547486, "loss": 3.9323, "step": 77260 }, { "epoch": 0.16097916666666667, "grad_norm": 0.7794919013977051, "learning_rate": 0.0002820165161984446, "loss": 3.9331, "step": 77270 }, { "epoch": 0.161, "grad_norm": 0.8153266906738281, "learning_rate": 0.00028201183537115526, "loss": 3.8777, "step": 77280 }, { "epoch": 0.16102083333333334, "grad_norm": 0.7694487571716309, "learning_rate": 0.00028200715397362706, "loss": 4.0199, "step": 77290 }, { "epoch": 0.16104166666666667, "grad_norm": 0.8496760129928589, "learning_rate": 0.0002820024720058802, "loss": 4.0325, "step": 77300 }, { "epoch": 0.1610625, "grad_norm": 0.8208592534065247, "learning_rate": 0.0002819977894679349, "loss": 3.9597, "step": 77310 }, { "epoch": 0.16108333333333333, "grad_norm": 0.7540953755378723, "learning_rate": 0.0002819931063598114, "loss": 3.8749, "step": 77320 }, { "epoch": 0.16110416666666666, "grad_norm": 0.7308695316314697, "learning_rate": 0.0002819884226815299, "loss": 3.969, "step": 77330 }, { "epoch": 0.161125, "grad_norm": 0.7791615724563599, "learning_rate": 0.0002819837384331107, "loss": 3.8187, "step": 77340 }, { "epoch": 0.16114583333333332, "grad_norm": 0.8104141354560852, "learning_rate": 0.00028197905361457395, "loss": 3.8937, "step": 77350 }, { "epoch": 0.16116666666666668, "grad_norm": 0.886809766292572, "learning_rate": 0.00028197436822593997, "loss": 4.0958, "step": 77360 }, { "epoch": 0.1611875, "grad_norm": 0.7157000303268433, "learning_rate": 0.00028196968226722896, "loss": 4.1509, "step": 77370 }, { "epoch": 0.16120833333333334, "grad_norm": 0.7488293051719666, "learning_rate": 0.00028196499573846114, "loss": 4.0335, "step": 77380 }, { "epoch": 0.16122916666666667, "grad_norm": 0.8180192112922668, "learning_rate": 0.00028196030863965674, "loss": 3.9454, "step": 77390 }, { "epoch": 0.16125, "grad_norm": 0.7691861987113953, "learning_rate": 0.0002819556209708361, "loss": 3.8645, "step": 77400 }, { "epoch": 0.16127083333333334, "grad_norm": 0.8262279629707336, "learning_rate": 0.0002819509327320194, "loss": 3.867, "step": 77410 }, { "epoch": 0.16129166666666667, "grad_norm": 0.6430023312568665, "learning_rate": 0.0002819462439232269, "loss": 4.0146, "step": 77420 }, { "epoch": 0.1613125, "grad_norm": 0.8910223841667175, "learning_rate": 0.0002819415545444788, "loss": 3.9812, "step": 77430 }, { "epoch": 0.16133333333333333, "grad_norm": 0.8111413717269897, "learning_rate": 0.00028193686459579545, "loss": 3.9185, "step": 77440 }, { "epoch": 0.16135416666666666, "grad_norm": 0.9452483057975769, "learning_rate": 0.0002819321740771971, "loss": 3.8944, "step": 77450 }, { "epoch": 0.161375, "grad_norm": 0.7182883024215698, "learning_rate": 0.0002819274829887039, "loss": 4.0136, "step": 77460 }, { "epoch": 0.16139583333333332, "grad_norm": 0.797468364238739, "learning_rate": 0.00028192279133033626, "loss": 4.1404, "step": 77470 }, { "epoch": 0.16141666666666668, "grad_norm": 0.7380503416061401, "learning_rate": 0.0002819180991021144, "loss": 3.9204, "step": 77480 }, { "epoch": 0.1614375, "grad_norm": 0.7636228799819946, "learning_rate": 0.0002819134063040585, "loss": 3.8477, "step": 77490 }, { "epoch": 0.16145833333333334, "grad_norm": 0.8906237483024597, "learning_rate": 0.00028190871293618896, "loss": 4.0253, "step": 77500 }, { "epoch": 0.16147916666666667, "grad_norm": 0.7980161309242249, "learning_rate": 0.00028190401899852593, "loss": 3.8547, "step": 77510 }, { "epoch": 0.1615, "grad_norm": 0.8454574942588806, "learning_rate": 0.0002818993244910898, "loss": 3.9795, "step": 77520 }, { "epoch": 0.16152083333333334, "grad_norm": 0.730657696723938, "learning_rate": 0.0002818946294139008, "loss": 3.972, "step": 77530 }, { "epoch": 0.16154166666666667, "grad_norm": 0.8677017688751221, "learning_rate": 0.00028188993376697917, "loss": 3.7749, "step": 77540 }, { "epoch": 0.1615625, "grad_norm": 0.6724606156349182, "learning_rate": 0.0002818852375503453, "loss": 3.8625, "step": 77550 }, { "epoch": 0.16158333333333333, "grad_norm": 0.7731778621673584, "learning_rate": 0.0002818805407640193, "loss": 4.029, "step": 77560 }, { "epoch": 0.16160416666666666, "grad_norm": 1.7634775638580322, "learning_rate": 0.00028187584340802165, "loss": 4.0182, "step": 77570 }, { "epoch": 0.161625, "grad_norm": 0.7673264741897583, "learning_rate": 0.0002818711454823725, "loss": 4.1467, "step": 77580 }, { "epoch": 0.16164583333333332, "grad_norm": 0.7856615781784058, "learning_rate": 0.0002818664469870923, "loss": 4.0113, "step": 77590 }, { "epoch": 0.16166666666666665, "grad_norm": 0.8648219704627991, "learning_rate": 0.00028186174792220117, "loss": 3.8751, "step": 77600 }, { "epoch": 0.1616875, "grad_norm": 0.9800983667373657, "learning_rate": 0.00028185704828771947, "loss": 3.8381, "step": 77610 }, { "epoch": 0.16170833333333334, "grad_norm": 0.7651121616363525, "learning_rate": 0.00028185234808366755, "loss": 3.935, "step": 77620 }, { "epoch": 0.16172916666666667, "grad_norm": 0.7131847739219666, "learning_rate": 0.00028184764731006563, "loss": 4.004, "step": 77630 }, { "epoch": 0.16175, "grad_norm": 0.7412257194519043, "learning_rate": 0.0002818429459669341, "loss": 4.1018, "step": 77640 }, { "epoch": 0.16177083333333334, "grad_norm": 0.8267483115196228, "learning_rate": 0.00028183824405429323, "loss": 4.1076, "step": 77650 }, { "epoch": 0.16179166666666667, "grad_norm": 0.7998443245887756, "learning_rate": 0.00028183354157216336, "loss": 3.9117, "step": 77660 }, { "epoch": 0.1618125, "grad_norm": 0.7442651391029358, "learning_rate": 0.0002818288385205647, "loss": 3.9858, "step": 77670 }, { "epoch": 0.16183333333333333, "grad_norm": 0.7578204274177551, "learning_rate": 0.0002818241348995177, "loss": 3.8649, "step": 77680 }, { "epoch": 0.16185416666666666, "grad_norm": 0.8133706450462341, "learning_rate": 0.0002818194307090426, "loss": 4.0649, "step": 77690 }, { "epoch": 0.161875, "grad_norm": 0.8488492965698242, "learning_rate": 0.00028181472594915975, "loss": 3.9993, "step": 77700 }, { "epoch": 0.16189583333333332, "grad_norm": 0.7341908812522888, "learning_rate": 0.00028181002061988944, "loss": 3.7736, "step": 77710 }, { "epoch": 0.16191666666666665, "grad_norm": 0.7555025815963745, "learning_rate": 0.00028180531472125203, "loss": 4.1005, "step": 77720 }, { "epoch": 0.1619375, "grad_norm": 0.767153799533844, "learning_rate": 0.0002818006082532678, "loss": 3.9736, "step": 77730 }, { "epoch": 0.16195833333333334, "grad_norm": 1.1169534921646118, "learning_rate": 0.00028179590121595716, "loss": 3.9937, "step": 77740 }, { "epoch": 0.16197916666666667, "grad_norm": 0.7159667611122131, "learning_rate": 0.00028179119360934035, "loss": 4.0599, "step": 77750 }, { "epoch": 0.162, "grad_norm": 0.8237123489379883, "learning_rate": 0.0002817864854334377, "loss": 3.9879, "step": 77760 }, { "epoch": 0.16202083333333334, "grad_norm": 1.3349041938781738, "learning_rate": 0.00028178177668826973, "loss": 4.0342, "step": 77770 }, { "epoch": 0.16204166666666667, "grad_norm": 0.7448614239692688, "learning_rate": 0.0002817770673738566, "loss": 3.9247, "step": 77780 }, { "epoch": 0.1620625, "grad_norm": 0.7991165518760681, "learning_rate": 0.00028177235749021865, "loss": 3.9533, "step": 77790 }, { "epoch": 0.16208333333333333, "grad_norm": 0.9273947477340698, "learning_rate": 0.0002817676470373763, "loss": 3.93, "step": 77800 }, { "epoch": 0.16210416666666666, "grad_norm": 0.8635169863700867, "learning_rate": 0.0002817629360153499, "loss": 3.9622, "step": 77810 }, { "epoch": 0.162125, "grad_norm": 0.6890774965286255, "learning_rate": 0.00028175822442415977, "loss": 3.9941, "step": 77820 }, { "epoch": 0.16214583333333332, "grad_norm": 0.7350051403045654, "learning_rate": 0.00028175351226382623, "loss": 3.9935, "step": 77830 }, { "epoch": 0.16216666666666665, "grad_norm": 0.7805533409118652, "learning_rate": 0.00028174879953436966, "loss": 3.979, "step": 77840 }, { "epoch": 0.1621875, "grad_norm": 0.8718862533569336, "learning_rate": 0.0002817440862358105, "loss": 3.8394, "step": 77850 }, { "epoch": 0.16220833333333334, "grad_norm": 0.6990556120872498, "learning_rate": 0.00028173937236816894, "loss": 3.9407, "step": 77860 }, { "epoch": 0.16222916666666667, "grad_norm": 0.760137677192688, "learning_rate": 0.0002817346579314655, "loss": 3.9406, "step": 77870 }, { "epoch": 0.16225, "grad_norm": 0.7366822957992554, "learning_rate": 0.0002817299429257205, "loss": 3.9827, "step": 77880 }, { "epoch": 0.16227083333333334, "grad_norm": 0.8118230104446411, "learning_rate": 0.00028172522735095423, "loss": 4.0764, "step": 77890 }, { "epoch": 0.16229166666666667, "grad_norm": 0.8695641160011292, "learning_rate": 0.00028172051120718716, "loss": 3.9189, "step": 77900 }, { "epoch": 0.1623125, "grad_norm": 0.8390635848045349, "learning_rate": 0.0002817157944944396, "loss": 4.0012, "step": 77910 }, { "epoch": 0.16233333333333333, "grad_norm": 0.7313005924224854, "learning_rate": 0.00028171107721273195, "loss": 4.0439, "step": 77920 }, { "epoch": 0.16235416666666666, "grad_norm": 0.8917751908302307, "learning_rate": 0.0002817063593620846, "loss": 4.03, "step": 77930 }, { "epoch": 0.162375, "grad_norm": 0.7846434116363525, "learning_rate": 0.00028170164094251784, "loss": 3.9948, "step": 77940 }, { "epoch": 0.16239583333333332, "grad_norm": 0.7751554846763611, "learning_rate": 0.00028169692195405217, "loss": 4.0489, "step": 77950 }, { "epoch": 0.16241666666666665, "grad_norm": 0.7526265382766724, "learning_rate": 0.00028169220239670795, "loss": 3.8384, "step": 77960 }, { "epoch": 0.1624375, "grad_norm": 0.9873279929161072, "learning_rate": 0.0002816874822705055, "loss": 4.0048, "step": 77970 }, { "epoch": 0.16245833333333334, "grad_norm": 0.8661308288574219, "learning_rate": 0.0002816827615754653, "loss": 3.9992, "step": 77980 }, { "epoch": 0.16247916666666667, "grad_norm": 0.7955375909805298, "learning_rate": 0.0002816780403116076, "loss": 3.7947, "step": 77990 }, { "epoch": 0.1625, "grad_norm": 0.7976799607276917, "learning_rate": 0.00028167331847895303, "loss": 3.7808, "step": 78000 }, { "epoch": 0.1625, "eval_loss": 4.262619495391846, "eval_runtime": 11.6365, "eval_samples_per_second": 0.859, "eval_steps_per_second": 0.258, "step": 78000 }, { "epoch": 0.16252083333333334, "grad_norm": 0.7579058408737183, "learning_rate": 0.0002816685960775217, "loss": 3.9662, "step": 78010 }, { "epoch": 0.16254166666666667, "grad_norm": 0.7158679962158203, "learning_rate": 0.00028166387310733424, "loss": 3.9153, "step": 78020 }, { "epoch": 0.1625625, "grad_norm": 0.7831252813339233, "learning_rate": 0.00028165914956841096, "loss": 3.9714, "step": 78030 }, { "epoch": 0.16258333333333333, "grad_norm": 0.8030210137367249, "learning_rate": 0.0002816544254607723, "loss": 4.0806, "step": 78040 }, { "epoch": 0.16260416666666666, "grad_norm": 0.7371701002120972, "learning_rate": 0.00028164970078443854, "loss": 3.8811, "step": 78050 }, { "epoch": 0.162625, "grad_norm": 0.7931488156318665, "learning_rate": 0.00028164497553943027, "loss": 4.0098, "step": 78060 }, { "epoch": 0.16264583333333332, "grad_norm": 1.0503406524658203, "learning_rate": 0.00028164024972576773, "loss": 3.9831, "step": 78070 }, { "epoch": 0.16266666666666665, "grad_norm": 0.8392672538757324, "learning_rate": 0.0002816355233434715, "loss": 3.8326, "step": 78080 }, { "epoch": 0.1626875, "grad_norm": 0.6595149040222168, "learning_rate": 0.00028163079639256187, "loss": 4.1154, "step": 78090 }, { "epoch": 0.16270833333333334, "grad_norm": 1.0223652124404907, "learning_rate": 0.0002816260688730593, "loss": 3.9909, "step": 78100 }, { "epoch": 0.16272916666666667, "grad_norm": 0.8171764016151428, "learning_rate": 0.00028162134078498424, "loss": 4.0057, "step": 78110 }, { "epoch": 0.16275, "grad_norm": 0.8894515037536621, "learning_rate": 0.00028161661212835706, "loss": 3.9079, "step": 78120 }, { "epoch": 0.16277083333333334, "grad_norm": 0.7435217499732971, "learning_rate": 0.0002816118829031982, "loss": 3.8378, "step": 78130 }, { "epoch": 0.16279166666666667, "grad_norm": 0.8137401342391968, "learning_rate": 0.00028160715310952816, "loss": 3.8413, "step": 78140 }, { "epoch": 0.1628125, "grad_norm": 0.8337034583091736, "learning_rate": 0.00028160242274736727, "loss": 4.0542, "step": 78150 }, { "epoch": 0.16283333333333333, "grad_norm": 0.8717995285987854, "learning_rate": 0.000281597691816736, "loss": 3.9369, "step": 78160 }, { "epoch": 0.16285416666666666, "grad_norm": 0.7795739769935608, "learning_rate": 0.0002815929603176548, "loss": 3.9666, "step": 78170 }, { "epoch": 0.162875, "grad_norm": 0.7289012670516968, "learning_rate": 0.0002815882282501441, "loss": 3.8687, "step": 78180 }, { "epoch": 0.16289583333333332, "grad_norm": 0.7760468125343323, "learning_rate": 0.0002815834956142244, "loss": 3.9681, "step": 78190 }, { "epoch": 0.16291666666666665, "grad_norm": 0.8668152093887329, "learning_rate": 0.000281578762409916, "loss": 3.9822, "step": 78200 }, { "epoch": 0.1629375, "grad_norm": 0.7797251343727112, "learning_rate": 0.0002815740286372395, "loss": 3.9824, "step": 78210 }, { "epoch": 0.16295833333333334, "grad_norm": 0.6885705590248108, "learning_rate": 0.0002815692942962152, "loss": 3.84, "step": 78220 }, { "epoch": 0.16297916666666667, "grad_norm": 1.1185550689697266, "learning_rate": 0.00028156455938686364, "loss": 3.907, "step": 78230 }, { "epoch": 0.163, "grad_norm": 0.7284876108169556, "learning_rate": 0.0002815598239092053, "loss": 3.9425, "step": 78240 }, { "epoch": 0.16302083333333334, "grad_norm": 0.6862362027168274, "learning_rate": 0.00028155508786326057, "loss": 3.9263, "step": 78250 }, { "epoch": 0.16304166666666667, "grad_norm": 0.7383018136024475, "learning_rate": 0.00028155035124904996, "loss": 3.9824, "step": 78260 }, { "epoch": 0.1630625, "grad_norm": 0.8319690823554993, "learning_rate": 0.00028154561406659387, "loss": 4.0939, "step": 78270 }, { "epoch": 0.16308333333333333, "grad_norm": 0.7824859619140625, "learning_rate": 0.00028154087631591284, "loss": 4.1139, "step": 78280 }, { "epoch": 0.16310416666666666, "grad_norm": 0.7834299802780151, "learning_rate": 0.00028153613799702725, "loss": 3.9378, "step": 78290 }, { "epoch": 0.163125, "grad_norm": 0.7087684273719788, "learning_rate": 0.00028153139910995766, "loss": 3.9882, "step": 78300 }, { "epoch": 0.16314583333333332, "grad_norm": 0.8483211994171143, "learning_rate": 0.0002815266596547244, "loss": 3.8009, "step": 78310 }, { "epoch": 0.16316666666666665, "grad_norm": 0.8948817253112793, "learning_rate": 0.0002815219196313481, "loss": 3.9416, "step": 78320 }, { "epoch": 0.1631875, "grad_norm": 0.7180911898612976, "learning_rate": 0.00028151717903984914, "loss": 3.919, "step": 78330 }, { "epoch": 0.16320833333333334, "grad_norm": 0.8306449055671692, "learning_rate": 0.000281512437880248, "loss": 4.0358, "step": 78340 }, { "epoch": 0.16322916666666668, "grad_norm": 0.7555968761444092, "learning_rate": 0.00028150769615256524, "loss": 3.916, "step": 78350 }, { "epoch": 0.16325, "grad_norm": 0.7461714148521423, "learning_rate": 0.00028150295385682126, "loss": 4.011, "step": 78360 }, { "epoch": 0.16327083333333334, "grad_norm": 0.8704186081886292, "learning_rate": 0.0002814982109930366, "loss": 3.9772, "step": 78370 }, { "epoch": 0.16329166666666667, "grad_norm": 0.8055309653282166, "learning_rate": 0.0002814934675612317, "loss": 3.8095, "step": 78380 }, { "epoch": 0.1633125, "grad_norm": 0.8662627339363098, "learning_rate": 0.00028148872356142707, "loss": 3.9857, "step": 78390 }, { "epoch": 0.16333333333333333, "grad_norm": 0.8140546083450317, "learning_rate": 0.00028148397899364317, "loss": 3.792, "step": 78400 }, { "epoch": 0.16335416666666666, "grad_norm": 0.6865202188491821, "learning_rate": 0.0002814792338579006, "loss": 3.9134, "step": 78410 }, { "epoch": 0.163375, "grad_norm": 0.7429100275039673, "learning_rate": 0.0002814744881542198, "loss": 4.079, "step": 78420 }, { "epoch": 0.16339583333333332, "grad_norm": 0.7780461311340332, "learning_rate": 0.00028146974188262116, "loss": 3.8791, "step": 78430 }, { "epoch": 0.16341666666666665, "grad_norm": 0.7875534296035767, "learning_rate": 0.00028146499504312525, "loss": 3.9419, "step": 78440 }, { "epoch": 0.1634375, "grad_norm": 1.051367998123169, "learning_rate": 0.00028146024763575265, "loss": 3.8882, "step": 78450 }, { "epoch": 0.16345833333333334, "grad_norm": 0.7486383318901062, "learning_rate": 0.00028145549966052385, "loss": 3.9927, "step": 78460 }, { "epoch": 0.16347916666666668, "grad_norm": 0.778175950050354, "learning_rate": 0.0002814507511174593, "loss": 3.7165, "step": 78470 }, { "epoch": 0.1635, "grad_norm": 0.7930928468704224, "learning_rate": 0.0002814460020065795, "loss": 3.9428, "step": 78480 }, { "epoch": 0.16352083333333334, "grad_norm": 0.8237566947937012, "learning_rate": 0.00028144125232790505, "loss": 3.934, "step": 78490 }, { "epoch": 0.16354166666666667, "grad_norm": 0.9469968676567078, "learning_rate": 0.0002814365020814564, "loss": 4.0879, "step": 78500 }, { "epoch": 0.1635625, "grad_norm": 0.797243595123291, "learning_rate": 0.0002814317512672541, "loss": 3.9702, "step": 78510 }, { "epoch": 0.16358333333333333, "grad_norm": 0.7317516207695007, "learning_rate": 0.0002814269998853186, "loss": 3.9352, "step": 78520 }, { "epoch": 0.16360416666666666, "grad_norm": 0.8259995579719543, "learning_rate": 0.00028142224793567056, "loss": 3.8832, "step": 78530 }, { "epoch": 0.163625, "grad_norm": 0.8196825981140137, "learning_rate": 0.0002814174954183304, "loss": 3.9699, "step": 78540 }, { "epoch": 0.16364583333333332, "grad_norm": 0.7598574757575989, "learning_rate": 0.0002814127423333187, "loss": 4.1293, "step": 78550 }, { "epoch": 0.16366666666666665, "grad_norm": 0.759049654006958, "learning_rate": 0.00028140798868065596, "loss": 4.0397, "step": 78560 }, { "epoch": 0.1636875, "grad_norm": 0.710602879524231, "learning_rate": 0.0002814032344603627, "loss": 3.7885, "step": 78570 }, { "epoch": 0.16370833333333334, "grad_norm": 0.74116051197052, "learning_rate": 0.00028139847967245945, "loss": 3.9658, "step": 78580 }, { "epoch": 0.16372916666666668, "grad_norm": 0.7533986568450928, "learning_rate": 0.00028139372431696687, "loss": 3.8657, "step": 78590 }, { "epoch": 0.16375, "grad_norm": 1.1377589702606201, "learning_rate": 0.00028138896839390536, "loss": 3.9384, "step": 78600 }, { "epoch": 0.16377083333333334, "grad_norm": 0.6965270042419434, "learning_rate": 0.0002813842119032955, "loss": 4.0344, "step": 78610 }, { "epoch": 0.16379166666666667, "grad_norm": 0.7911800146102905, "learning_rate": 0.00028137945484515785, "loss": 3.8957, "step": 78620 }, { "epoch": 0.1638125, "grad_norm": 0.8753644227981567, "learning_rate": 0.00028137469721951295, "loss": 3.9026, "step": 78630 }, { "epoch": 0.16383333333333333, "grad_norm": 0.639029860496521, "learning_rate": 0.0002813699390263814, "loss": 4.1008, "step": 78640 }, { "epoch": 0.16385416666666666, "grad_norm": 0.8278228044509888, "learning_rate": 0.0002813651802657837, "loss": 3.8747, "step": 78650 }, { "epoch": 0.163875, "grad_norm": 0.7701707482337952, "learning_rate": 0.0002813604209377404, "loss": 4.0514, "step": 78660 }, { "epoch": 0.16389583333333332, "grad_norm": 0.7326090931892395, "learning_rate": 0.00028135566104227214, "loss": 3.9016, "step": 78670 }, { "epoch": 0.16391666666666665, "grad_norm": 0.7848449945449829, "learning_rate": 0.00028135090057939934, "loss": 4.0841, "step": 78680 }, { "epoch": 0.1639375, "grad_norm": 0.9120119214057922, "learning_rate": 0.00028134613954914267, "loss": 3.7416, "step": 78690 }, { "epoch": 0.16395833333333334, "grad_norm": 0.7111124992370605, "learning_rate": 0.0002813413779515227, "loss": 3.9341, "step": 78700 }, { "epoch": 0.16397916666666668, "grad_norm": 0.7646217942237854, "learning_rate": 0.0002813366157865599, "loss": 4.0073, "step": 78710 }, { "epoch": 0.164, "grad_norm": 0.9693976640701294, "learning_rate": 0.00028133185305427496, "loss": 4.006, "step": 78720 }, { "epoch": 0.16402083333333334, "grad_norm": 0.7938714623451233, "learning_rate": 0.0002813270897546884, "loss": 3.8783, "step": 78730 }, { "epoch": 0.16404166666666667, "grad_norm": 0.7984306216239929, "learning_rate": 0.00028132232588782077, "loss": 3.7759, "step": 78740 }, { "epoch": 0.1640625, "grad_norm": 0.8953321576118469, "learning_rate": 0.0002813175614536927, "loss": 4.0683, "step": 78750 }, { "epoch": 0.16408333333333333, "grad_norm": 0.6818082928657532, "learning_rate": 0.0002813127964523247, "loss": 3.9356, "step": 78760 }, { "epoch": 0.16410416666666666, "grad_norm": 0.8062520027160645, "learning_rate": 0.0002813080308837374, "loss": 3.9032, "step": 78770 }, { "epoch": 0.164125, "grad_norm": 0.7801048755645752, "learning_rate": 0.0002813032647479514, "loss": 4.067, "step": 78780 }, { "epoch": 0.16414583333333332, "grad_norm": 0.8505407571792603, "learning_rate": 0.0002812984980449873, "loss": 3.9753, "step": 78790 }, { "epoch": 0.16416666666666666, "grad_norm": 0.7905470132827759, "learning_rate": 0.0002812937307748656, "loss": 4.0678, "step": 78800 }, { "epoch": 0.1641875, "grad_norm": 0.6858739256858826, "learning_rate": 0.000281288962937607, "loss": 3.8236, "step": 78810 }, { "epoch": 0.16420833333333335, "grad_norm": 0.7694026827812195, "learning_rate": 0.00028128419453323205, "loss": 4.0352, "step": 78820 }, { "epoch": 0.16422916666666668, "grad_norm": 0.7331535816192627, "learning_rate": 0.00028127942556176134, "loss": 4.0846, "step": 78830 }, { "epoch": 0.16425, "grad_norm": 0.7223294973373413, "learning_rate": 0.00028127465602321544, "loss": 3.9307, "step": 78840 }, { "epoch": 0.16427083333333334, "grad_norm": 0.7279050946235657, "learning_rate": 0.000281269885917615, "loss": 4.1205, "step": 78850 }, { "epoch": 0.16429166666666667, "grad_norm": 0.6930234432220459, "learning_rate": 0.00028126511524498066, "loss": 4.0908, "step": 78860 }, { "epoch": 0.1643125, "grad_norm": 0.8562779426574707, "learning_rate": 0.00028126034400533293, "loss": 3.9442, "step": 78870 }, { "epoch": 0.16433333333333333, "grad_norm": 0.9261311292648315, "learning_rate": 0.0002812555721986925, "loss": 4.1227, "step": 78880 }, { "epoch": 0.16435416666666666, "grad_norm": 0.7066105008125305, "learning_rate": 0.00028125079982507995, "loss": 4.1251, "step": 78890 }, { "epoch": 0.164375, "grad_norm": 0.825730562210083, "learning_rate": 0.00028124602688451585, "loss": 3.8554, "step": 78900 }, { "epoch": 0.16439583333333332, "grad_norm": 0.6633230447769165, "learning_rate": 0.0002812412533770209, "loss": 3.9867, "step": 78910 }, { "epoch": 0.16441666666666666, "grad_norm": 0.726375937461853, "learning_rate": 0.0002812364793026157, "loss": 3.7262, "step": 78920 }, { "epoch": 0.1644375, "grad_norm": 0.8670837879180908, "learning_rate": 0.00028123170466132084, "loss": 4.0819, "step": 78930 }, { "epoch": 0.16445833333333335, "grad_norm": 0.7781756520271301, "learning_rate": 0.00028122692945315694, "loss": 3.9881, "step": 78940 }, { "epoch": 0.16447916666666668, "grad_norm": 0.7366481423377991, "learning_rate": 0.00028122215367814467, "loss": 3.9541, "step": 78950 }, { "epoch": 0.1645, "grad_norm": 0.7142907381057739, "learning_rate": 0.0002812173773363047, "loss": 3.9786, "step": 78960 }, { "epoch": 0.16452083333333334, "grad_norm": 0.7798681855201721, "learning_rate": 0.0002812126004276575, "loss": 3.7906, "step": 78970 }, { "epoch": 0.16454166666666667, "grad_norm": 0.7758227586746216, "learning_rate": 0.00028120782295222384, "loss": 3.8771, "step": 78980 }, { "epoch": 0.1645625, "grad_norm": 0.79195636510849, "learning_rate": 0.0002812030449100243, "loss": 3.8738, "step": 78990 }, { "epoch": 0.16458333333333333, "grad_norm": 0.836733877658844, "learning_rate": 0.0002811982663010796, "loss": 3.9531, "step": 79000 }, { "epoch": 0.16458333333333333, "eval_loss": 4.274040699005127, "eval_runtime": 10.5566, "eval_samples_per_second": 0.947, "eval_steps_per_second": 0.284, "step": 79000 }, { "epoch": 0.16460416666666666, "grad_norm": 0.7327297329902649, "learning_rate": 0.00028119348712541027, "loss": 4.0301, "step": 79010 }, { "epoch": 0.164625, "grad_norm": 0.7065144777297974, "learning_rate": 0.000281188707383037, "loss": 4.0149, "step": 79020 }, { "epoch": 0.16464583333333332, "grad_norm": 0.7505620718002319, "learning_rate": 0.00028118392707398047, "loss": 4.2055, "step": 79030 }, { "epoch": 0.16466666666666666, "grad_norm": 0.7665283679962158, "learning_rate": 0.0002811791461982613, "loss": 4.085, "step": 79040 }, { "epoch": 0.1646875, "grad_norm": 0.7255980968475342, "learning_rate": 0.0002811743647559001, "loss": 3.9971, "step": 79050 }, { "epoch": 0.16470833333333335, "grad_norm": 0.7955706119537354, "learning_rate": 0.0002811695827469176, "loss": 4.0807, "step": 79060 }, { "epoch": 0.16472916666666668, "grad_norm": 0.6661986112594604, "learning_rate": 0.00028116480017133445, "loss": 4.0839, "step": 79070 }, { "epoch": 0.16475, "grad_norm": 0.7678513526916504, "learning_rate": 0.0002811600170291713, "loss": 4.0343, "step": 79080 }, { "epoch": 0.16477083333333334, "grad_norm": 0.7826816439628601, "learning_rate": 0.00028115523332044874, "loss": 4.0307, "step": 79090 }, { "epoch": 0.16479166666666667, "grad_norm": 0.7666749954223633, "learning_rate": 0.0002811504490451875, "loss": 3.8973, "step": 79100 }, { "epoch": 0.1648125, "grad_norm": 0.7267382740974426, "learning_rate": 0.0002811456642034082, "loss": 4.0905, "step": 79110 }, { "epoch": 0.16483333333333333, "grad_norm": 0.7018510699272156, "learning_rate": 0.0002811408787951316, "loss": 4.3171, "step": 79120 }, { "epoch": 0.16485416666666666, "grad_norm": 0.8804318308830261, "learning_rate": 0.00028113609282037826, "loss": 3.9313, "step": 79130 }, { "epoch": 0.164875, "grad_norm": 0.7506440281867981, "learning_rate": 0.0002811313062791689, "loss": 3.8905, "step": 79140 }, { "epoch": 0.16489583333333332, "grad_norm": 0.7500459551811218, "learning_rate": 0.00028112651917152427, "loss": 3.985, "step": 79150 }, { "epoch": 0.16491666666666666, "grad_norm": 0.8562813997268677, "learning_rate": 0.00028112173149746493, "loss": 3.8087, "step": 79160 }, { "epoch": 0.1649375, "grad_norm": 0.7789769768714905, "learning_rate": 0.0002811169432570116, "loss": 3.8242, "step": 79170 }, { "epoch": 0.16495833333333335, "grad_norm": 0.7035313844680786, "learning_rate": 0.00028111215445018504, "loss": 4.0342, "step": 79180 }, { "epoch": 0.16497916666666668, "grad_norm": 0.7942529916763306, "learning_rate": 0.0002811073650770058, "loss": 3.8708, "step": 79190 }, { "epoch": 0.165, "grad_norm": 0.697306215763092, "learning_rate": 0.0002811025751374947, "loss": 4.047, "step": 79200 }, { "epoch": 0.16502083333333334, "grad_norm": 0.8313982486724854, "learning_rate": 0.00028109778463167236, "loss": 3.9808, "step": 79210 }, { "epoch": 0.16504166666666667, "grad_norm": 0.799018383026123, "learning_rate": 0.0002810929935595594, "loss": 3.9431, "step": 79220 }, { "epoch": 0.1650625, "grad_norm": 0.8817393779754639, "learning_rate": 0.0002810882019211767, "loss": 3.943, "step": 79230 }, { "epoch": 0.16508333333333333, "grad_norm": 0.7654802203178406, "learning_rate": 0.00028108340971654477, "loss": 4.0624, "step": 79240 }, { "epoch": 0.16510416666666666, "grad_norm": 0.7417361736297607, "learning_rate": 0.00028107861694568446, "loss": 4.0455, "step": 79250 }, { "epoch": 0.165125, "grad_norm": 0.7481659650802612, "learning_rate": 0.0002810738236086164, "loss": 3.9971, "step": 79260 }, { "epoch": 0.16514583333333333, "grad_norm": 0.6726270318031311, "learning_rate": 0.0002810690297053613, "loss": 4.1322, "step": 79270 }, { "epoch": 0.16516666666666666, "grad_norm": 0.734876275062561, "learning_rate": 0.00028106423523593986, "loss": 3.9241, "step": 79280 }, { "epoch": 0.1651875, "grad_norm": 0.7638274431228638, "learning_rate": 0.0002810594402003728, "loss": 4.192, "step": 79290 }, { "epoch": 0.16520833333333335, "grad_norm": 0.8016508221626282, "learning_rate": 0.00028105464459868084, "loss": 4.1062, "step": 79300 }, { "epoch": 0.16522916666666668, "grad_norm": 0.9594808220863342, "learning_rate": 0.0002810498484308847, "loss": 3.9626, "step": 79310 }, { "epoch": 0.16525, "grad_norm": 0.7960378527641296, "learning_rate": 0.00028104505169700513, "loss": 3.8336, "step": 79320 }, { "epoch": 0.16527083333333334, "grad_norm": 0.7224286794662476, "learning_rate": 0.00028104025439706275, "loss": 3.8021, "step": 79330 }, { "epoch": 0.16529166666666667, "grad_norm": 0.7468209862709045, "learning_rate": 0.0002810354565310783, "loss": 3.9629, "step": 79340 }, { "epoch": 0.1653125, "grad_norm": 0.7305186986923218, "learning_rate": 0.0002810306580990726, "loss": 3.9092, "step": 79350 }, { "epoch": 0.16533333333333333, "grad_norm": 0.9614372253417969, "learning_rate": 0.00028102585910106634, "loss": 3.95, "step": 79360 }, { "epoch": 0.16535416666666666, "grad_norm": 1.5901360511779785, "learning_rate": 0.0002810210595370802, "loss": 4.1231, "step": 79370 }, { "epoch": 0.165375, "grad_norm": 0.7954540848731995, "learning_rate": 0.00028101625940713497, "loss": 4.2821, "step": 79380 }, { "epoch": 0.16539583333333333, "grad_norm": 0.7796814441680908, "learning_rate": 0.00028101145871125134, "loss": 4.0236, "step": 79390 }, { "epoch": 0.16541666666666666, "grad_norm": 0.7338184714317322, "learning_rate": 0.00028100665744945006, "loss": 3.9432, "step": 79400 }, { "epoch": 0.1654375, "grad_norm": 0.7124261260032654, "learning_rate": 0.0002810018556217519, "loss": 3.8748, "step": 79410 }, { "epoch": 0.16545833333333335, "grad_norm": 0.8054860234260559, "learning_rate": 0.00028099705322817757, "loss": 3.8258, "step": 79420 }, { "epoch": 0.16547916666666668, "grad_norm": 0.7687973380088806, "learning_rate": 0.0002809922502687478, "loss": 4.0275, "step": 79430 }, { "epoch": 0.1655, "grad_norm": 0.7981812357902527, "learning_rate": 0.00028098744674348336, "loss": 4.0861, "step": 79440 }, { "epoch": 0.16552083333333334, "grad_norm": 0.6536878943443298, "learning_rate": 0.000280982642652405, "loss": 3.8323, "step": 79450 }, { "epoch": 0.16554166666666667, "grad_norm": 0.7830265164375305, "learning_rate": 0.00028097783799553355, "loss": 3.8333, "step": 79460 }, { "epoch": 0.1655625, "grad_norm": 0.7079572081565857, "learning_rate": 0.0002809730327728896, "loss": 4.0455, "step": 79470 }, { "epoch": 0.16558333333333333, "grad_norm": 0.7992717027664185, "learning_rate": 0.000280968226984494, "loss": 3.968, "step": 79480 }, { "epoch": 0.16560416666666666, "grad_norm": 0.8496853709220886, "learning_rate": 0.0002809634206303675, "loss": 3.8516, "step": 79490 }, { "epoch": 0.165625, "grad_norm": 0.9133227467536926, "learning_rate": 0.0002809586137105309, "loss": 3.9876, "step": 79500 }, { "epoch": 0.16564583333333333, "grad_norm": 0.7644991278648376, "learning_rate": 0.0002809538062250049, "loss": 4.1199, "step": 79510 }, { "epoch": 0.16566666666666666, "grad_norm": 0.7046902775764465, "learning_rate": 0.0002809489981738103, "loss": 3.983, "step": 79520 }, { "epoch": 0.1656875, "grad_norm": 0.8305380344390869, "learning_rate": 0.00028094418955696787, "loss": 3.8723, "step": 79530 }, { "epoch": 0.16570833333333335, "grad_norm": 0.7289179563522339, "learning_rate": 0.00028093938037449835, "loss": 4.0626, "step": 79540 }, { "epoch": 0.16572916666666668, "grad_norm": 0.7896987199783325, "learning_rate": 0.0002809345706264225, "loss": 3.9664, "step": 79550 }, { "epoch": 0.16575, "grad_norm": 0.8748692870140076, "learning_rate": 0.00028092976031276123, "loss": 3.8873, "step": 79560 }, { "epoch": 0.16577083333333334, "grad_norm": 0.763181209564209, "learning_rate": 0.00028092494943353515, "loss": 4.1144, "step": 79570 }, { "epoch": 0.16579166666666667, "grad_norm": 0.7084277868270874, "learning_rate": 0.0002809201379887651, "loss": 3.9035, "step": 79580 }, { "epoch": 0.1658125, "grad_norm": 0.7882450819015503, "learning_rate": 0.00028091532597847193, "loss": 4.0627, "step": 79590 }, { "epoch": 0.16583333333333333, "grad_norm": 0.7391655445098877, "learning_rate": 0.0002809105134026763, "loss": 3.9874, "step": 79600 }, { "epoch": 0.16585416666666666, "grad_norm": 0.6247223615646362, "learning_rate": 0.00028090570026139913, "loss": 3.8176, "step": 79610 }, { "epoch": 0.165875, "grad_norm": 0.7402728796005249, "learning_rate": 0.00028090088655466117, "loss": 3.9619, "step": 79620 }, { "epoch": 0.16589583333333333, "grad_norm": 0.7551479935646057, "learning_rate": 0.0002808960722824831, "loss": 3.979, "step": 79630 }, { "epoch": 0.16591666666666666, "grad_norm": 0.8004513382911682, "learning_rate": 0.0002808912574448859, "loss": 3.9965, "step": 79640 }, { "epoch": 0.1659375, "grad_norm": 0.7752111554145813, "learning_rate": 0.00028088644204189023, "loss": 4.0278, "step": 79650 }, { "epoch": 0.16595833333333335, "grad_norm": 0.6938941478729248, "learning_rate": 0.000280881626073517, "loss": 4.0134, "step": 79660 }, { "epoch": 0.16597916666666668, "grad_norm": 0.7550760507583618, "learning_rate": 0.0002808768095397869, "loss": 3.9678, "step": 79670 }, { "epoch": 0.166, "grad_norm": 0.7024582624435425, "learning_rate": 0.0002808719924407208, "loss": 4.1876, "step": 79680 }, { "epoch": 0.16602083333333334, "grad_norm": 0.7355544567108154, "learning_rate": 0.00028086717477633947, "loss": 3.8906, "step": 79690 }, { "epoch": 0.16604166666666667, "grad_norm": 0.7261409759521484, "learning_rate": 0.00028086235654666377, "loss": 3.8891, "step": 79700 }, { "epoch": 0.1660625, "grad_norm": 0.7331125736236572, "learning_rate": 0.0002808575377517145, "loss": 3.8622, "step": 79710 }, { "epoch": 0.16608333333333333, "grad_norm": 0.6785262823104858, "learning_rate": 0.00028085271839151246, "loss": 3.8791, "step": 79720 }, { "epoch": 0.16610416666666666, "grad_norm": 0.7882601022720337, "learning_rate": 0.0002808478984660785, "loss": 3.9126, "step": 79730 }, { "epoch": 0.166125, "grad_norm": 0.8628820180892944, "learning_rate": 0.0002808430779754333, "loss": 3.8392, "step": 79740 }, { "epoch": 0.16614583333333333, "grad_norm": 0.7681230306625366, "learning_rate": 0.00028083825691959784, "loss": 4.0293, "step": 79750 }, { "epoch": 0.16616666666666666, "grad_norm": 0.7893106937408447, "learning_rate": 0.000280833435298593, "loss": 3.9894, "step": 79760 }, { "epoch": 0.1661875, "grad_norm": 1.605272650718689, "learning_rate": 0.0002808286131124394, "loss": 3.9703, "step": 79770 }, { "epoch": 0.16620833333333335, "grad_norm": 0.8590608835220337, "learning_rate": 0.000280823790361158, "loss": 3.9137, "step": 79780 }, { "epoch": 0.16622916666666668, "grad_norm": 0.7291718125343323, "learning_rate": 0.00028081896704476963, "loss": 3.972, "step": 79790 }, { "epoch": 0.16625, "grad_norm": 0.7869355082511902, "learning_rate": 0.00028081414316329513, "loss": 4.0359, "step": 79800 }, { "epoch": 0.16627083333333334, "grad_norm": 0.8046999573707581, "learning_rate": 0.00028080931871675527, "loss": 4.0786, "step": 79810 }, { "epoch": 0.16629166666666667, "grad_norm": 0.7285691499710083, "learning_rate": 0.00028080449370517093, "loss": 4.1393, "step": 79820 }, { "epoch": 0.1663125, "grad_norm": 0.8584742546081543, "learning_rate": 0.000280799668128563, "loss": 4.04, "step": 79830 }, { "epoch": 0.16633333333333333, "grad_norm": 0.7154002785682678, "learning_rate": 0.0002807948419869522, "loss": 3.9499, "step": 79840 }, { "epoch": 0.16635416666666666, "grad_norm": 0.7684343457221985, "learning_rate": 0.0002807900152803595, "loss": 3.9646, "step": 79850 }, { "epoch": 0.166375, "grad_norm": 0.7506988644599915, "learning_rate": 0.00028078518800880566, "loss": 3.9211, "step": 79860 }, { "epoch": 0.16639583333333333, "grad_norm": 0.7584805488586426, "learning_rate": 0.0002807803601723116, "loss": 4.0662, "step": 79870 }, { "epoch": 0.16641666666666666, "grad_norm": 0.8655499219894409, "learning_rate": 0.0002807755317708982, "loss": 3.8505, "step": 79880 }, { "epoch": 0.1664375, "grad_norm": 0.7434529662132263, "learning_rate": 0.00028077070280458624, "loss": 4.0159, "step": 79890 }, { "epoch": 0.16645833333333335, "grad_norm": 0.9914050698280334, "learning_rate": 0.0002807658732733966, "loss": 4.0689, "step": 79900 }, { "epoch": 0.16647916666666668, "grad_norm": 0.8440589904785156, "learning_rate": 0.00028076104317735013, "loss": 3.9918, "step": 79910 }, { "epoch": 0.1665, "grad_norm": 0.7226964235305786, "learning_rate": 0.0002807562125164677, "loss": 3.9756, "step": 79920 }, { "epoch": 0.16652083333333334, "grad_norm": 0.8264700174331665, "learning_rate": 0.00028075138129077026, "loss": 3.7759, "step": 79930 }, { "epoch": 0.16654166666666667, "grad_norm": 0.7220835089683533, "learning_rate": 0.00028074654950027857, "loss": 3.9762, "step": 79940 }, { "epoch": 0.1665625, "grad_norm": 0.7459014058113098, "learning_rate": 0.0002807417171450135, "loss": 3.7879, "step": 79950 }, { "epoch": 0.16658333333333333, "grad_norm": 0.8057001829147339, "learning_rate": 0.000280736884224996, "loss": 3.936, "step": 79960 }, { "epoch": 0.16660416666666666, "grad_norm": 0.7922872304916382, "learning_rate": 0.0002807320507402469, "loss": 3.9335, "step": 79970 }, { "epoch": 0.166625, "grad_norm": 0.8780884146690369, "learning_rate": 0.00028072721669078715, "loss": 3.9507, "step": 79980 }, { "epoch": 0.16664583333333333, "grad_norm": 0.8475663065910339, "learning_rate": 0.0002807223820766375, "loss": 3.7474, "step": 79990 }, { "epoch": 0.16666666666666666, "grad_norm": 1.1149990558624268, "learning_rate": 0.0002807175468978189, "loss": 3.8218, "step": 80000 }, { "epoch": 0.16666666666666666, "eval_loss": 4.279177665710449, "eval_runtime": 13.5557, "eval_samples_per_second": 0.738, "eval_steps_per_second": 0.221, "step": 80000 }, { "epoch": 0.1666875, "grad_norm": 0.8452630639076233, "learning_rate": 0.0002807127111543523, "loss": 3.9662, "step": 80010 }, { "epoch": 0.16670833333333332, "grad_norm": 0.8235986828804016, "learning_rate": 0.0002807078748462584, "loss": 3.7763, "step": 80020 }, { "epoch": 0.16672916666666668, "grad_norm": 1.0518958568572998, "learning_rate": 0.0002807030379735583, "loss": 3.9067, "step": 80030 }, { "epoch": 0.16675, "grad_norm": 0.9278172254562378, "learning_rate": 0.0002806982005362728, "loss": 3.7963, "step": 80040 }, { "epoch": 0.16677083333333334, "grad_norm": 0.7798091173171997, "learning_rate": 0.0002806933625344229, "loss": 4.0174, "step": 80050 }, { "epoch": 0.16679166666666667, "grad_norm": 0.8742340207099915, "learning_rate": 0.0002806885239680293, "loss": 3.9202, "step": 80060 }, { "epoch": 0.1668125, "grad_norm": 0.9284462928771973, "learning_rate": 0.000280683684837113, "loss": 3.7859, "step": 80070 }, { "epoch": 0.16683333333333333, "grad_norm": 0.8931137323379517, "learning_rate": 0.000280678845141695, "loss": 3.7204, "step": 80080 }, { "epoch": 0.16685416666666666, "grad_norm": 0.7700774073600769, "learning_rate": 0.00028067400488179605, "loss": 4.0482, "step": 80090 }, { "epoch": 0.166875, "grad_norm": 0.7893162965774536, "learning_rate": 0.0002806691640574371, "loss": 3.8758, "step": 80100 }, { "epoch": 0.16689583333333333, "grad_norm": 0.8157781958580017, "learning_rate": 0.0002806643226686391, "loss": 4.164, "step": 80110 }, { "epoch": 0.16691666666666666, "grad_norm": 0.7681192755699158, "learning_rate": 0.000280659480715423, "loss": 3.8519, "step": 80120 }, { "epoch": 0.1669375, "grad_norm": 0.8873482942581177, "learning_rate": 0.0002806546381978096, "loss": 4.0934, "step": 80130 }, { "epoch": 0.16695833333333332, "grad_norm": 0.8485541939735413, "learning_rate": 0.00028064979511581987, "loss": 3.8956, "step": 80140 }, { "epoch": 0.16697916666666668, "grad_norm": 0.8873647451400757, "learning_rate": 0.0002806449514694748, "loss": 4.0133, "step": 80150 }, { "epoch": 0.167, "grad_norm": 1.0057164430618286, "learning_rate": 0.00028064010725879524, "loss": 3.923, "step": 80160 }, { "epoch": 0.16702083333333334, "grad_norm": 0.6553002595901489, "learning_rate": 0.0002806352624838021, "loss": 4.0175, "step": 80170 }, { "epoch": 0.16704166666666667, "grad_norm": 0.811758279800415, "learning_rate": 0.0002806304171445164, "loss": 3.8816, "step": 80180 }, { "epoch": 0.1670625, "grad_norm": 0.7502511143684387, "learning_rate": 0.0002806255712409589, "loss": 3.997, "step": 80190 }, { "epoch": 0.16708333333333333, "grad_norm": 0.7627707719802856, "learning_rate": 0.0002806207247731507, "loss": 4.0348, "step": 80200 }, { "epoch": 0.16710416666666666, "grad_norm": 0.7465724349021912, "learning_rate": 0.00028061587774111266, "loss": 3.9098, "step": 80210 }, { "epoch": 0.167125, "grad_norm": 0.733873724937439, "learning_rate": 0.0002806110301448657, "loss": 3.9728, "step": 80220 }, { "epoch": 0.16714583333333333, "grad_norm": 0.8118357062339783, "learning_rate": 0.00028060618198443086, "loss": 3.8905, "step": 80230 }, { "epoch": 0.16716666666666666, "grad_norm": 0.6868577003479004, "learning_rate": 0.00028060133325982897, "loss": 3.9723, "step": 80240 }, { "epoch": 0.1671875, "grad_norm": 0.9205425381660461, "learning_rate": 0.000280596483971081, "loss": 4.0445, "step": 80250 }, { "epoch": 0.16720833333333332, "grad_norm": 0.8666914701461792, "learning_rate": 0.000280591634118208, "loss": 3.9385, "step": 80260 }, { "epoch": 0.16722916666666668, "grad_norm": 0.7166321873664856, "learning_rate": 0.00028058678370123074, "loss": 3.6853, "step": 80270 }, { "epoch": 0.16725, "grad_norm": 0.9137424230575562, "learning_rate": 0.00028058193272017027, "loss": 3.9477, "step": 80280 }, { "epoch": 0.16727083333333334, "grad_norm": 0.7676709294319153, "learning_rate": 0.0002805770811750476, "loss": 4.1922, "step": 80290 }, { "epoch": 0.16729166666666667, "grad_norm": 0.7563128471374512, "learning_rate": 0.00028057222906588354, "loss": 3.933, "step": 80300 }, { "epoch": 0.1673125, "grad_norm": 0.9271994233131409, "learning_rate": 0.0002805673763926992, "loss": 3.9907, "step": 80310 }, { "epoch": 0.16733333333333333, "grad_norm": 0.7976372241973877, "learning_rate": 0.0002805625231555154, "loss": 3.9676, "step": 80320 }, { "epoch": 0.16735416666666666, "grad_norm": 0.901520848274231, "learning_rate": 0.00028055766935435327, "loss": 3.8295, "step": 80330 }, { "epoch": 0.167375, "grad_norm": 0.7262623310089111, "learning_rate": 0.00028055281498923364, "loss": 3.8379, "step": 80340 }, { "epoch": 0.16739583333333333, "grad_norm": 0.9015292525291443, "learning_rate": 0.00028054796006017754, "loss": 3.8567, "step": 80350 }, { "epoch": 0.16741666666666666, "grad_norm": 0.7392222285270691, "learning_rate": 0.00028054310456720593, "loss": 4.064, "step": 80360 }, { "epoch": 0.1674375, "grad_norm": 0.9553157687187195, "learning_rate": 0.0002805382485103398, "loss": 3.9364, "step": 80370 }, { "epoch": 0.16745833333333332, "grad_norm": 0.712239146232605, "learning_rate": 0.00028053339188960005, "loss": 4.0212, "step": 80380 }, { "epoch": 0.16747916666666668, "grad_norm": 0.761043131351471, "learning_rate": 0.00028052853470500775, "loss": 3.9499, "step": 80390 }, { "epoch": 0.1675, "grad_norm": 0.8301210403442383, "learning_rate": 0.00028052367695658386, "loss": 3.9665, "step": 80400 }, { "epoch": 0.16752083333333334, "grad_norm": 0.9389559030532837, "learning_rate": 0.0002805188186443493, "loss": 3.9139, "step": 80410 }, { "epoch": 0.16754166666666667, "grad_norm": 0.7564241290092468, "learning_rate": 0.0002805139597683252, "loss": 4.0067, "step": 80420 }, { "epoch": 0.1675625, "grad_norm": 0.6750020980834961, "learning_rate": 0.00028050910032853234, "loss": 3.921, "step": 80430 }, { "epoch": 0.16758333333333333, "grad_norm": 0.7333940863609314, "learning_rate": 0.0002805042403249919, "loss": 3.8761, "step": 80440 }, { "epoch": 0.16760416666666667, "grad_norm": 0.7410913705825806, "learning_rate": 0.0002804993797577248, "loss": 3.865, "step": 80450 }, { "epoch": 0.167625, "grad_norm": 0.7607890963554382, "learning_rate": 0.000280494518626752, "loss": 3.9806, "step": 80460 }, { "epoch": 0.16764583333333333, "grad_norm": 0.7862135171890259, "learning_rate": 0.00028048965693209453, "loss": 3.9377, "step": 80470 }, { "epoch": 0.16766666666666666, "grad_norm": 0.8229547142982483, "learning_rate": 0.0002804847946737734, "loss": 3.9907, "step": 80480 }, { "epoch": 0.1676875, "grad_norm": 0.8241860866546631, "learning_rate": 0.0002804799318518096, "loss": 3.8821, "step": 80490 }, { "epoch": 0.16770833333333332, "grad_norm": 0.843778133392334, "learning_rate": 0.0002804750684662242, "loss": 3.89, "step": 80500 }, { "epoch": 0.16772916666666668, "grad_norm": 0.7160305976867676, "learning_rate": 0.0002804702045170381, "loss": 4.1016, "step": 80510 }, { "epoch": 0.16775, "grad_norm": 0.7118239402770996, "learning_rate": 0.0002804653400042724, "loss": 3.9687, "step": 80520 }, { "epoch": 0.16777083333333334, "grad_norm": 0.7526283860206604, "learning_rate": 0.00028046047492794805, "loss": 4.0954, "step": 80530 }, { "epoch": 0.16779166666666667, "grad_norm": 0.7911638021469116, "learning_rate": 0.00028045560928808606, "loss": 3.9884, "step": 80540 }, { "epoch": 0.1678125, "grad_norm": 0.7980467677116394, "learning_rate": 0.0002804507430847075, "loss": 3.8179, "step": 80550 }, { "epoch": 0.16783333333333333, "grad_norm": 0.7775265574455261, "learning_rate": 0.00028044587631783334, "loss": 3.9125, "step": 80560 }, { "epoch": 0.16785416666666667, "grad_norm": 0.6612196564674377, "learning_rate": 0.0002804410089874846, "loss": 3.9613, "step": 80570 }, { "epoch": 0.167875, "grad_norm": 0.7300620675086975, "learning_rate": 0.00028043614109368243, "loss": 3.9923, "step": 80580 }, { "epoch": 0.16789583333333333, "grad_norm": 0.7935642004013062, "learning_rate": 0.00028043127263644775, "loss": 4.0617, "step": 80590 }, { "epoch": 0.16791666666666666, "grad_norm": 0.8007091879844666, "learning_rate": 0.00028042640361580155, "loss": 3.8146, "step": 80600 }, { "epoch": 0.1679375, "grad_norm": 0.7504349946975708, "learning_rate": 0.0002804215340317649, "loss": 3.8772, "step": 80610 }, { "epoch": 0.16795833333333332, "grad_norm": 0.6971269845962524, "learning_rate": 0.00028041666388435886, "loss": 3.8208, "step": 80620 }, { "epoch": 0.16797916666666668, "grad_norm": 0.7043132185935974, "learning_rate": 0.0002804117931736045, "loss": 3.8472, "step": 80630 }, { "epoch": 0.168, "grad_norm": 0.8482775688171387, "learning_rate": 0.0002804069218995228, "loss": 3.8935, "step": 80640 }, { "epoch": 0.16802083333333334, "grad_norm": 0.7840139269828796, "learning_rate": 0.0002804020500621348, "loss": 3.888, "step": 80650 }, { "epoch": 0.16804166666666667, "grad_norm": 0.7546809911727905, "learning_rate": 0.00028039717766146154, "loss": 3.8702, "step": 80660 }, { "epoch": 0.1680625, "grad_norm": 0.8147913813591003, "learning_rate": 0.00028039230469752407, "loss": 4.02, "step": 80670 }, { "epoch": 0.16808333333333333, "grad_norm": 0.8539531230926514, "learning_rate": 0.00028038743117034357, "loss": 3.943, "step": 80680 }, { "epoch": 0.16810416666666667, "grad_norm": 0.8945760726928711, "learning_rate": 0.00028038255707994085, "loss": 4.0914, "step": 80690 }, { "epoch": 0.168125, "grad_norm": 0.8220838904380798, "learning_rate": 0.0002803776824263372, "loss": 3.9033, "step": 80700 }, { "epoch": 0.16814583333333333, "grad_norm": 0.6471647024154663, "learning_rate": 0.00028037280720955346, "loss": 3.7948, "step": 80710 }, { "epoch": 0.16816666666666666, "grad_norm": 0.9927796125411987, "learning_rate": 0.00028036793142961086, "loss": 3.9242, "step": 80720 }, { "epoch": 0.1681875, "grad_norm": 0.7403928637504578, "learning_rate": 0.0002803630550865304, "loss": 3.9476, "step": 80730 }, { "epoch": 0.16820833333333332, "grad_norm": 1.2569527626037598, "learning_rate": 0.00028035817818033315, "loss": 4.079, "step": 80740 }, { "epoch": 0.16822916666666668, "grad_norm": 0.7572879195213318, "learning_rate": 0.0002803533007110401, "loss": 3.9825, "step": 80750 }, { "epoch": 0.16825, "grad_norm": 0.84687739610672, "learning_rate": 0.0002803484226786725, "loss": 4.0196, "step": 80760 }, { "epoch": 0.16827083333333334, "grad_norm": 0.764293372631073, "learning_rate": 0.0002803435440832512, "loss": 3.83, "step": 80770 }, { "epoch": 0.16829166666666667, "grad_norm": 0.8155115246772766, "learning_rate": 0.0002803386649247975, "loss": 4.1501, "step": 80780 }, { "epoch": 0.1683125, "grad_norm": 0.9214715957641602, "learning_rate": 0.0002803337852033323, "loss": 3.9874, "step": 80790 }, { "epoch": 0.16833333333333333, "grad_norm": 0.806868314743042, "learning_rate": 0.0002803289049188767, "loss": 4.077, "step": 80800 }, { "epoch": 0.16835416666666667, "grad_norm": 0.8796967267990112, "learning_rate": 0.00028032402407145184, "loss": 4.1104, "step": 80810 }, { "epoch": 0.168375, "grad_norm": 0.789475679397583, "learning_rate": 0.00028031914266107876, "loss": 4.1166, "step": 80820 }, { "epoch": 0.16839583333333333, "grad_norm": 0.6871716976165771, "learning_rate": 0.00028031426068777864, "loss": 4.0947, "step": 80830 }, { "epoch": 0.16841666666666666, "grad_norm": 0.7051374912261963, "learning_rate": 0.00028030937815157246, "loss": 3.9045, "step": 80840 }, { "epoch": 0.1684375, "grad_norm": 0.809330403804779, "learning_rate": 0.0002803044950524813, "loss": 3.9822, "step": 80850 }, { "epoch": 0.16845833333333332, "grad_norm": 0.9692503213882446, "learning_rate": 0.0002802996113905264, "loss": 3.9517, "step": 80860 }, { "epoch": 0.16847916666666668, "grad_norm": 0.8738134503364563, "learning_rate": 0.00028029472716572867, "loss": 3.7231, "step": 80870 }, { "epoch": 0.1685, "grad_norm": 0.7911787033081055, "learning_rate": 0.0002802898423781093, "loss": 3.6726, "step": 80880 }, { "epoch": 0.16852083333333334, "grad_norm": 0.7951427698135376, "learning_rate": 0.0002802849570276894, "loss": 4.0394, "step": 80890 }, { "epoch": 0.16854166666666667, "grad_norm": 0.810341477394104, "learning_rate": 0.0002802800711144901, "loss": 3.7436, "step": 80900 }, { "epoch": 0.1685625, "grad_norm": 0.9517556428909302, "learning_rate": 0.0002802751846385324, "loss": 3.8068, "step": 80910 }, { "epoch": 0.16858333333333334, "grad_norm": 0.8446322083473206, "learning_rate": 0.00028027029759983746, "loss": 3.9325, "step": 80920 }, { "epoch": 0.16860416666666667, "grad_norm": 0.7706509232521057, "learning_rate": 0.00028026540999842646, "loss": 3.9307, "step": 80930 }, { "epoch": 0.168625, "grad_norm": 0.8258076310157776, "learning_rate": 0.0002802605218343204, "loss": 4.0252, "step": 80940 }, { "epoch": 0.16864583333333333, "grad_norm": 0.87649005651474, "learning_rate": 0.0002802556331075405, "loss": 3.9053, "step": 80950 }, { "epoch": 0.16866666666666666, "grad_norm": 0.8166248798370361, "learning_rate": 0.00028025074381810776, "loss": 3.9387, "step": 80960 }, { "epoch": 0.1686875, "grad_norm": 0.710884153842926, "learning_rate": 0.0002802458539660434, "loss": 3.8249, "step": 80970 }, { "epoch": 0.16870833333333332, "grad_norm": 0.7656628489494324, "learning_rate": 0.00028024096355136854, "loss": 3.9008, "step": 80980 }, { "epoch": 0.16872916666666668, "grad_norm": 0.8113968968391418, "learning_rate": 0.0002802360725741042, "loss": 3.8273, "step": 80990 }, { "epoch": 0.16875, "grad_norm": 0.7586864829063416, "learning_rate": 0.0002802311810342716, "loss": 3.9225, "step": 81000 }, { "epoch": 0.16875, "eval_loss": 4.2763352394104, "eval_runtime": 10.2697, "eval_samples_per_second": 0.974, "eval_steps_per_second": 0.292, "step": 81000 }, { "epoch": 0.16877083333333334, "grad_norm": 0.9365801215171814, "learning_rate": 0.0002802262889318918, "loss": 4.0601, "step": 81010 }, { "epoch": 0.16879166666666667, "grad_norm": 0.8260058760643005, "learning_rate": 0.00028022139626698606, "loss": 3.9112, "step": 81020 }, { "epoch": 0.1688125, "grad_norm": 0.8280866146087646, "learning_rate": 0.00028021650303957545, "loss": 4.0152, "step": 81030 }, { "epoch": 0.16883333333333334, "grad_norm": 1.4335800409317017, "learning_rate": 0.000280211609249681, "loss": 3.9492, "step": 81040 }, { "epoch": 0.16885416666666667, "grad_norm": 0.7633799314498901, "learning_rate": 0.000280206714897324, "loss": 3.8855, "step": 81050 }, { "epoch": 0.168875, "grad_norm": 0.6972874402999878, "learning_rate": 0.0002802018199825255, "loss": 3.8978, "step": 81060 }, { "epoch": 0.16889583333333333, "grad_norm": 0.7478734850883484, "learning_rate": 0.0002801969245053067, "loss": 3.8746, "step": 81070 }, { "epoch": 0.16891666666666666, "grad_norm": 0.8007070422172546, "learning_rate": 0.0002801920284656887, "loss": 3.9347, "step": 81080 }, { "epoch": 0.1689375, "grad_norm": 0.7030515670776367, "learning_rate": 0.0002801871318636927, "loss": 3.8915, "step": 81090 }, { "epoch": 0.16895833333333332, "grad_norm": 0.7649484872817993, "learning_rate": 0.0002801822346993398, "loss": 4.0601, "step": 81100 }, { "epoch": 0.16897916666666668, "grad_norm": 0.8628623485565186, "learning_rate": 0.00028017733697265117, "loss": 3.9757, "step": 81110 }, { "epoch": 0.169, "grad_norm": 0.8294559717178345, "learning_rate": 0.000280172438683648, "loss": 3.8758, "step": 81120 }, { "epoch": 0.16902083333333334, "grad_norm": 0.8107723593711853, "learning_rate": 0.0002801675398323514, "loss": 3.7453, "step": 81130 }, { "epoch": 0.16904166666666667, "grad_norm": 0.795534074306488, "learning_rate": 0.0002801626404187826, "loss": 4.1106, "step": 81140 }, { "epoch": 0.1690625, "grad_norm": 0.7420551776885986, "learning_rate": 0.0002801577404429626, "loss": 4.0992, "step": 81150 }, { "epoch": 0.16908333333333334, "grad_norm": 0.8054308891296387, "learning_rate": 0.0002801528399049128, "loss": 4.01, "step": 81160 }, { "epoch": 0.16910416666666667, "grad_norm": 0.8937034010887146, "learning_rate": 0.0002801479388046542, "loss": 3.9965, "step": 81170 }, { "epoch": 0.169125, "grad_norm": 0.7872990965843201, "learning_rate": 0.00028014303714220804, "loss": 3.9223, "step": 81180 }, { "epoch": 0.16914583333333333, "grad_norm": 0.731533944606781, "learning_rate": 0.00028013813491759547, "loss": 3.929, "step": 81190 }, { "epoch": 0.16916666666666666, "grad_norm": 0.7908456921577454, "learning_rate": 0.0002801332321308376, "loss": 3.8914, "step": 81200 }, { "epoch": 0.1691875, "grad_norm": 0.7911894917488098, "learning_rate": 0.00028012832878195575, "loss": 4.056, "step": 81210 }, { "epoch": 0.16920833333333332, "grad_norm": 0.770489513874054, "learning_rate": 0.000280123424870971, "loss": 3.8683, "step": 81220 }, { "epoch": 0.16922916666666668, "grad_norm": 0.7589853405952454, "learning_rate": 0.0002801185203979046, "loss": 3.8689, "step": 81230 }, { "epoch": 0.16925, "grad_norm": 0.8417106866836548, "learning_rate": 0.0002801136153627777, "loss": 3.9292, "step": 81240 }, { "epoch": 0.16927083333333334, "grad_norm": 0.7086093425750732, "learning_rate": 0.0002801087097656114, "loss": 4.0074, "step": 81250 }, { "epoch": 0.16929166666666667, "grad_norm": 0.7774686217308044, "learning_rate": 0.00028010380360642703, "loss": 3.9733, "step": 81260 }, { "epoch": 0.1693125, "grad_norm": 0.8424275517463684, "learning_rate": 0.0002800988968852457, "loss": 3.9729, "step": 81270 }, { "epoch": 0.16933333333333334, "grad_norm": 0.7502890825271606, "learning_rate": 0.0002800939896020887, "loss": 3.8806, "step": 81280 }, { "epoch": 0.16935416666666667, "grad_norm": 0.8206419944763184, "learning_rate": 0.0002800890817569771, "loss": 4.0774, "step": 81290 }, { "epoch": 0.169375, "grad_norm": 0.8923568725585938, "learning_rate": 0.00028008417334993217, "loss": 3.8803, "step": 81300 }, { "epoch": 0.16939583333333333, "grad_norm": 0.7966017723083496, "learning_rate": 0.0002800792643809751, "loss": 3.9408, "step": 81310 }, { "epoch": 0.16941666666666666, "grad_norm": 0.8400110006332397, "learning_rate": 0.0002800743548501271, "loss": 4.0116, "step": 81320 }, { "epoch": 0.1694375, "grad_norm": 0.9517616033554077, "learning_rate": 0.00028006944475740943, "loss": 3.9417, "step": 81330 }, { "epoch": 0.16945833333333332, "grad_norm": 0.8916136026382446, "learning_rate": 0.0002800645341028432, "loss": 3.9859, "step": 81340 }, { "epoch": 0.16947916666666665, "grad_norm": 0.8174871802330017, "learning_rate": 0.0002800596228864496, "loss": 3.9851, "step": 81350 }, { "epoch": 0.1695, "grad_norm": 0.8414157032966614, "learning_rate": 0.00028005471110825, "loss": 4.0557, "step": 81360 }, { "epoch": 0.16952083333333334, "grad_norm": 0.8971309065818787, "learning_rate": 0.00028004979876826544, "loss": 3.8875, "step": 81370 }, { "epoch": 0.16954166666666667, "grad_norm": 0.7312085628509521, "learning_rate": 0.00028004488586651737, "loss": 3.9962, "step": 81380 }, { "epoch": 0.1695625, "grad_norm": 0.7814056277275085, "learning_rate": 0.00028003997240302675, "loss": 4.0662, "step": 81390 }, { "epoch": 0.16958333333333334, "grad_norm": 0.7489016652107239, "learning_rate": 0.00028003505837781494, "loss": 4.0411, "step": 81400 }, { "epoch": 0.16960416666666667, "grad_norm": 0.7263377904891968, "learning_rate": 0.00028003014379090314, "loss": 3.6851, "step": 81410 }, { "epoch": 0.169625, "grad_norm": 0.7704399824142456, "learning_rate": 0.00028002522864231265, "loss": 4.059, "step": 81420 }, { "epoch": 0.16964583333333333, "grad_norm": 0.8734249472618103, "learning_rate": 0.00028002031293206456, "loss": 3.9703, "step": 81430 }, { "epoch": 0.16966666666666666, "grad_norm": 0.8154728412628174, "learning_rate": 0.00028001539666018023, "loss": 3.912, "step": 81440 }, { "epoch": 0.1696875, "grad_norm": 0.7092462778091431, "learning_rate": 0.00028001047982668085, "loss": 4.0379, "step": 81450 }, { "epoch": 0.16970833333333332, "grad_norm": 0.7194523215293884, "learning_rate": 0.00028000556243158763, "loss": 3.9872, "step": 81460 }, { "epoch": 0.16972916666666665, "grad_norm": 0.7849944829940796, "learning_rate": 0.00028000064447492186, "loss": 3.8286, "step": 81470 }, { "epoch": 0.16975, "grad_norm": 0.9588846564292908, "learning_rate": 0.0002799957259567048, "loss": 4.0981, "step": 81480 }, { "epoch": 0.16977083333333334, "grad_norm": 0.8593902587890625, "learning_rate": 0.00027999080687695764, "loss": 3.9407, "step": 81490 }, { "epoch": 0.16979166666666667, "grad_norm": 0.7419275641441345, "learning_rate": 0.00027998588723570164, "loss": 3.9196, "step": 81500 }, { "epoch": 0.1698125, "grad_norm": 0.7268814444541931, "learning_rate": 0.00027998096703295804, "loss": 3.8543, "step": 81510 }, { "epoch": 0.16983333333333334, "grad_norm": 0.8479039072990417, "learning_rate": 0.00027997604626874814, "loss": 3.8584, "step": 81520 }, { "epoch": 0.16985416666666667, "grad_norm": 0.7454650402069092, "learning_rate": 0.00027997112494309315, "loss": 3.8629, "step": 81530 }, { "epoch": 0.169875, "grad_norm": 0.7754976749420166, "learning_rate": 0.00027996620305601437, "loss": 3.9413, "step": 81540 }, { "epoch": 0.16989583333333333, "grad_norm": 0.7925341129302979, "learning_rate": 0.000279961280607533, "loss": 3.9988, "step": 81550 }, { "epoch": 0.16991666666666666, "grad_norm": 0.6735754013061523, "learning_rate": 0.0002799563575976704, "loss": 3.6264, "step": 81560 }, { "epoch": 0.1699375, "grad_norm": 0.7044580578804016, "learning_rate": 0.00027995143402644767, "loss": 3.8438, "step": 81570 }, { "epoch": 0.16995833333333332, "grad_norm": 0.7400422096252441, "learning_rate": 0.0002799465098938863, "loss": 3.7251, "step": 81580 }, { "epoch": 0.16997916666666665, "grad_norm": 0.6878264546394348, "learning_rate": 0.00027994158520000734, "loss": 3.9619, "step": 81590 }, { "epoch": 0.17, "grad_norm": 0.8356401324272156, "learning_rate": 0.00027993665994483223, "loss": 4.0376, "step": 81600 }, { "epoch": 0.17002083333333334, "grad_norm": 0.747235119342804, "learning_rate": 0.00027993173412838214, "loss": 3.7897, "step": 81610 }, { "epoch": 0.17004166666666667, "grad_norm": 0.7572356462478638, "learning_rate": 0.0002799268077506784, "loss": 3.9198, "step": 81620 }, { "epoch": 0.1700625, "grad_norm": 0.8312356472015381, "learning_rate": 0.0002799218808117423, "loss": 3.8251, "step": 81630 }, { "epoch": 0.17008333333333334, "grad_norm": 0.7768791913986206, "learning_rate": 0.00027991695331159515, "loss": 4.0483, "step": 81640 }, { "epoch": 0.17010416666666667, "grad_norm": 0.7399845719337463, "learning_rate": 0.0002799120252502581, "loss": 3.8332, "step": 81650 }, { "epoch": 0.170125, "grad_norm": 0.8403314352035522, "learning_rate": 0.0002799070966277526, "loss": 3.7749, "step": 81660 }, { "epoch": 0.17014583333333333, "grad_norm": 0.8226832151412964, "learning_rate": 0.00027990216744409977, "loss": 3.8442, "step": 81670 }, { "epoch": 0.17016666666666666, "grad_norm": 0.8040117025375366, "learning_rate": 0.0002798972376993211, "loss": 3.857, "step": 81680 }, { "epoch": 0.1701875, "grad_norm": 0.7344703674316406, "learning_rate": 0.0002798923073934377, "loss": 3.8561, "step": 81690 }, { "epoch": 0.17020833333333332, "grad_norm": 0.7911918759346008, "learning_rate": 0.00027988737652647096, "loss": 3.7935, "step": 81700 }, { "epoch": 0.17022916666666665, "grad_norm": 0.9366786479949951, "learning_rate": 0.0002798824450984422, "loss": 3.921, "step": 81710 }, { "epoch": 0.17025, "grad_norm": 0.7270379662513733, "learning_rate": 0.0002798775131093727, "loss": 3.9251, "step": 81720 }, { "epoch": 0.17027083333333334, "grad_norm": 0.8347195386886597, "learning_rate": 0.0002798725805592837, "loss": 3.9917, "step": 81730 }, { "epoch": 0.17029166666666667, "grad_norm": 0.9000596404075623, "learning_rate": 0.00027986764744819656, "loss": 3.9198, "step": 81740 }, { "epoch": 0.1703125, "grad_norm": 0.8652284741401672, "learning_rate": 0.0002798627137761326, "loss": 3.9431, "step": 81750 }, { "epoch": 0.17033333333333334, "grad_norm": 0.8584786057472229, "learning_rate": 0.00027985777954311317, "loss": 4.0206, "step": 81760 }, { "epoch": 0.17035416666666667, "grad_norm": 0.7957494854927063, "learning_rate": 0.0002798528447491595, "loss": 3.8217, "step": 81770 }, { "epoch": 0.170375, "grad_norm": 0.7840234041213989, "learning_rate": 0.0002798479093942929, "loss": 3.8107, "step": 81780 }, { "epoch": 0.17039583333333333, "grad_norm": 0.753703773021698, "learning_rate": 0.00027984297347853474, "loss": 3.979, "step": 81790 }, { "epoch": 0.17041666666666666, "grad_norm": 0.7476680874824524, "learning_rate": 0.0002798380370019064, "loss": 3.9949, "step": 81800 }, { "epoch": 0.1704375, "grad_norm": 0.76930832862854, "learning_rate": 0.0002798330999644291, "loss": 3.8382, "step": 81810 }, { "epoch": 0.17045833333333332, "grad_norm": 0.8193716406822205, "learning_rate": 0.0002798281623661241, "loss": 4.0202, "step": 81820 }, { "epoch": 0.17047916666666665, "grad_norm": 0.8611440062522888, "learning_rate": 0.000279823224207013, "loss": 3.949, "step": 81830 }, { "epoch": 0.1705, "grad_norm": 0.7474245429039001, "learning_rate": 0.00027981828548711684, "loss": 3.8777, "step": 81840 }, { "epoch": 0.17052083333333334, "grad_norm": 0.9600389003753662, "learning_rate": 0.0002798133462064571, "loss": 3.8844, "step": 81850 }, { "epoch": 0.17054166666666667, "grad_norm": 0.8112174868583679, "learning_rate": 0.0002798084063650551, "loss": 4.0268, "step": 81860 }, { "epoch": 0.1705625, "grad_norm": 0.8159454464912415, "learning_rate": 0.0002798034659629321, "loss": 4.1248, "step": 81870 }, { "epoch": 0.17058333333333334, "grad_norm": 0.7615405321121216, "learning_rate": 0.0002797985250001096, "loss": 3.8783, "step": 81880 }, { "epoch": 0.17060416666666667, "grad_norm": 0.7259865999221802, "learning_rate": 0.0002797935834766088, "loss": 3.9543, "step": 81890 }, { "epoch": 0.170625, "grad_norm": 0.8303022980690002, "learning_rate": 0.00027978864139245114, "loss": 3.7657, "step": 81900 }, { "epoch": 0.17064583333333333, "grad_norm": 0.8027812242507935, "learning_rate": 0.0002797836987476579, "loss": 3.6884, "step": 81910 }, { "epoch": 0.17066666666666666, "grad_norm": 0.7016518712043762, "learning_rate": 0.0002797787555422504, "loss": 3.9281, "step": 81920 }, { "epoch": 0.1706875, "grad_norm": 0.8657918572425842, "learning_rate": 0.0002797738117762501, "loss": 3.9241, "step": 81930 }, { "epoch": 0.17070833333333332, "grad_norm": 0.9392837882041931, "learning_rate": 0.00027976886744967834, "loss": 3.8857, "step": 81940 }, { "epoch": 0.17072916666666665, "grad_norm": 0.8146774172782898, "learning_rate": 0.0002797639225625564, "loss": 4.0934, "step": 81950 }, { "epoch": 0.17075, "grad_norm": 0.8431332111358643, "learning_rate": 0.00027975897711490566, "loss": 3.8374, "step": 81960 }, { "epoch": 0.17077083333333334, "grad_norm": 1.1008341312408447, "learning_rate": 0.0002797540311067475, "loss": 3.8019, "step": 81970 }, { "epoch": 0.17079166666666667, "grad_norm": 0.830689013004303, "learning_rate": 0.00027974908453810333, "loss": 4.0135, "step": 81980 }, { "epoch": 0.1708125, "grad_norm": 0.7396224141120911, "learning_rate": 0.0002797441374089944, "loss": 3.9514, "step": 81990 }, { "epoch": 0.17083333333333334, "grad_norm": 0.8435444831848145, "learning_rate": 0.00027973918971944224, "loss": 3.9183, "step": 82000 }, { "epoch": 0.17083333333333334, "eval_loss": 4.26815128326416, "eval_runtime": 10.2732, "eval_samples_per_second": 0.973, "eval_steps_per_second": 0.292, "step": 82000 }, { "epoch": 0.17085416666666667, "grad_norm": 0.8723925352096558, "learning_rate": 0.0002797342414694681, "loss": 3.7764, "step": 82010 }, { "epoch": 0.170875, "grad_norm": 0.7729418277740479, "learning_rate": 0.00027972929265909335, "loss": 3.9798, "step": 82020 }, { "epoch": 0.17089583333333333, "grad_norm": 0.8588160872459412, "learning_rate": 0.0002797243432883394, "loss": 3.9554, "step": 82030 }, { "epoch": 0.17091666666666666, "grad_norm": 0.9018920660018921, "learning_rate": 0.00027971939335722765, "loss": 3.9377, "step": 82040 }, { "epoch": 0.1709375, "grad_norm": 0.7072643637657166, "learning_rate": 0.0002797144428657795, "loss": 3.9855, "step": 82050 }, { "epoch": 0.17095833333333332, "grad_norm": 0.749917209148407, "learning_rate": 0.0002797094918140163, "loss": 4.0305, "step": 82060 }, { "epoch": 0.17097916666666665, "grad_norm": 0.8828359842300415, "learning_rate": 0.0002797045402019594, "loss": 3.9135, "step": 82070 }, { "epoch": 0.171, "grad_norm": 0.7662261128425598, "learning_rate": 0.00027969958802963026, "loss": 4.0648, "step": 82080 }, { "epoch": 0.17102083333333334, "grad_norm": 0.703414797782898, "learning_rate": 0.0002796946352970503, "loss": 3.957, "step": 82090 }, { "epoch": 0.17104166666666668, "grad_norm": 0.9364521503448486, "learning_rate": 0.00027968968200424075, "loss": 3.7102, "step": 82100 }, { "epoch": 0.1710625, "grad_norm": 0.7424483895301819, "learning_rate": 0.0002796847281512231, "loss": 3.8925, "step": 82110 }, { "epoch": 0.17108333333333334, "grad_norm": 0.7583352327346802, "learning_rate": 0.0002796797737380188, "loss": 3.9531, "step": 82120 }, { "epoch": 0.17110416666666667, "grad_norm": 0.7863916754722595, "learning_rate": 0.0002796748187646493, "loss": 3.9408, "step": 82130 }, { "epoch": 0.171125, "grad_norm": 0.7670108675956726, "learning_rate": 0.00027966986323113574, "loss": 4.0234, "step": 82140 }, { "epoch": 0.17114583333333333, "grad_norm": 0.7925761342048645, "learning_rate": 0.00027966490713749977, "loss": 3.9344, "step": 82150 }, { "epoch": 0.17116666666666666, "grad_norm": 0.764907717704773, "learning_rate": 0.0002796599504837628, "loss": 3.7791, "step": 82160 }, { "epoch": 0.1711875, "grad_norm": 0.7642652988433838, "learning_rate": 0.00027965499326994606, "loss": 3.8308, "step": 82170 }, { "epoch": 0.17120833333333332, "grad_norm": 0.7129635214805603, "learning_rate": 0.0002796500354960711, "loss": 3.9067, "step": 82180 }, { "epoch": 0.17122916666666665, "grad_norm": 0.9131090044975281, "learning_rate": 0.00027964507716215934, "loss": 3.9552, "step": 82190 }, { "epoch": 0.17125, "grad_norm": 0.705577552318573, "learning_rate": 0.0002796401182682321, "loss": 3.9065, "step": 82200 }, { "epoch": 0.17127083333333334, "grad_norm": 0.7409008145332336, "learning_rate": 0.0002796351588143109, "loss": 3.8939, "step": 82210 }, { "epoch": 0.17129166666666668, "grad_norm": 0.7977017164230347, "learning_rate": 0.00027963019880041716, "loss": 3.8995, "step": 82220 }, { "epoch": 0.1713125, "grad_norm": 0.6938869953155518, "learning_rate": 0.00027962523822657224, "loss": 4.0384, "step": 82230 }, { "epoch": 0.17133333333333334, "grad_norm": 0.7133720517158508, "learning_rate": 0.0002796202770927976, "loss": 3.8602, "step": 82240 }, { "epoch": 0.17135416666666667, "grad_norm": 0.83607017993927, "learning_rate": 0.0002796153153991147, "loss": 3.9322, "step": 82250 }, { "epoch": 0.171375, "grad_norm": 0.9939205050468445, "learning_rate": 0.0002796103531455449, "loss": 4.0756, "step": 82260 }, { "epoch": 0.17139583333333333, "grad_norm": 0.7288772463798523, "learning_rate": 0.00027960539033210967, "loss": 3.8335, "step": 82270 }, { "epoch": 0.17141666666666666, "grad_norm": 0.7894585728645325, "learning_rate": 0.0002796004269588305, "loss": 3.8929, "step": 82280 }, { "epoch": 0.1714375, "grad_norm": 0.8381339907646179, "learning_rate": 0.00027959546302572876, "loss": 4.0059, "step": 82290 }, { "epoch": 0.17145833333333332, "grad_norm": 0.7478272914886475, "learning_rate": 0.0002795904985328259, "loss": 4.1365, "step": 82300 }, { "epoch": 0.17147916666666665, "grad_norm": 0.7611980438232422, "learning_rate": 0.0002795855334801434, "loss": 3.9234, "step": 82310 }, { "epoch": 0.1715, "grad_norm": 0.7398145198822021, "learning_rate": 0.0002795805678677027, "loss": 3.9236, "step": 82320 }, { "epoch": 0.17152083333333334, "grad_norm": 0.8846268653869629, "learning_rate": 0.0002795756016955252, "loss": 3.7493, "step": 82330 }, { "epoch": 0.17154166666666668, "grad_norm": 0.7877893447875977, "learning_rate": 0.00027957063496363244, "loss": 3.9624, "step": 82340 }, { "epoch": 0.1715625, "grad_norm": 0.7485454082489014, "learning_rate": 0.00027956566767204586, "loss": 3.8892, "step": 82350 }, { "epoch": 0.17158333333333334, "grad_norm": 0.9533061981201172, "learning_rate": 0.00027956069982078676, "loss": 3.8027, "step": 82360 }, { "epoch": 0.17160416666666667, "grad_norm": 0.7603659629821777, "learning_rate": 0.00027955573140987685, "loss": 3.8284, "step": 82370 }, { "epoch": 0.171625, "grad_norm": 0.724149763584137, "learning_rate": 0.00027955076243933735, "loss": 3.8199, "step": 82380 }, { "epoch": 0.17164583333333333, "grad_norm": 0.773857831954956, "learning_rate": 0.0002795457929091899, "loss": 4.1184, "step": 82390 }, { "epoch": 0.17166666666666666, "grad_norm": 0.9327843189239502, "learning_rate": 0.00027954082281945585, "loss": 3.9101, "step": 82400 }, { "epoch": 0.1716875, "grad_norm": 0.7958089113235474, "learning_rate": 0.0002795358521701568, "loss": 3.7669, "step": 82410 }, { "epoch": 0.17170833333333332, "grad_norm": 0.9422511458396912, "learning_rate": 0.00027953088096131415, "loss": 3.8839, "step": 82420 }, { "epoch": 0.17172916666666665, "grad_norm": 0.775775134563446, "learning_rate": 0.00027952590919294926, "loss": 4.0133, "step": 82430 }, { "epoch": 0.17175, "grad_norm": 0.8461121320724487, "learning_rate": 0.0002795209368650838, "loss": 3.9321, "step": 82440 }, { "epoch": 0.17177083333333334, "grad_norm": 0.7532004714012146, "learning_rate": 0.0002795159639777391, "loss": 3.807, "step": 82450 }, { "epoch": 0.17179166666666668, "grad_norm": 0.7881927490234375, "learning_rate": 0.0002795109905309367, "loss": 3.8442, "step": 82460 }, { "epoch": 0.1718125, "grad_norm": 0.8583217859268188, "learning_rate": 0.00027950601652469817, "loss": 3.9713, "step": 82470 }, { "epoch": 0.17183333333333334, "grad_norm": 0.915955126285553, "learning_rate": 0.00027950104195904483, "loss": 4.1005, "step": 82480 }, { "epoch": 0.17185416666666667, "grad_norm": 0.75468909740448, "learning_rate": 0.00027949606683399825, "loss": 3.8659, "step": 82490 }, { "epoch": 0.171875, "grad_norm": 0.793210506439209, "learning_rate": 0.00027949109114958, "loss": 3.8902, "step": 82500 }, { "epoch": 0.17189583333333333, "grad_norm": 0.8105276226997375, "learning_rate": 0.0002794861149058114, "loss": 4.0892, "step": 82510 }, { "epoch": 0.17191666666666666, "grad_norm": 0.8544229865074158, "learning_rate": 0.0002794811381027141, "loss": 3.9561, "step": 82520 }, { "epoch": 0.1719375, "grad_norm": 0.747715413570404, "learning_rate": 0.0002794761607403095, "loss": 3.7651, "step": 82530 }, { "epoch": 0.17195833333333332, "grad_norm": 0.8120355606079102, "learning_rate": 0.0002794711828186192, "loss": 4.0433, "step": 82540 }, { "epoch": 0.17197916666666666, "grad_norm": 0.7175119519233704, "learning_rate": 0.00027946620433766454, "loss": 4.1538, "step": 82550 }, { "epoch": 0.172, "grad_norm": 0.8877245783805847, "learning_rate": 0.00027946122529746715, "loss": 3.8631, "step": 82560 }, { "epoch": 0.17202083333333335, "grad_norm": 0.7743420004844666, "learning_rate": 0.0002794562456980486, "loss": 3.9706, "step": 82570 }, { "epoch": 0.17204166666666668, "grad_norm": 0.835727870464325, "learning_rate": 0.0002794512655394302, "loss": 3.7865, "step": 82580 }, { "epoch": 0.1720625, "grad_norm": 0.7515754699707031, "learning_rate": 0.0002794462848216336, "loss": 3.8611, "step": 82590 }, { "epoch": 0.17208333333333334, "grad_norm": 0.6909577250480652, "learning_rate": 0.0002794413035446803, "loss": 3.8673, "step": 82600 }, { "epoch": 0.17210416666666667, "grad_norm": 0.91279536485672, "learning_rate": 0.0002794363217085918, "loss": 3.8781, "step": 82610 }, { "epoch": 0.172125, "grad_norm": 0.7650876045227051, "learning_rate": 0.00027943133931338963, "loss": 3.9332, "step": 82620 }, { "epoch": 0.17214583333333333, "grad_norm": 0.8592379093170166, "learning_rate": 0.0002794263563590953, "loss": 3.8654, "step": 82630 }, { "epoch": 0.17216666666666666, "grad_norm": 0.7955253720283508, "learning_rate": 0.0002794213728457304, "loss": 4.1012, "step": 82640 }, { "epoch": 0.1721875, "grad_norm": 0.7046810388565063, "learning_rate": 0.0002794163887733163, "loss": 3.9431, "step": 82650 }, { "epoch": 0.17220833333333332, "grad_norm": 0.7281967997550964, "learning_rate": 0.00027941140414187467, "loss": 4.0753, "step": 82660 }, { "epoch": 0.17222916666666666, "grad_norm": 0.694696843624115, "learning_rate": 0.00027940641895142705, "loss": 3.9286, "step": 82670 }, { "epoch": 0.17225, "grad_norm": 0.7811099290847778, "learning_rate": 0.00027940143320199487, "loss": 3.8833, "step": 82680 }, { "epoch": 0.17227083333333335, "grad_norm": 0.7503398656845093, "learning_rate": 0.00027939644689359966, "loss": 3.8663, "step": 82690 }, { "epoch": 0.17229166666666668, "grad_norm": 0.706331729888916, "learning_rate": 0.00027939146002626316, "loss": 3.8451, "step": 82700 }, { "epoch": 0.1723125, "grad_norm": 0.7729867100715637, "learning_rate": 0.00027938647260000667, "loss": 3.8102, "step": 82710 }, { "epoch": 0.17233333333333334, "grad_norm": 1.0609384775161743, "learning_rate": 0.0002793814846148518, "loss": 3.8313, "step": 82720 }, { "epoch": 0.17235416666666667, "grad_norm": 0.8088382482528687, "learning_rate": 0.00027937649607082023, "loss": 3.8395, "step": 82730 }, { "epoch": 0.172375, "grad_norm": 0.8328053951263428, "learning_rate": 0.00027937150696793334, "loss": 4.2109, "step": 82740 }, { "epoch": 0.17239583333333333, "grad_norm": 0.8300962448120117, "learning_rate": 0.0002793665173062128, "loss": 3.9447, "step": 82750 }, { "epoch": 0.17241666666666666, "grad_norm": 0.7691106796264648, "learning_rate": 0.0002793615270856801, "loss": 3.8908, "step": 82760 }, { "epoch": 0.1724375, "grad_norm": 0.7667624950408936, "learning_rate": 0.0002793565363063568, "loss": 4.0487, "step": 82770 }, { "epoch": 0.17245833333333332, "grad_norm": 0.9151173830032349, "learning_rate": 0.0002793515449682644, "loss": 3.9439, "step": 82780 }, { "epoch": 0.17247916666666666, "grad_norm": 0.7841822504997253, "learning_rate": 0.00027934655307142463, "loss": 3.9952, "step": 82790 }, { "epoch": 0.1725, "grad_norm": 0.837735116481781, "learning_rate": 0.0002793415606158589, "loss": 3.9066, "step": 82800 }, { "epoch": 0.17252083333333335, "grad_norm": 0.8930957913398743, "learning_rate": 0.0002793365676015888, "loss": 3.9237, "step": 82810 }, { "epoch": 0.17254166666666668, "grad_norm": 0.9070920348167419, "learning_rate": 0.00027933157402863594, "loss": 3.882, "step": 82820 }, { "epoch": 0.1725625, "grad_norm": 0.8518992066383362, "learning_rate": 0.0002793265798970219, "loss": 3.7784, "step": 82830 }, { "epoch": 0.17258333333333334, "grad_norm": 0.7043384313583374, "learning_rate": 0.00027932158520676826, "loss": 3.9598, "step": 82840 }, { "epoch": 0.17260416666666667, "grad_norm": 0.6790194511413574, "learning_rate": 0.00027931658995789644, "loss": 4.0165, "step": 82850 }, { "epoch": 0.172625, "grad_norm": 0.761138916015625, "learning_rate": 0.00027931159415042826, "loss": 4.0759, "step": 82860 }, { "epoch": 0.17264583333333333, "grad_norm": 0.7683952450752258, "learning_rate": 0.00027930659778438514, "loss": 3.9473, "step": 82870 }, { "epoch": 0.17266666666666666, "grad_norm": 0.7209596633911133, "learning_rate": 0.00027930160085978866, "loss": 4.0018, "step": 82880 }, { "epoch": 0.1726875, "grad_norm": 0.7475635409355164, "learning_rate": 0.0002792966033766605, "loss": 3.8332, "step": 82890 }, { "epoch": 0.17270833333333332, "grad_norm": 0.7854220867156982, "learning_rate": 0.00027929160533502216, "loss": 3.9524, "step": 82900 }, { "epoch": 0.17272916666666666, "grad_norm": 0.692072868347168, "learning_rate": 0.00027928660673489524, "loss": 3.8658, "step": 82910 }, { "epoch": 0.17275, "grad_norm": 0.7875910997390747, "learning_rate": 0.00027928160757630143, "loss": 3.6999, "step": 82920 }, { "epoch": 0.17277083333333335, "grad_norm": 0.7357484698295593, "learning_rate": 0.0002792766078592622, "loss": 3.9245, "step": 82930 }, { "epoch": 0.17279166666666668, "grad_norm": 1.0390961170196533, "learning_rate": 0.0002792716075837991, "loss": 3.9285, "step": 82940 }, { "epoch": 0.1728125, "grad_norm": 0.7477717995643616, "learning_rate": 0.000279266606749934, "loss": 3.8242, "step": 82950 }, { "epoch": 0.17283333333333334, "grad_norm": 1.090368390083313, "learning_rate": 0.00027926160535768823, "loss": 3.9609, "step": 82960 }, { "epoch": 0.17285416666666667, "grad_norm": 0.8361069560050964, "learning_rate": 0.00027925660340708355, "loss": 3.9787, "step": 82970 }, { "epoch": 0.172875, "grad_norm": 0.8020942807197571, "learning_rate": 0.00027925160089814147, "loss": 3.9363, "step": 82980 }, { "epoch": 0.17289583333333333, "grad_norm": 0.8105101585388184, "learning_rate": 0.00027924659783088357, "loss": 3.9739, "step": 82990 }, { "epoch": 0.17291666666666666, "grad_norm": 0.882025420665741, "learning_rate": 0.0002792415942053316, "loss": 3.9687, "step": 83000 }, { "epoch": 0.17291666666666666, "eval_loss": 4.272902488708496, "eval_runtime": 9.5537, "eval_samples_per_second": 1.047, "eval_steps_per_second": 0.314, "step": 83000 }, { "epoch": 0.1729375, "grad_norm": 0.8533254265785217, "learning_rate": 0.0002792365900215071, "loss": 3.9896, "step": 83010 }, { "epoch": 0.17295833333333333, "grad_norm": 0.7569591999053955, "learning_rate": 0.00027923158527943165, "loss": 3.8812, "step": 83020 }, { "epoch": 0.17297916666666666, "grad_norm": 0.8822370171546936, "learning_rate": 0.00027922657997912694, "loss": 3.9943, "step": 83030 }, { "epoch": 0.173, "grad_norm": 0.8018847703933716, "learning_rate": 0.0002792215741206145, "loss": 3.8851, "step": 83040 }, { "epoch": 0.17302083333333335, "grad_norm": 0.7244037389755249, "learning_rate": 0.0002792165677039161, "loss": 3.8483, "step": 83050 }, { "epoch": 0.17304166666666668, "grad_norm": 0.8080905079841614, "learning_rate": 0.0002792115607290532, "loss": 3.9106, "step": 83060 }, { "epoch": 0.1730625, "grad_norm": 0.7445307374000549, "learning_rate": 0.00027920655319604756, "loss": 4.0644, "step": 83070 }, { "epoch": 0.17308333333333334, "grad_norm": 0.8013049960136414, "learning_rate": 0.00027920154510492075, "loss": 3.8509, "step": 83080 }, { "epoch": 0.17310416666666667, "grad_norm": 0.94022136926651, "learning_rate": 0.0002791965364556944, "loss": 3.721, "step": 83090 }, { "epoch": 0.173125, "grad_norm": 0.7792418599128723, "learning_rate": 0.0002791915272483901, "loss": 3.9518, "step": 83100 }, { "epoch": 0.17314583333333333, "grad_norm": 0.9220630526542664, "learning_rate": 0.0002791865174830295, "loss": 3.9117, "step": 83110 }, { "epoch": 0.17316666666666666, "grad_norm": 0.7423521280288696, "learning_rate": 0.0002791815071596344, "loss": 3.945, "step": 83120 }, { "epoch": 0.1731875, "grad_norm": 0.8135824203491211, "learning_rate": 0.0002791764962782263, "loss": 3.9741, "step": 83130 }, { "epoch": 0.17320833333333333, "grad_norm": 0.7727681994438171, "learning_rate": 0.00027917148483882684, "loss": 3.9885, "step": 83140 }, { "epoch": 0.17322916666666666, "grad_norm": 0.7588158845901489, "learning_rate": 0.0002791664728414577, "loss": 3.9875, "step": 83150 }, { "epoch": 0.17325, "grad_norm": 0.7090577483177185, "learning_rate": 0.0002791614602861405, "loss": 3.8236, "step": 83160 }, { "epoch": 0.17327083333333335, "grad_norm": 0.8372524380683899, "learning_rate": 0.00027915644717289693, "loss": 4.0665, "step": 83170 }, { "epoch": 0.17329166666666668, "grad_norm": 0.8240408301353455, "learning_rate": 0.00027915143350174866, "loss": 4.1229, "step": 83180 }, { "epoch": 0.1733125, "grad_norm": 0.9586848020553589, "learning_rate": 0.0002791464192727173, "loss": 3.8209, "step": 83190 }, { "epoch": 0.17333333333333334, "grad_norm": 0.7382382750511169, "learning_rate": 0.00027914140448582456, "loss": 3.7402, "step": 83200 }, { "epoch": 0.17335416666666667, "grad_norm": 0.7101136445999146, "learning_rate": 0.00027913638914109205, "loss": 3.8666, "step": 83210 }, { "epoch": 0.173375, "grad_norm": 1.1487118005752563, "learning_rate": 0.0002791313732385414, "loss": 3.8669, "step": 83220 }, { "epoch": 0.17339583333333333, "grad_norm": 0.8260146975517273, "learning_rate": 0.0002791263567781944, "loss": 3.9754, "step": 83230 }, { "epoch": 0.17341666666666666, "grad_norm": 0.8953239917755127, "learning_rate": 0.00027912133976007263, "loss": 3.7477, "step": 83240 }, { "epoch": 0.1734375, "grad_norm": 0.8289538621902466, "learning_rate": 0.00027911632218419777, "loss": 3.9531, "step": 83250 }, { "epoch": 0.17345833333333333, "grad_norm": 0.7979103326797485, "learning_rate": 0.0002791113040505915, "loss": 3.765, "step": 83260 }, { "epoch": 0.17347916666666666, "grad_norm": 0.717477023601532, "learning_rate": 0.00027910628535927554, "loss": 4.0737, "step": 83270 }, { "epoch": 0.1735, "grad_norm": 0.9137436747550964, "learning_rate": 0.0002791012661102715, "loss": 3.937, "step": 83280 }, { "epoch": 0.17352083333333335, "grad_norm": 0.7149949669837952, "learning_rate": 0.0002790962463036011, "loss": 3.7489, "step": 83290 }, { "epoch": 0.17354166666666668, "grad_norm": 0.8130715489387512, "learning_rate": 0.000279091225939286, "loss": 4.0589, "step": 83300 }, { "epoch": 0.1735625, "grad_norm": 0.7162622213363647, "learning_rate": 0.00027908620501734794, "loss": 3.8716, "step": 83310 }, { "epoch": 0.17358333333333334, "grad_norm": 0.7668971419334412, "learning_rate": 0.0002790811835378086, "loss": 3.7252, "step": 83320 }, { "epoch": 0.17360416666666667, "grad_norm": 0.8151586651802063, "learning_rate": 0.00027907616150068957, "loss": 3.9827, "step": 83330 }, { "epoch": 0.173625, "grad_norm": 0.7293826341629028, "learning_rate": 0.0002790711389060126, "loss": 3.8151, "step": 83340 }, { "epoch": 0.17364583333333333, "grad_norm": 0.7464020252227783, "learning_rate": 0.00027906611575379946, "loss": 3.9739, "step": 83350 }, { "epoch": 0.17366666666666666, "grad_norm": 0.843887209892273, "learning_rate": 0.00027906109204407174, "loss": 3.9953, "step": 83360 }, { "epoch": 0.1736875, "grad_norm": 0.7944560050964355, "learning_rate": 0.0002790560677768512, "loss": 3.9836, "step": 83370 }, { "epoch": 0.17370833333333333, "grad_norm": 0.8276804089546204, "learning_rate": 0.00027905104295215957, "loss": 4.032, "step": 83380 }, { "epoch": 0.17372916666666666, "grad_norm": 0.7507016658782959, "learning_rate": 0.0002790460175700185, "loss": 3.8706, "step": 83390 }, { "epoch": 0.17375, "grad_norm": 0.8533852100372314, "learning_rate": 0.00027904099163044967, "loss": 3.9115, "step": 83400 }, { "epoch": 0.17377083333333335, "grad_norm": 0.7546963691711426, "learning_rate": 0.00027903596513347484, "loss": 3.7678, "step": 83410 }, { "epoch": 0.17379166666666668, "grad_norm": 0.7139222621917725, "learning_rate": 0.0002790309380791158, "loss": 3.7841, "step": 83420 }, { "epoch": 0.1738125, "grad_norm": 0.9563751816749573, "learning_rate": 0.0002790259104673941, "loss": 3.9172, "step": 83430 }, { "epoch": 0.17383333333333334, "grad_norm": 0.7217628359794617, "learning_rate": 0.00027902088229833156, "loss": 3.8092, "step": 83440 }, { "epoch": 0.17385416666666667, "grad_norm": 0.7462176084518433, "learning_rate": 0.00027901585357194985, "loss": 4.0672, "step": 83450 }, { "epoch": 0.173875, "grad_norm": 0.7656264305114746, "learning_rate": 0.0002790108242882708, "loss": 3.9212, "step": 83460 }, { "epoch": 0.17389583333333333, "grad_norm": 0.8661513328552246, "learning_rate": 0.000279005794447316, "loss": 3.805, "step": 83470 }, { "epoch": 0.17391666666666666, "grad_norm": 1.272226095199585, "learning_rate": 0.0002790007640491072, "loss": 3.8231, "step": 83480 }, { "epoch": 0.1739375, "grad_norm": 0.743241012096405, "learning_rate": 0.0002789957330936662, "loss": 3.825, "step": 83490 }, { "epoch": 0.17395833333333333, "grad_norm": 0.7819918394088745, "learning_rate": 0.0002789907015810147, "loss": 3.9584, "step": 83500 }, { "epoch": 0.17397916666666666, "grad_norm": 0.7459301352500916, "learning_rate": 0.0002789856695111744, "loss": 3.9387, "step": 83510 }, { "epoch": 0.174, "grad_norm": 0.8506456613540649, "learning_rate": 0.0002789806368841671, "loss": 4.1381, "step": 83520 }, { "epoch": 0.17402083333333335, "grad_norm": 0.7319548726081848, "learning_rate": 0.0002789756037000145, "loss": 3.8308, "step": 83530 }, { "epoch": 0.17404166666666668, "grad_norm": 0.7397971153259277, "learning_rate": 0.0002789705699587384, "loss": 3.761, "step": 83540 }, { "epoch": 0.1740625, "grad_norm": 0.9753512144088745, "learning_rate": 0.00027896553566036036, "loss": 3.9403, "step": 83550 }, { "epoch": 0.17408333333333334, "grad_norm": 1.173198938369751, "learning_rate": 0.0002789605008049023, "loss": 3.9649, "step": 83560 }, { "epoch": 0.17410416666666667, "grad_norm": 0.7332453727722168, "learning_rate": 0.000278955465392386, "loss": 4.0967, "step": 83570 }, { "epoch": 0.174125, "grad_norm": 0.7541020512580872, "learning_rate": 0.00027895042942283304, "loss": 3.6973, "step": 83580 }, { "epoch": 0.17414583333333333, "grad_norm": 0.8193091154098511, "learning_rate": 0.0002789453928962653, "loss": 3.8671, "step": 83590 }, { "epoch": 0.17416666666666666, "grad_norm": 0.8626209497451782, "learning_rate": 0.0002789403558127045, "loss": 3.8905, "step": 83600 }, { "epoch": 0.1741875, "grad_norm": 0.7703706622123718, "learning_rate": 0.00027893531817217243, "loss": 3.9341, "step": 83610 }, { "epoch": 0.17420833333333333, "grad_norm": 0.7932949662208557, "learning_rate": 0.0002789302799746907, "loss": 3.895, "step": 83620 }, { "epoch": 0.17422916666666666, "grad_norm": 0.7442330718040466, "learning_rate": 0.00027892524122028134, "loss": 3.8809, "step": 83630 }, { "epoch": 0.17425, "grad_norm": 0.7691386938095093, "learning_rate": 0.00027892020190896594, "loss": 3.8624, "step": 83640 }, { "epoch": 0.17427083333333335, "grad_norm": 0.7295940518379211, "learning_rate": 0.00027891516204076624, "loss": 3.7934, "step": 83650 }, { "epoch": 0.17429166666666668, "grad_norm": 0.7997854351997375, "learning_rate": 0.0002789101216157041, "loss": 4.009, "step": 83660 }, { "epoch": 0.1743125, "grad_norm": 0.876325249671936, "learning_rate": 0.00027890508063380126, "loss": 3.8933, "step": 83670 }, { "epoch": 0.17433333333333334, "grad_norm": 0.763355553150177, "learning_rate": 0.0002789000390950795, "loss": 3.931, "step": 83680 }, { "epoch": 0.17435416666666667, "grad_norm": 0.7472951412200928, "learning_rate": 0.0002788949969995606, "loss": 3.906, "step": 83690 }, { "epoch": 0.174375, "grad_norm": 0.806398868560791, "learning_rate": 0.0002788899543472663, "loss": 3.963, "step": 83700 }, { "epoch": 0.17439583333333333, "grad_norm": 0.7695059776306152, "learning_rate": 0.00027888491113821844, "loss": 3.8885, "step": 83710 }, { "epoch": 0.17441666666666666, "grad_norm": 0.7828018665313721, "learning_rate": 0.00027887986737243884, "loss": 3.9112, "step": 83720 }, { "epoch": 0.1744375, "grad_norm": 0.7775977253913879, "learning_rate": 0.00027887482304994913, "loss": 3.8477, "step": 83730 }, { "epoch": 0.17445833333333333, "grad_norm": 0.7511841058731079, "learning_rate": 0.00027886977817077126, "loss": 3.8066, "step": 83740 }, { "epoch": 0.17447916666666666, "grad_norm": 0.7984781861305237, "learning_rate": 0.0002788647327349269, "loss": 3.7472, "step": 83750 }, { "epoch": 0.1745, "grad_norm": 0.8926426768302917, "learning_rate": 0.00027885968674243794, "loss": 3.9356, "step": 83760 }, { "epoch": 0.17452083333333332, "grad_norm": 0.8819180130958557, "learning_rate": 0.0002788546401933262, "loss": 4.0745, "step": 83770 }, { "epoch": 0.17454166666666668, "grad_norm": 0.9382777214050293, "learning_rate": 0.0002788495930876133, "loss": 3.9779, "step": 83780 }, { "epoch": 0.1745625, "grad_norm": 0.8852372169494629, "learning_rate": 0.0002788445454253212, "loss": 3.9087, "step": 83790 }, { "epoch": 0.17458333333333334, "grad_norm": 0.7182701230049133, "learning_rate": 0.0002788394972064717, "loss": 3.9228, "step": 83800 }, { "epoch": 0.17460416666666667, "grad_norm": 0.7979435920715332, "learning_rate": 0.00027883444843108653, "loss": 3.8826, "step": 83810 }, { "epoch": 0.174625, "grad_norm": 0.7061285376548767, "learning_rate": 0.0002788293990991876, "loss": 4.1161, "step": 83820 }, { "epoch": 0.17464583333333333, "grad_norm": 0.7648921012878418, "learning_rate": 0.0002788243492107966, "loss": 3.8746, "step": 83830 }, { "epoch": 0.17466666666666666, "grad_norm": 0.754672110080719, "learning_rate": 0.0002788192987659354, "loss": 3.9068, "step": 83840 }, { "epoch": 0.1746875, "grad_norm": 0.8157461881637573, "learning_rate": 0.0002788142477646259, "loss": 3.9034, "step": 83850 }, { "epoch": 0.17470833333333333, "grad_norm": 0.6922156810760498, "learning_rate": 0.00027880919620688974, "loss": 3.8681, "step": 83860 }, { "epoch": 0.17472916666666666, "grad_norm": 0.8411691188812256, "learning_rate": 0.00027880414409274886, "loss": 3.9617, "step": 83870 }, { "epoch": 0.17475, "grad_norm": 0.7250730991363525, "learning_rate": 0.0002787990914222251, "loss": 3.8205, "step": 83880 }, { "epoch": 0.17477083333333332, "grad_norm": 0.7176262140274048, "learning_rate": 0.00027879403819534024, "loss": 3.7384, "step": 83890 }, { "epoch": 0.17479166666666668, "grad_norm": 0.6656303405761719, "learning_rate": 0.00027878898441211603, "loss": 3.8525, "step": 83900 }, { "epoch": 0.1748125, "grad_norm": 0.741327702999115, "learning_rate": 0.0002787839300725745, "loss": 3.8273, "step": 83910 }, { "epoch": 0.17483333333333334, "grad_norm": 0.7376288175582886, "learning_rate": 0.0002787788751767373, "loss": 3.9463, "step": 83920 }, { "epoch": 0.17485416666666667, "grad_norm": 0.8020192384719849, "learning_rate": 0.0002787738197246264, "loss": 4.0615, "step": 83930 }, { "epoch": 0.174875, "grad_norm": 0.9142674803733826, "learning_rate": 0.00027876876371626355, "loss": 3.9606, "step": 83940 }, { "epoch": 0.17489583333333333, "grad_norm": 0.7641014456748962, "learning_rate": 0.00027876370715167057, "loss": 3.8937, "step": 83950 }, { "epoch": 0.17491666666666666, "grad_norm": 0.71683669090271, "learning_rate": 0.00027875865003086934, "loss": 3.9109, "step": 83960 }, { "epoch": 0.1749375, "grad_norm": 0.8592399954795837, "learning_rate": 0.00027875359235388173, "loss": 3.8684, "step": 83970 }, { "epoch": 0.17495833333333333, "grad_norm": 0.7832514047622681, "learning_rate": 0.0002787485341207296, "loss": 3.7666, "step": 83980 }, { "epoch": 0.17497916666666666, "grad_norm": 0.7657424807548523, "learning_rate": 0.0002787434753314347, "loss": 3.9255, "step": 83990 }, { "epoch": 0.175, "grad_norm": 0.6919958591461182, "learning_rate": 0.000278738415986019, "loss": 3.8568, "step": 84000 }, { "epoch": 0.175, "eval_loss": 4.264814853668213, "eval_runtime": 8.8907, "eval_samples_per_second": 1.125, "eval_steps_per_second": 0.337, "step": 84000 }, { "epoch": 0.17502083333333332, "grad_norm": 0.8901668787002563, "learning_rate": 0.0002787333560845043, "loss": 3.9178, "step": 84010 }, { "epoch": 0.17504166666666668, "grad_norm": 0.7753601670265198, "learning_rate": 0.00027872829562691244, "loss": 3.8885, "step": 84020 }, { "epoch": 0.1750625, "grad_norm": 0.7284010052680969, "learning_rate": 0.00027872323461326527, "loss": 3.9211, "step": 84030 }, { "epoch": 0.17508333333333334, "grad_norm": 0.7247377038002014, "learning_rate": 0.0002787181730435847, "loss": 3.9538, "step": 84040 }, { "epoch": 0.17510416666666667, "grad_norm": 1.0306096076965332, "learning_rate": 0.0002787131109178926, "loss": 3.8296, "step": 84050 }, { "epoch": 0.175125, "grad_norm": 0.8511313199996948, "learning_rate": 0.0002787080482362108, "loss": 3.827, "step": 84060 }, { "epoch": 0.17514583333333333, "grad_norm": 0.6872686743736267, "learning_rate": 0.0002787029849985611, "loss": 3.823, "step": 84070 }, { "epoch": 0.17516666666666666, "grad_norm": 0.8001198172569275, "learning_rate": 0.00027869792120496556, "loss": 3.9955, "step": 84080 }, { "epoch": 0.1751875, "grad_norm": 0.8212463855743408, "learning_rate": 0.00027869285685544584, "loss": 3.9432, "step": 84090 }, { "epoch": 0.17520833333333333, "grad_norm": 0.7340368032455444, "learning_rate": 0.000278687791950024, "loss": 3.97, "step": 84100 }, { "epoch": 0.17522916666666666, "grad_norm": 0.807033121585846, "learning_rate": 0.00027868272648872187, "loss": 3.8939, "step": 84110 }, { "epoch": 0.17525, "grad_norm": 0.9282466769218445, "learning_rate": 0.0002786776604715612, "loss": 3.984, "step": 84120 }, { "epoch": 0.17527083333333332, "grad_norm": 0.776353657245636, "learning_rate": 0.000278672593898564, "loss": 3.9141, "step": 84130 }, { "epoch": 0.17529166666666668, "grad_norm": 0.7287374138832092, "learning_rate": 0.00027866752676975213, "loss": 3.8703, "step": 84140 }, { "epoch": 0.1753125, "grad_norm": 0.7384030818939209, "learning_rate": 0.0002786624590851475, "loss": 3.8893, "step": 84150 }, { "epoch": 0.17533333333333334, "grad_norm": 0.8223645687103271, "learning_rate": 0.00027865739084477194, "loss": 3.6945, "step": 84160 }, { "epoch": 0.17535416666666667, "grad_norm": 0.8372085690498352, "learning_rate": 0.0002786523220486474, "loss": 3.8871, "step": 84170 }, { "epoch": 0.175375, "grad_norm": 0.8531904220581055, "learning_rate": 0.00027864725269679576, "loss": 3.9975, "step": 84180 }, { "epoch": 0.17539583333333333, "grad_norm": 0.7307296395301819, "learning_rate": 0.0002786421827892389, "loss": 3.9482, "step": 84190 }, { "epoch": 0.17541666666666667, "grad_norm": 0.7485204339027405, "learning_rate": 0.0002786371123259987, "loss": 3.8679, "step": 84200 }, { "epoch": 0.1754375, "grad_norm": 0.7368801236152649, "learning_rate": 0.00027863204130709713, "loss": 3.8844, "step": 84210 }, { "epoch": 0.17545833333333333, "grad_norm": 0.7550124526023865, "learning_rate": 0.00027862696973255605, "loss": 4.0683, "step": 84220 }, { "epoch": 0.17547916666666666, "grad_norm": 0.9082387685775757, "learning_rate": 0.00027862189760239736, "loss": 4.0058, "step": 84230 }, { "epoch": 0.1755, "grad_norm": 0.8255568742752075, "learning_rate": 0.000278616824916643, "loss": 4.0584, "step": 84240 }, { "epoch": 0.17552083333333332, "grad_norm": 0.7568209171295166, "learning_rate": 0.0002786117516753149, "loss": 3.8265, "step": 84250 }, { "epoch": 0.17554166666666668, "grad_norm": 0.70294588804245, "learning_rate": 0.0002786066778784349, "loss": 3.938, "step": 84260 }, { "epoch": 0.1755625, "grad_norm": 0.7837700843811035, "learning_rate": 0.00027860160352602496, "loss": 3.8897, "step": 84270 }, { "epoch": 0.17558333333333334, "grad_norm": 0.768639087677002, "learning_rate": 0.00027859652861810696, "loss": 3.9101, "step": 84280 }, { "epoch": 0.17560416666666667, "grad_norm": 0.706296443939209, "learning_rate": 0.0002785914531547029, "loss": 4.0257, "step": 84290 }, { "epoch": 0.175625, "grad_norm": 0.6341419816017151, "learning_rate": 0.00027858637713583465, "loss": 3.9011, "step": 84300 }, { "epoch": 0.17564583333333333, "grad_norm": 0.7969459295272827, "learning_rate": 0.0002785813005615242, "loss": 3.9285, "step": 84310 }, { "epoch": 0.17566666666666667, "grad_norm": 0.7704258561134338, "learning_rate": 0.00027857622343179335, "loss": 3.9489, "step": 84320 }, { "epoch": 0.1756875, "grad_norm": 0.7691376209259033, "learning_rate": 0.00027857114574666417, "loss": 3.9469, "step": 84330 }, { "epoch": 0.17570833333333333, "grad_norm": 0.8196581602096558, "learning_rate": 0.0002785660675061585, "loss": 4.0143, "step": 84340 }, { "epoch": 0.17572916666666666, "grad_norm": 0.7274945974349976, "learning_rate": 0.00027856098871029833, "loss": 3.8897, "step": 84350 }, { "epoch": 0.17575, "grad_norm": 0.8923137187957764, "learning_rate": 0.00027855590935910553, "loss": 4.0407, "step": 84360 }, { "epoch": 0.17577083333333332, "grad_norm": 0.8398615121841431, "learning_rate": 0.00027855082945260216, "loss": 3.7819, "step": 84370 }, { "epoch": 0.17579166666666668, "grad_norm": 0.740421712398529, "learning_rate": 0.00027854574899081, "loss": 3.8742, "step": 84380 }, { "epoch": 0.1758125, "grad_norm": 0.8344475030899048, "learning_rate": 0.00027854066797375115, "loss": 4.0188, "step": 84390 }, { "epoch": 0.17583333333333334, "grad_norm": 0.6929113268852234, "learning_rate": 0.0002785355864014475, "loss": 3.8484, "step": 84400 }, { "epoch": 0.17585416666666667, "grad_norm": 0.7731239199638367, "learning_rate": 0.00027853050427392094, "loss": 3.903, "step": 84410 }, { "epoch": 0.175875, "grad_norm": 0.7715256214141846, "learning_rate": 0.00027852542159119355, "loss": 3.7636, "step": 84420 }, { "epoch": 0.17589583333333333, "grad_norm": 0.7231314778327942, "learning_rate": 0.00027852033835328716, "loss": 3.8185, "step": 84430 }, { "epoch": 0.17591666666666667, "grad_norm": 0.8167307376861572, "learning_rate": 0.0002785152545602238, "loss": 3.9658, "step": 84440 }, { "epoch": 0.1759375, "grad_norm": 0.8277047872543335, "learning_rate": 0.0002785101702120254, "loss": 3.8558, "step": 84450 }, { "epoch": 0.17595833333333333, "grad_norm": 0.8618035912513733, "learning_rate": 0.00027850508530871394, "loss": 3.8981, "step": 84460 }, { "epoch": 0.17597916666666666, "grad_norm": 0.717369556427002, "learning_rate": 0.00027849999985031135, "loss": 3.8997, "step": 84470 }, { "epoch": 0.176, "grad_norm": 0.7896784543991089, "learning_rate": 0.00027849491383683965, "loss": 3.9028, "step": 84480 }, { "epoch": 0.17602083333333332, "grad_norm": 0.8415800929069519, "learning_rate": 0.0002784898272683208, "loss": 3.9736, "step": 84490 }, { "epoch": 0.17604166666666668, "grad_norm": 0.8310298919677734, "learning_rate": 0.00027848474014477675, "loss": 3.7949, "step": 84500 }, { "epoch": 0.1760625, "grad_norm": 0.9235999584197998, "learning_rate": 0.00027847965246622947, "loss": 3.8432, "step": 84510 }, { "epoch": 0.17608333333333334, "grad_norm": 0.8253383040428162, "learning_rate": 0.00027847456423270094, "loss": 3.7867, "step": 84520 }, { "epoch": 0.17610416666666667, "grad_norm": 0.7661988735198975, "learning_rate": 0.0002784694754442131, "loss": 3.6832, "step": 84530 }, { "epoch": 0.176125, "grad_norm": 0.7327288389205933, "learning_rate": 0.0002784643861007881, "loss": 4.0185, "step": 84540 }, { "epoch": 0.17614583333333333, "grad_norm": 0.8049317598342896, "learning_rate": 0.0002784592962024477, "loss": 3.9106, "step": 84550 }, { "epoch": 0.17616666666666667, "grad_norm": 0.7769505977630615, "learning_rate": 0.000278454205749214, "loss": 3.8083, "step": 84560 }, { "epoch": 0.1761875, "grad_norm": 0.848537027835846, "learning_rate": 0.00027844911474110903, "loss": 3.8794, "step": 84570 }, { "epoch": 0.17620833333333333, "grad_norm": 0.9577915072441101, "learning_rate": 0.0002784440231781547, "loss": 3.7767, "step": 84580 }, { "epoch": 0.17622916666666666, "grad_norm": 0.8277558088302612, "learning_rate": 0.00027843893106037305, "loss": 3.8523, "step": 84590 }, { "epoch": 0.17625, "grad_norm": 0.9064648151397705, "learning_rate": 0.00027843383838778603, "loss": 3.8125, "step": 84600 }, { "epoch": 0.17627083333333332, "grad_norm": 0.7582958340644836, "learning_rate": 0.00027842874516041563, "loss": 4.0807, "step": 84610 }, { "epoch": 0.17629166666666668, "grad_norm": 0.6202499866485596, "learning_rate": 0.00027842365137828397, "loss": 3.9925, "step": 84620 }, { "epoch": 0.1763125, "grad_norm": 0.8294300436973572, "learning_rate": 0.0002784185570414129, "loss": 4.0316, "step": 84630 }, { "epoch": 0.17633333333333334, "grad_norm": 0.7661452293395996, "learning_rate": 0.0002784134621498245, "loss": 3.928, "step": 84640 }, { "epoch": 0.17635416666666667, "grad_norm": 0.9225952625274658, "learning_rate": 0.0002784083667035408, "loss": 3.7466, "step": 84650 }, { "epoch": 0.176375, "grad_norm": 0.8584547638893127, "learning_rate": 0.0002784032707025838, "loss": 4.0949, "step": 84660 }, { "epoch": 0.17639583333333334, "grad_norm": 0.6964746713638306, "learning_rate": 0.0002783981741469755, "loss": 4.0062, "step": 84670 }, { "epoch": 0.17641666666666667, "grad_norm": 0.8194291591644287, "learning_rate": 0.00027839307703673787, "loss": 3.912, "step": 84680 }, { "epoch": 0.1764375, "grad_norm": 0.6447473168373108, "learning_rate": 0.000278387979371893, "loss": 3.7769, "step": 84690 }, { "epoch": 0.17645833333333333, "grad_norm": 0.8188226819038391, "learning_rate": 0.0002783828811524628, "loss": 3.8529, "step": 84700 }, { "epoch": 0.17647916666666666, "grad_norm": 0.7701348662376404, "learning_rate": 0.0002783777823784695, "loss": 3.7937, "step": 84710 }, { "epoch": 0.1765, "grad_norm": 0.7389251589775085, "learning_rate": 0.0002783726830499349, "loss": 3.8626, "step": 84720 }, { "epoch": 0.17652083333333332, "grad_norm": 0.7238682508468628, "learning_rate": 0.00027836758316688117, "loss": 4.1363, "step": 84730 }, { "epoch": 0.17654166666666668, "grad_norm": 0.7437998652458191, "learning_rate": 0.0002783624827293303, "loss": 3.8801, "step": 84740 }, { "epoch": 0.1765625, "grad_norm": 0.7351630926132202, "learning_rate": 0.0002783573817373042, "loss": 3.8832, "step": 84750 }, { "epoch": 0.17658333333333334, "grad_norm": 0.7549439072608948, "learning_rate": 0.0002783522801908252, "loss": 3.9316, "step": 84760 }, { "epoch": 0.17660416666666667, "grad_norm": 0.8210441470146179, "learning_rate": 0.000278347178089915, "loss": 3.9767, "step": 84770 }, { "epoch": 0.176625, "grad_norm": 0.7545561790466309, "learning_rate": 0.0002783420754345959, "loss": 3.9057, "step": 84780 }, { "epoch": 0.17664583333333334, "grad_norm": 0.7018294930458069, "learning_rate": 0.0002783369722248898, "loss": 3.8982, "step": 84790 }, { "epoch": 0.17666666666666667, "grad_norm": 0.7414410710334778, "learning_rate": 0.00027833186846081876, "loss": 3.8117, "step": 84800 }, { "epoch": 0.1766875, "grad_norm": 0.8761700391769409, "learning_rate": 0.00027832676414240486, "loss": 3.7411, "step": 84810 }, { "epoch": 0.17670833333333333, "grad_norm": 0.6783495545387268, "learning_rate": 0.0002783216592696701, "loss": 3.9546, "step": 84820 }, { "epoch": 0.17672916666666666, "grad_norm": 0.7869935631752014, "learning_rate": 0.0002783165538426366, "loss": 3.9386, "step": 84830 }, { "epoch": 0.17675, "grad_norm": 0.7963854670524597, "learning_rate": 0.0002783114478613264, "loss": 3.9319, "step": 84840 }, { "epoch": 0.17677083333333332, "grad_norm": 0.8568111062049866, "learning_rate": 0.0002783063413257615, "loss": 3.9164, "step": 84850 }, { "epoch": 0.17679166666666668, "grad_norm": 0.8278138041496277, "learning_rate": 0.000278301234235964, "loss": 3.9649, "step": 84860 }, { "epoch": 0.1768125, "grad_norm": 0.8124381899833679, "learning_rate": 0.0002782961265919559, "loss": 3.9824, "step": 84870 }, { "epoch": 0.17683333333333334, "grad_norm": 0.8014158010482788, "learning_rate": 0.0002782910183937594, "loss": 3.9643, "step": 84880 }, { "epoch": 0.17685416666666667, "grad_norm": 0.779434323310852, "learning_rate": 0.00027828590964139646, "loss": 3.9617, "step": 84890 }, { "epoch": 0.176875, "grad_norm": 0.8767693638801575, "learning_rate": 0.0002782808003348892, "loss": 3.8822, "step": 84900 }, { "epoch": 0.17689583333333334, "grad_norm": 0.7560848593711853, "learning_rate": 0.0002782756904742596, "loss": 3.7424, "step": 84910 }, { "epoch": 0.17691666666666667, "grad_norm": 0.825802743434906, "learning_rate": 0.0002782705800595298, "loss": 4.0187, "step": 84920 }, { "epoch": 0.1769375, "grad_norm": 1.1611425876617432, "learning_rate": 0.00027826546909072187, "loss": 3.684, "step": 84930 }, { "epoch": 0.17695833333333333, "grad_norm": 0.7577826380729675, "learning_rate": 0.0002782603575678579, "loss": 3.9734, "step": 84940 }, { "epoch": 0.17697916666666666, "grad_norm": 0.7903863787651062, "learning_rate": 0.00027825524549095996, "loss": 3.7422, "step": 84950 }, { "epoch": 0.177, "grad_norm": 0.7231795787811279, "learning_rate": 0.0002782501328600501, "loss": 3.8684, "step": 84960 }, { "epoch": 0.17702083333333332, "grad_norm": 0.7165958881378174, "learning_rate": 0.00027824501967515044, "loss": 3.8542, "step": 84970 }, { "epoch": 0.17704166666666668, "grad_norm": 0.8805063366889954, "learning_rate": 0.0002782399059362831, "loss": 4.0852, "step": 84980 }, { "epoch": 0.1770625, "grad_norm": 0.9535393714904785, "learning_rate": 0.0002782347916434701, "loss": 3.8245, "step": 84990 }, { "epoch": 0.17708333333333334, "grad_norm": 0.6483847498893738, "learning_rate": 0.0002782296767967335, "loss": 4.0333, "step": 85000 }, { "epoch": 0.17708333333333334, "eval_loss": 4.270883083343506, "eval_runtime": 10.2903, "eval_samples_per_second": 0.972, "eval_steps_per_second": 0.292, "step": 85000 }, { "epoch": 0.17710416666666667, "grad_norm": 0.68458491563797, "learning_rate": 0.00027822456139609556, "loss": 3.7919, "step": 85010 }, { "epoch": 0.177125, "grad_norm": 0.7985631227493286, "learning_rate": 0.00027821944544157817, "loss": 4.0258, "step": 85020 }, { "epoch": 0.17714583333333334, "grad_norm": 0.7664515376091003, "learning_rate": 0.00027821432893320364, "loss": 3.9391, "step": 85030 }, { "epoch": 0.17716666666666667, "grad_norm": 0.8336789011955261, "learning_rate": 0.00027820921187099386, "loss": 3.8307, "step": 85040 }, { "epoch": 0.1771875, "grad_norm": 0.8124071359634399, "learning_rate": 0.000278204094254971, "loss": 3.8803, "step": 85050 }, { "epoch": 0.17720833333333333, "grad_norm": 0.8979480862617493, "learning_rate": 0.0002781989760851573, "loss": 3.8354, "step": 85060 }, { "epoch": 0.17722916666666666, "grad_norm": 0.773404598236084, "learning_rate": 0.00027819385736157473, "loss": 3.882, "step": 85070 }, { "epoch": 0.17725, "grad_norm": 0.8584886789321899, "learning_rate": 0.00027818873808424543, "loss": 3.8124, "step": 85080 }, { "epoch": 0.17727083333333332, "grad_norm": 0.7295774817466736, "learning_rate": 0.0002781836182531916, "loss": 3.7988, "step": 85090 }, { "epoch": 0.17729166666666665, "grad_norm": 0.7434903383255005, "learning_rate": 0.0002781784978684352, "loss": 3.8588, "step": 85100 }, { "epoch": 0.1773125, "grad_norm": 0.756166398525238, "learning_rate": 0.00027817337692999844, "loss": 4.0116, "step": 85110 }, { "epoch": 0.17733333333333334, "grad_norm": 0.7727351188659668, "learning_rate": 0.0002781682554379034, "loss": 3.8945, "step": 85120 }, { "epoch": 0.17735416666666667, "grad_norm": 1.001320719718933, "learning_rate": 0.00027816313339217225, "loss": 3.9001, "step": 85130 }, { "epoch": 0.177375, "grad_norm": 0.6802487969398499, "learning_rate": 0.0002781580107928271, "loss": 4.0778, "step": 85140 }, { "epoch": 0.17739583333333334, "grad_norm": 0.8479102849960327, "learning_rate": 0.0002781528876398901, "loss": 3.7289, "step": 85150 }, { "epoch": 0.17741666666666667, "grad_norm": 0.7498804926872253, "learning_rate": 0.0002781477639333833, "loss": 4.0002, "step": 85160 }, { "epoch": 0.1774375, "grad_norm": 0.7579991817474365, "learning_rate": 0.0002781426396733289, "loss": 3.8885, "step": 85170 }, { "epoch": 0.17745833333333333, "grad_norm": 2.7374372482299805, "learning_rate": 0.00027813751485974904, "loss": 4.0101, "step": 85180 }, { "epoch": 0.17747916666666666, "grad_norm": 0.6861532926559448, "learning_rate": 0.00027813238949266577, "loss": 3.776, "step": 85190 }, { "epoch": 0.1775, "grad_norm": 0.7910853028297424, "learning_rate": 0.0002781272635721014, "loss": 4.1329, "step": 85200 }, { "epoch": 0.17752083333333332, "grad_norm": 0.695736825466156, "learning_rate": 0.0002781221370980779, "loss": 3.7898, "step": 85210 }, { "epoch": 0.17754166666666665, "grad_norm": 0.7923392057418823, "learning_rate": 0.0002781170100706175, "loss": 3.8419, "step": 85220 }, { "epoch": 0.1775625, "grad_norm": 0.7961102724075317, "learning_rate": 0.0002781118824897423, "loss": 3.8805, "step": 85230 }, { "epoch": 0.17758333333333334, "grad_norm": 0.7338016629219055, "learning_rate": 0.00027810675435547454, "loss": 4.1231, "step": 85240 }, { "epoch": 0.17760416666666667, "grad_norm": 0.723019003868103, "learning_rate": 0.0002781016256678362, "loss": 3.6793, "step": 85250 }, { "epoch": 0.177625, "grad_norm": 0.737377405166626, "learning_rate": 0.00027809649642684963, "loss": 4.0939, "step": 85260 }, { "epoch": 0.17764583333333334, "grad_norm": 0.7326564788818359, "learning_rate": 0.00027809136663253694, "loss": 3.811, "step": 85270 }, { "epoch": 0.17766666666666667, "grad_norm": 0.8616056442260742, "learning_rate": 0.00027808623628492016, "loss": 3.9611, "step": 85280 }, { "epoch": 0.1776875, "grad_norm": 0.7072295546531677, "learning_rate": 0.00027808110538402156, "loss": 3.9105, "step": 85290 }, { "epoch": 0.17770833333333333, "grad_norm": 0.7990497946739197, "learning_rate": 0.0002780759739298633, "loss": 3.8518, "step": 85300 }, { "epoch": 0.17772916666666666, "grad_norm": 0.8465691208839417, "learning_rate": 0.00027807084192246756, "loss": 3.8166, "step": 85310 }, { "epoch": 0.17775, "grad_norm": 0.8017556667327881, "learning_rate": 0.0002780657093618564, "loss": 3.8697, "step": 85320 }, { "epoch": 0.17777083333333332, "grad_norm": 0.7984086871147156, "learning_rate": 0.00027806057624805216, "loss": 3.9159, "step": 85330 }, { "epoch": 0.17779166666666665, "grad_norm": 0.8751817345619202, "learning_rate": 0.0002780554425810768, "loss": 4.0004, "step": 85340 }, { "epoch": 0.1778125, "grad_norm": 0.7382178902626038, "learning_rate": 0.0002780503083609527, "loss": 3.8486, "step": 85350 }, { "epoch": 0.17783333333333334, "grad_norm": 0.8024728298187256, "learning_rate": 0.000278045173587702, "loss": 4.0176, "step": 85360 }, { "epoch": 0.17785416666666667, "grad_norm": 1.0524216890335083, "learning_rate": 0.00027804003826134674, "loss": 3.8536, "step": 85370 }, { "epoch": 0.177875, "grad_norm": 0.7176036834716797, "learning_rate": 0.00027803490238190924, "loss": 3.8711, "step": 85380 }, { "epoch": 0.17789583333333334, "grad_norm": 0.8119319081306458, "learning_rate": 0.0002780297659494116, "loss": 3.9395, "step": 85390 }, { "epoch": 0.17791666666666667, "grad_norm": 0.9334378242492676, "learning_rate": 0.0002780246289638761, "loss": 3.7965, "step": 85400 }, { "epoch": 0.1779375, "grad_norm": 0.6776244640350342, "learning_rate": 0.0002780194914253248, "loss": 3.9576, "step": 85410 }, { "epoch": 0.17795833333333333, "grad_norm": 0.8493268489837646, "learning_rate": 0.0002780143533337801, "loss": 3.9624, "step": 85420 }, { "epoch": 0.17797916666666666, "grad_norm": 0.725996732711792, "learning_rate": 0.00027800921468926394, "loss": 3.8757, "step": 85430 }, { "epoch": 0.178, "grad_norm": 0.8265067934989929, "learning_rate": 0.00027800407549179873, "loss": 3.7489, "step": 85440 }, { "epoch": 0.17802083333333332, "grad_norm": 0.6908148527145386, "learning_rate": 0.0002779989357414065, "loss": 3.9662, "step": 85450 }, { "epoch": 0.17804166666666665, "grad_norm": 0.6956504583358765, "learning_rate": 0.0002779937954381096, "loss": 4.0488, "step": 85460 }, { "epoch": 0.1780625, "grad_norm": 0.8716495037078857, "learning_rate": 0.00027798865458193017, "loss": 3.9096, "step": 85470 }, { "epoch": 0.17808333333333334, "grad_norm": 0.8833160996437073, "learning_rate": 0.0002779835131728904, "loss": 3.8721, "step": 85480 }, { "epoch": 0.17810416666666667, "grad_norm": 0.7686583995819092, "learning_rate": 0.00027797837121101246, "loss": 3.9348, "step": 85490 }, { "epoch": 0.178125, "grad_norm": 0.9064064621925354, "learning_rate": 0.00027797322869631865, "loss": 4.0901, "step": 85500 }, { "epoch": 0.17814583333333334, "grad_norm": 0.9460353255271912, "learning_rate": 0.0002779680856288312, "loss": 4.2058, "step": 85510 }, { "epoch": 0.17816666666666667, "grad_norm": 0.764068067073822, "learning_rate": 0.0002779629420085722, "loss": 4.0236, "step": 85520 }, { "epoch": 0.1781875, "grad_norm": 0.8106610178947449, "learning_rate": 0.00027795779783556395, "loss": 3.8341, "step": 85530 }, { "epoch": 0.17820833333333333, "grad_norm": 0.7293939590454102, "learning_rate": 0.0002779526531098287, "loss": 3.9046, "step": 85540 }, { "epoch": 0.17822916666666666, "grad_norm": 0.8225104808807373, "learning_rate": 0.0002779475078313886, "loss": 3.9554, "step": 85550 }, { "epoch": 0.17825, "grad_norm": 0.7941524386405945, "learning_rate": 0.00027794236200026596, "loss": 4.0257, "step": 85560 }, { "epoch": 0.17827083333333332, "grad_norm": 0.7747449278831482, "learning_rate": 0.0002779372156164829, "loss": 3.9171, "step": 85570 }, { "epoch": 0.17829166666666665, "grad_norm": 0.8291200399398804, "learning_rate": 0.00027793206868006174, "loss": 3.9162, "step": 85580 }, { "epoch": 0.1783125, "grad_norm": 0.7966523170471191, "learning_rate": 0.00027792692119102473, "loss": 3.8511, "step": 85590 }, { "epoch": 0.17833333333333334, "grad_norm": 0.7935148477554321, "learning_rate": 0.00027792177314939394, "loss": 3.7484, "step": 85600 }, { "epoch": 0.17835416666666667, "grad_norm": 0.8843932151794434, "learning_rate": 0.0002779166245551918, "loss": 3.8398, "step": 85610 }, { "epoch": 0.178375, "grad_norm": 0.7689972519874573, "learning_rate": 0.0002779114754084405, "loss": 3.708, "step": 85620 }, { "epoch": 0.17839583333333334, "grad_norm": 0.7964766025543213, "learning_rate": 0.00027790632570916224, "loss": 4.0611, "step": 85630 }, { "epoch": 0.17841666666666667, "grad_norm": 1.0746008157730103, "learning_rate": 0.00027790117545737925, "loss": 3.905, "step": 85640 }, { "epoch": 0.1784375, "grad_norm": 1.1286265850067139, "learning_rate": 0.0002778960246531138, "loss": 3.9659, "step": 85650 }, { "epoch": 0.17845833333333333, "grad_norm": 0.6854866743087769, "learning_rate": 0.0002778908732963882, "loss": 3.9406, "step": 85660 }, { "epoch": 0.17847916666666666, "grad_norm": 0.7812469601631165, "learning_rate": 0.0002778857213872246, "loss": 3.9744, "step": 85670 }, { "epoch": 0.1785, "grad_norm": 0.9480813145637512, "learning_rate": 0.00027788056892564535, "loss": 3.8453, "step": 85680 }, { "epoch": 0.17852083333333332, "grad_norm": 0.7138664126396179, "learning_rate": 0.00027787541591167263, "loss": 3.8467, "step": 85690 }, { "epoch": 0.17854166666666665, "grad_norm": 0.7617980241775513, "learning_rate": 0.0002778702623453287, "loss": 3.7987, "step": 85700 }, { "epoch": 0.1785625, "grad_norm": 0.7998310923576355, "learning_rate": 0.0002778651082266359, "loss": 3.9373, "step": 85710 }, { "epoch": 0.17858333333333334, "grad_norm": 0.7830936908721924, "learning_rate": 0.00027785995355561645, "loss": 3.9655, "step": 85720 }, { "epoch": 0.17860416666666667, "grad_norm": 0.7035660743713379, "learning_rate": 0.0002778547983322926, "loss": 3.9824, "step": 85730 }, { "epoch": 0.178625, "grad_norm": 0.8720551133155823, "learning_rate": 0.0002778496425566866, "loss": 3.9131, "step": 85740 }, { "epoch": 0.17864583333333334, "grad_norm": 0.7178636193275452, "learning_rate": 0.0002778444862288208, "loss": 4.0619, "step": 85750 }, { "epoch": 0.17866666666666667, "grad_norm": 0.7582423090934753, "learning_rate": 0.0002778393293487174, "loss": 3.8318, "step": 85760 }, { "epoch": 0.1786875, "grad_norm": 0.769227921962738, "learning_rate": 0.0002778341719163987, "loss": 4.0159, "step": 85770 }, { "epoch": 0.17870833333333333, "grad_norm": 0.9777992367744446, "learning_rate": 0.000277829013931887, "loss": 3.9242, "step": 85780 }, { "epoch": 0.17872916666666666, "grad_norm": 0.7764589190483093, "learning_rate": 0.0002778238553952045, "loss": 3.8122, "step": 85790 }, { "epoch": 0.17875, "grad_norm": 0.791358232498169, "learning_rate": 0.00027781869630637355, "loss": 3.9199, "step": 85800 }, { "epoch": 0.17877083333333332, "grad_norm": 0.7822316288948059, "learning_rate": 0.0002778135366654165, "loss": 3.9028, "step": 85810 }, { "epoch": 0.17879166666666665, "grad_norm": 1.1834917068481445, "learning_rate": 0.0002778083764723555, "loss": 3.9403, "step": 85820 }, { "epoch": 0.1788125, "grad_norm": 0.7282077670097351, "learning_rate": 0.0002778032157272129, "loss": 3.8087, "step": 85830 }, { "epoch": 0.17883333333333334, "grad_norm": 0.9118136763572693, "learning_rate": 0.00027779805443001106, "loss": 3.8075, "step": 85840 }, { "epoch": 0.17885416666666668, "grad_norm": 0.7563148140907288, "learning_rate": 0.0002777928925807721, "loss": 3.8556, "step": 85850 }, { "epoch": 0.178875, "grad_norm": 0.7563636898994446, "learning_rate": 0.0002777877301795185, "loss": 3.923, "step": 85860 }, { "epoch": 0.17889583333333334, "grad_norm": 0.7616491317749023, "learning_rate": 0.00027778256722627253, "loss": 3.8456, "step": 85870 }, { "epoch": 0.17891666666666667, "grad_norm": 0.8798685669898987, "learning_rate": 0.0002777774037210564, "loss": 3.9007, "step": 85880 }, { "epoch": 0.1789375, "grad_norm": 0.8210008144378662, "learning_rate": 0.00027777223966389243, "loss": 3.9216, "step": 85890 }, { "epoch": 0.17895833333333333, "grad_norm": 0.8116207718849182, "learning_rate": 0.00027776707505480303, "loss": 3.9912, "step": 85900 }, { "epoch": 0.17897916666666666, "grad_norm": 0.7470940947532654, "learning_rate": 0.0002777619098938104, "loss": 4.1416, "step": 85910 }, { "epoch": 0.179, "grad_norm": 0.7884159088134766, "learning_rate": 0.00027775674418093686, "loss": 4.0423, "step": 85920 }, { "epoch": 0.17902083333333332, "grad_norm": 0.8260074853897095, "learning_rate": 0.0002777515779162048, "loss": 4.0291, "step": 85930 }, { "epoch": 0.17904166666666665, "grad_norm": 0.8841700553894043, "learning_rate": 0.0002777464110996365, "loss": 3.9149, "step": 85940 }, { "epoch": 0.1790625, "grad_norm": 0.7573043704032898, "learning_rate": 0.0002777412437312542, "loss": 4.0028, "step": 85950 }, { "epoch": 0.17908333333333334, "grad_norm": 0.830887496471405, "learning_rate": 0.0002777360758110804, "loss": 3.8941, "step": 85960 }, { "epoch": 0.17910416666666668, "grad_norm": 0.7752341628074646, "learning_rate": 0.00027773090733913727, "loss": 4.1286, "step": 85970 }, { "epoch": 0.179125, "grad_norm": 0.7582080960273743, "learning_rate": 0.0002777257383154471, "loss": 3.9649, "step": 85980 }, { "epoch": 0.17914583333333334, "grad_norm": 0.8516180515289307, "learning_rate": 0.0002777205687400324, "loss": 3.9943, "step": 85990 }, { "epoch": 0.17916666666666667, "grad_norm": 0.8340393900871277, "learning_rate": 0.00027771539861291535, "loss": 4.0159, "step": 86000 }, { "epoch": 0.17916666666666667, "eval_loss": 4.264447212219238, "eval_runtime": 9.9618, "eval_samples_per_second": 1.004, "eval_steps_per_second": 0.301, "step": 86000 }, { "epoch": 0.1791875, "grad_norm": 0.8380820155143738, "learning_rate": 0.0002777102279341183, "loss": 3.995, "step": 86010 }, { "epoch": 0.17920833333333333, "grad_norm": 0.8911182284355164, "learning_rate": 0.0002777050567036637, "loss": 3.9424, "step": 86020 }, { "epoch": 0.17922916666666666, "grad_norm": 0.7268779277801514, "learning_rate": 0.0002776998849215738, "loss": 3.8526, "step": 86030 }, { "epoch": 0.17925, "grad_norm": 0.8340833783149719, "learning_rate": 0.00027769471258787086, "loss": 3.9032, "step": 86040 }, { "epoch": 0.17927083333333332, "grad_norm": 0.6930897831916809, "learning_rate": 0.0002776895397025774, "loss": 4.0474, "step": 86050 }, { "epoch": 0.17929166666666665, "grad_norm": 0.762506365776062, "learning_rate": 0.0002776843662657156, "loss": 4.1076, "step": 86060 }, { "epoch": 0.1793125, "grad_norm": 0.8332167863845825, "learning_rate": 0.0002776791922773079, "loss": 3.944, "step": 86070 }, { "epoch": 0.17933333333333334, "grad_norm": 0.7995395064353943, "learning_rate": 0.0002776740177373766, "loss": 4.0739, "step": 86080 }, { "epoch": 0.17935416666666668, "grad_norm": 0.8047800064086914, "learning_rate": 0.00027766884264594414, "loss": 3.9314, "step": 86090 }, { "epoch": 0.179375, "grad_norm": 0.8498236536979675, "learning_rate": 0.0002776636670030328, "loss": 3.9711, "step": 86100 }, { "epoch": 0.17939583333333334, "grad_norm": 0.9017711877822876, "learning_rate": 0.00027765849080866494, "loss": 3.934, "step": 86110 }, { "epoch": 0.17941666666666667, "grad_norm": 0.8342052698135376, "learning_rate": 0.0002776533140628629, "loss": 4.1656, "step": 86120 }, { "epoch": 0.1794375, "grad_norm": 0.6985674500465393, "learning_rate": 0.0002776481367656491, "loss": 4.0342, "step": 86130 }, { "epoch": 0.17945833333333333, "grad_norm": 0.747012734413147, "learning_rate": 0.0002776429589170459, "loss": 4.0234, "step": 86140 }, { "epoch": 0.17947916666666666, "grad_norm": 0.722866952419281, "learning_rate": 0.0002776377805170756, "loss": 4.0712, "step": 86150 }, { "epoch": 0.1795, "grad_norm": 0.8306101560592651, "learning_rate": 0.0002776326015657607, "loss": 3.9106, "step": 86160 }, { "epoch": 0.17952083333333332, "grad_norm": 0.8258914947509766, "learning_rate": 0.00027762742206312335, "loss": 3.6867, "step": 86170 }, { "epoch": 0.17954166666666665, "grad_norm": 1.0408835411071777, "learning_rate": 0.0002776222420091861, "loss": 3.7529, "step": 86180 }, { "epoch": 0.1795625, "grad_norm": 0.9408711194992065, "learning_rate": 0.00027761706140397134, "loss": 3.884, "step": 86190 }, { "epoch": 0.17958333333333334, "grad_norm": 0.7155725955963135, "learning_rate": 0.00027761188024750134, "loss": 3.9833, "step": 86200 }, { "epoch": 0.17960416666666668, "grad_norm": 0.6851444244384766, "learning_rate": 0.0002776066985397985, "loss": 3.9916, "step": 86210 }, { "epoch": 0.179625, "grad_norm": 0.7510812282562256, "learning_rate": 0.00027760151628088527, "loss": 4.1098, "step": 86220 }, { "epoch": 0.17964583333333334, "grad_norm": 0.6606239080429077, "learning_rate": 0.000277596333470784, "loss": 3.8789, "step": 86230 }, { "epoch": 0.17966666666666667, "grad_norm": 0.7594720125198364, "learning_rate": 0.0002775911501095171, "loss": 3.9436, "step": 86240 }, { "epoch": 0.1796875, "grad_norm": 0.7470260262489319, "learning_rate": 0.0002775859661971069, "loss": 3.9608, "step": 86250 }, { "epoch": 0.17970833333333333, "grad_norm": 0.6869453191757202, "learning_rate": 0.00027758078173357586, "loss": 3.7846, "step": 86260 }, { "epoch": 0.17972916666666666, "grad_norm": 0.7238935828208923, "learning_rate": 0.0002775755967189463, "loss": 3.8762, "step": 86270 }, { "epoch": 0.17975, "grad_norm": 0.7277963757514954, "learning_rate": 0.0002775704111532407, "loss": 3.8483, "step": 86280 }, { "epoch": 0.17977083333333332, "grad_norm": 0.8137463927268982, "learning_rate": 0.0002775652250364814, "loss": 3.7965, "step": 86290 }, { "epoch": 0.17979166666666666, "grad_norm": 1.6932507753372192, "learning_rate": 0.0002775600383686908, "loss": 4.0959, "step": 86300 }, { "epoch": 0.1798125, "grad_norm": 0.7890238761901855, "learning_rate": 0.00027755485114989135, "loss": 4.0385, "step": 86310 }, { "epoch": 0.17983333333333335, "grad_norm": 0.816183865070343, "learning_rate": 0.00027754966338010544, "loss": 3.8311, "step": 86320 }, { "epoch": 0.17985416666666668, "grad_norm": 0.7907628417015076, "learning_rate": 0.00027754447505935547, "loss": 3.9034, "step": 86330 }, { "epoch": 0.179875, "grad_norm": 0.777371346950531, "learning_rate": 0.00027753928618766383, "loss": 4.0199, "step": 86340 }, { "epoch": 0.17989583333333334, "grad_norm": 0.7191076278686523, "learning_rate": 0.00027753409676505296, "loss": 3.7942, "step": 86350 }, { "epoch": 0.17991666666666667, "grad_norm": 0.7545293569564819, "learning_rate": 0.0002775289067915453, "loss": 3.8098, "step": 86360 }, { "epoch": 0.1799375, "grad_norm": 0.7242503762245178, "learning_rate": 0.0002775237162671632, "loss": 4.0995, "step": 86370 }, { "epoch": 0.17995833333333333, "grad_norm": 0.8849745988845825, "learning_rate": 0.0002775185251919292, "loss": 3.7909, "step": 86380 }, { "epoch": 0.17997916666666666, "grad_norm": 0.773890495300293, "learning_rate": 0.00027751333356586553, "loss": 3.9931, "step": 86390 }, { "epoch": 0.18, "grad_norm": 0.7033124566078186, "learning_rate": 0.00027750814138899485, "loss": 3.8301, "step": 86400 }, { "epoch": 0.18002083333333332, "grad_norm": 0.8426800966262817, "learning_rate": 0.0002775029486613394, "loss": 4.0528, "step": 86410 }, { "epoch": 0.18004166666666666, "grad_norm": 0.6433781981468201, "learning_rate": 0.00027749775538292166, "loss": 4.0897, "step": 86420 }, { "epoch": 0.1800625, "grad_norm": 0.7904895544052124, "learning_rate": 0.00027749256155376416, "loss": 4.0513, "step": 86430 }, { "epoch": 0.18008333333333335, "grad_norm": 0.7739648222923279, "learning_rate": 0.00027748736717388926, "loss": 3.8679, "step": 86440 }, { "epoch": 0.18010416666666668, "grad_norm": 0.8046252727508545, "learning_rate": 0.00027748217224331934, "loss": 3.8913, "step": 86450 }, { "epoch": 0.180125, "grad_norm": 0.8813231587409973, "learning_rate": 0.0002774769767620769, "loss": 3.9458, "step": 86460 }, { "epoch": 0.18014583333333334, "grad_norm": 0.8923408389091492, "learning_rate": 0.0002774717807301844, "loss": 3.9908, "step": 86470 }, { "epoch": 0.18016666666666667, "grad_norm": 0.7435433864593506, "learning_rate": 0.0002774665841476643, "loss": 3.9282, "step": 86480 }, { "epoch": 0.1801875, "grad_norm": 0.8172239661216736, "learning_rate": 0.0002774613870145389, "loss": 3.9326, "step": 86490 }, { "epoch": 0.18020833333333333, "grad_norm": 0.8387504816055298, "learning_rate": 0.00027745618933083083, "loss": 4.1198, "step": 86500 }, { "epoch": 0.18022916666666666, "grad_norm": 0.7369555830955505, "learning_rate": 0.0002774509910965625, "loss": 3.9962, "step": 86510 }, { "epoch": 0.18025, "grad_norm": 0.8199030160903931, "learning_rate": 0.0002774457923117563, "loss": 3.9088, "step": 86520 }, { "epoch": 0.18027083333333332, "grad_norm": 0.7658722400665283, "learning_rate": 0.0002774405929764348, "loss": 4.0988, "step": 86530 }, { "epoch": 0.18029166666666666, "grad_norm": 0.8912103176116943, "learning_rate": 0.0002774353930906203, "loss": 3.9545, "step": 86540 }, { "epoch": 0.1803125, "grad_norm": 1.0174684524536133, "learning_rate": 0.00027743019265433536, "loss": 4.081, "step": 86550 }, { "epoch": 0.18033333333333335, "grad_norm": 0.7594966292381287, "learning_rate": 0.0002774249916676024, "loss": 4.0002, "step": 86560 }, { "epoch": 0.18035416666666668, "grad_norm": 0.7672754526138306, "learning_rate": 0.0002774197901304439, "loss": 3.964, "step": 86570 }, { "epoch": 0.180375, "grad_norm": 0.7904402017593384, "learning_rate": 0.0002774145880428824, "loss": 3.9128, "step": 86580 }, { "epoch": 0.18039583333333334, "grad_norm": 0.7765664458274841, "learning_rate": 0.00027740938540494033, "loss": 3.9941, "step": 86590 }, { "epoch": 0.18041666666666667, "grad_norm": 0.9382291436195374, "learning_rate": 0.00027740418221664014, "loss": 3.8465, "step": 86600 }, { "epoch": 0.1804375, "grad_norm": 0.8034531474113464, "learning_rate": 0.0002773989784780043, "loss": 4.0178, "step": 86610 }, { "epoch": 0.18045833333333333, "grad_norm": 0.6991348266601562, "learning_rate": 0.0002773937741890553, "loss": 4.1076, "step": 86620 }, { "epoch": 0.18047916666666666, "grad_norm": 0.9755804538726807, "learning_rate": 0.0002773885693498156, "loss": 3.9626, "step": 86630 }, { "epoch": 0.1805, "grad_norm": 0.8245457410812378, "learning_rate": 0.0002773833639603077, "loss": 4.1058, "step": 86640 }, { "epoch": 0.18052083333333332, "grad_norm": 0.7956671118736267, "learning_rate": 0.0002773781580205541, "loss": 3.8751, "step": 86650 }, { "epoch": 0.18054166666666666, "grad_norm": 0.7401562929153442, "learning_rate": 0.0002773729515305773, "loss": 4.1363, "step": 86660 }, { "epoch": 0.1805625, "grad_norm": 0.8218671679496765, "learning_rate": 0.00027736774449039976, "loss": 3.9871, "step": 86670 }, { "epoch": 0.18058333333333335, "grad_norm": 1.231929063796997, "learning_rate": 0.000277362536900044, "loss": 3.911, "step": 86680 }, { "epoch": 0.18060416666666668, "grad_norm": 0.7898419499397278, "learning_rate": 0.00027735732875953245, "loss": 4.0308, "step": 86690 }, { "epoch": 0.180625, "grad_norm": 0.7568915486335754, "learning_rate": 0.00027735212006888764, "loss": 3.8096, "step": 86700 }, { "epoch": 0.18064583333333334, "grad_norm": 0.89715975522995, "learning_rate": 0.0002773469108281321, "loss": 4.0099, "step": 86710 }, { "epoch": 0.18066666666666667, "grad_norm": 0.7076801061630249, "learning_rate": 0.00027734170103728835, "loss": 3.9542, "step": 86720 }, { "epoch": 0.1806875, "grad_norm": 0.8222557306289673, "learning_rate": 0.0002773364906963788, "loss": 3.9606, "step": 86730 }, { "epoch": 0.18070833333333333, "grad_norm": 0.817769467830658, "learning_rate": 0.000277331279805426, "loss": 3.8925, "step": 86740 }, { "epoch": 0.18072916666666666, "grad_norm": 0.7369047999382019, "learning_rate": 0.0002773260683644526, "loss": 3.9034, "step": 86750 }, { "epoch": 0.18075, "grad_norm": 0.6927917003631592, "learning_rate": 0.00027732085637348087, "loss": 4.1525, "step": 86760 }, { "epoch": 0.18077083333333333, "grad_norm": 0.7115907073020935, "learning_rate": 0.00027731564383253344, "loss": 3.8929, "step": 86770 }, { "epoch": 0.18079166666666666, "grad_norm": 0.9259523153305054, "learning_rate": 0.00027731043074163286, "loss": 3.7335, "step": 86780 }, { "epoch": 0.1808125, "grad_norm": 0.7273411154747009, "learning_rate": 0.0002773052171008016, "loss": 3.9717, "step": 86790 }, { "epoch": 0.18083333333333335, "grad_norm": 0.9670501947402954, "learning_rate": 0.0002773000029100622, "loss": 4.0591, "step": 86800 }, { "epoch": 0.18085416666666668, "grad_norm": 0.8025546073913574, "learning_rate": 0.0002772947881694372, "loss": 4.101, "step": 86810 }, { "epoch": 0.180875, "grad_norm": 0.8050698637962341, "learning_rate": 0.00027728957287894904, "loss": 3.9529, "step": 86820 }, { "epoch": 0.18089583333333334, "grad_norm": 0.7396500706672668, "learning_rate": 0.0002772843570386204, "loss": 3.9786, "step": 86830 }, { "epoch": 0.18091666666666667, "grad_norm": 0.6902603507041931, "learning_rate": 0.0002772791406484736, "loss": 4.0195, "step": 86840 }, { "epoch": 0.1809375, "grad_norm": 0.916330099105835, "learning_rate": 0.00027727392370853135, "loss": 4.1401, "step": 86850 }, { "epoch": 0.18095833333333333, "grad_norm": 1.0736193656921387, "learning_rate": 0.0002772687062188162, "loss": 3.8621, "step": 86860 }, { "epoch": 0.18097916666666666, "grad_norm": 0.7355148196220398, "learning_rate": 0.0002772634881793505, "loss": 3.9006, "step": 86870 }, { "epoch": 0.181, "grad_norm": 0.7642204165458679, "learning_rate": 0.00027725826959015695, "loss": 3.907, "step": 86880 }, { "epoch": 0.18102083333333333, "grad_norm": 0.838309109210968, "learning_rate": 0.00027725305045125806, "loss": 3.8492, "step": 86890 }, { "epoch": 0.18104166666666666, "grad_norm": 0.722305953502655, "learning_rate": 0.00027724783076267637, "loss": 3.8561, "step": 86900 }, { "epoch": 0.1810625, "grad_norm": 0.9098578691482544, "learning_rate": 0.00027724261052443437, "loss": 3.8183, "step": 86910 }, { "epoch": 0.18108333333333335, "grad_norm": 0.8164868950843811, "learning_rate": 0.0002772373897365547, "loss": 3.9282, "step": 86920 }, { "epoch": 0.18110416666666668, "grad_norm": 0.8785514831542969, "learning_rate": 0.00027723216839905987, "loss": 3.9323, "step": 86930 }, { "epoch": 0.181125, "grad_norm": 0.771049976348877, "learning_rate": 0.0002772269465119724, "loss": 4.0143, "step": 86940 }, { "epoch": 0.18114583333333334, "grad_norm": 0.8689170479774475, "learning_rate": 0.0002772217240753149, "loss": 3.8116, "step": 86950 }, { "epoch": 0.18116666666666667, "grad_norm": 0.9025158882141113, "learning_rate": 0.00027721650108911, "loss": 4.1129, "step": 86960 }, { "epoch": 0.1811875, "grad_norm": 0.8414560556411743, "learning_rate": 0.00027721127755338005, "loss": 3.9371, "step": 86970 }, { "epoch": 0.18120833333333333, "grad_norm": 0.8141510486602783, "learning_rate": 0.00027720605346814777, "loss": 4.0294, "step": 86980 }, { "epoch": 0.18122916666666666, "grad_norm": 0.754301905632019, "learning_rate": 0.0002772008288334357, "loss": 3.8286, "step": 86990 }, { "epoch": 0.18125, "grad_norm": 0.8273358941078186, "learning_rate": 0.0002771956036492664, "loss": 3.9802, "step": 87000 }, { "epoch": 0.18125, "eval_loss": 4.2762131690979, "eval_runtime": 9.7389, "eval_samples_per_second": 1.027, "eval_steps_per_second": 0.308, "step": 87000 }, { "epoch": 0.18127083333333333, "grad_norm": 0.7829307913780212, "learning_rate": 0.00027719037791566244, "loss": 3.8727, "step": 87010 }, { "epoch": 0.18129166666666666, "grad_norm": 0.717750608921051, "learning_rate": 0.0002771851516326464, "loss": 3.9016, "step": 87020 }, { "epoch": 0.1813125, "grad_norm": 0.7441225647926331, "learning_rate": 0.0002771799248002408, "loss": 3.9129, "step": 87030 }, { "epoch": 0.18133333333333335, "grad_norm": 0.7568635940551758, "learning_rate": 0.0002771746974184683, "loss": 4.0888, "step": 87040 }, { "epoch": 0.18135416666666668, "grad_norm": 0.8313568830490112, "learning_rate": 0.00027716946948735146, "loss": 4.0228, "step": 87050 }, { "epoch": 0.181375, "grad_norm": 0.8301163911819458, "learning_rate": 0.0002771642410069128, "loss": 3.788, "step": 87060 }, { "epoch": 0.18139583333333334, "grad_norm": 0.8366144299507141, "learning_rate": 0.000277159011977175, "loss": 3.8964, "step": 87070 }, { "epoch": 0.18141666666666667, "grad_norm": 0.8715069890022278, "learning_rate": 0.0002771537823981606, "loss": 4.0961, "step": 87080 }, { "epoch": 0.1814375, "grad_norm": 0.8349758982658386, "learning_rate": 0.0002771485522698922, "loss": 4.0396, "step": 87090 }, { "epoch": 0.18145833333333333, "grad_norm": 0.971042275428772, "learning_rate": 0.00027714332159239235, "loss": 4.0946, "step": 87100 }, { "epoch": 0.18147916666666666, "grad_norm": 0.8309457302093506, "learning_rate": 0.0002771380903656837, "loss": 3.8551, "step": 87110 }, { "epoch": 0.1815, "grad_norm": 0.7502473592758179, "learning_rate": 0.00027713285858978887, "loss": 3.9482, "step": 87120 }, { "epoch": 0.18152083333333333, "grad_norm": 0.7540673017501831, "learning_rate": 0.0002771276262647303, "loss": 3.8731, "step": 87130 }, { "epoch": 0.18154166666666666, "grad_norm": 0.8102383017539978, "learning_rate": 0.0002771223933905308, "loss": 3.8357, "step": 87140 }, { "epoch": 0.1815625, "grad_norm": 0.7553289532661438, "learning_rate": 0.0002771171599672128, "loss": 3.8382, "step": 87150 }, { "epoch": 0.18158333333333335, "grad_norm": 0.7286981344223022, "learning_rate": 0.00027711192599479904, "loss": 3.9077, "step": 87160 }, { "epoch": 0.18160416666666668, "grad_norm": 0.8576011657714844, "learning_rate": 0.0002771066914733121, "loss": 3.7951, "step": 87170 }, { "epoch": 0.181625, "grad_norm": 0.7307623028755188, "learning_rate": 0.0002771014564027745, "loss": 3.9714, "step": 87180 }, { "epoch": 0.18164583333333334, "grad_norm": 0.7565385699272156, "learning_rate": 0.00027709622078320894, "loss": 4.0664, "step": 87190 }, { "epoch": 0.18166666666666667, "grad_norm": 0.8211855292320251, "learning_rate": 0.00027709098461463805, "loss": 3.9163, "step": 87200 }, { "epoch": 0.1816875, "grad_norm": 0.8056821823120117, "learning_rate": 0.00027708574789708437, "loss": 4.0279, "step": 87210 }, { "epoch": 0.18170833333333333, "grad_norm": 0.8908872604370117, "learning_rate": 0.0002770805106305706, "loss": 3.8655, "step": 87220 }, { "epoch": 0.18172916666666666, "grad_norm": 0.836047887802124, "learning_rate": 0.0002770752728151193, "loss": 3.8783, "step": 87230 }, { "epoch": 0.18175, "grad_norm": 0.6923906207084656, "learning_rate": 0.0002770700344507531, "loss": 3.9411, "step": 87240 }, { "epoch": 0.18177083333333333, "grad_norm": 0.7421125769615173, "learning_rate": 0.0002770647955374947, "loss": 3.8956, "step": 87250 }, { "epoch": 0.18179166666666666, "grad_norm": 0.7003380656242371, "learning_rate": 0.00027705955607536665, "loss": 3.7415, "step": 87260 }, { "epoch": 0.1818125, "grad_norm": 0.733111560344696, "learning_rate": 0.0002770543160643916, "loss": 3.8, "step": 87270 }, { "epoch": 0.18183333333333335, "grad_norm": 0.81344074010849, "learning_rate": 0.0002770490755045922, "loss": 4.0517, "step": 87280 }, { "epoch": 0.18185416666666668, "grad_norm": 0.736926794052124, "learning_rate": 0.0002770438343959911, "loss": 3.9058, "step": 87290 }, { "epoch": 0.181875, "grad_norm": 0.8664732575416565, "learning_rate": 0.000277038592738611, "loss": 4.0394, "step": 87300 }, { "epoch": 0.18189583333333334, "grad_norm": 0.8464640378952026, "learning_rate": 0.0002770333505324743, "loss": 4.0282, "step": 87310 }, { "epoch": 0.18191666666666667, "grad_norm": 0.750221312046051, "learning_rate": 0.0002770281077776039, "loss": 4.0073, "step": 87320 }, { "epoch": 0.1819375, "grad_norm": 0.8822414875030518, "learning_rate": 0.00027702286447402235, "loss": 3.8761, "step": 87330 }, { "epoch": 0.18195833333333333, "grad_norm": 0.8932996392250061, "learning_rate": 0.0002770176206217523, "loss": 3.8584, "step": 87340 }, { "epoch": 0.18197916666666666, "grad_norm": 0.7007710933685303, "learning_rate": 0.0002770123762208164, "loss": 4.0211, "step": 87350 }, { "epoch": 0.182, "grad_norm": 0.7878519892692566, "learning_rate": 0.00027700713127123733, "loss": 4.0379, "step": 87360 }, { "epoch": 0.18202083333333333, "grad_norm": 0.8292218446731567, "learning_rate": 0.0002770018857730377, "loss": 4.0106, "step": 87370 }, { "epoch": 0.18204166666666666, "grad_norm": 0.8177099227905273, "learning_rate": 0.0002769966397262402, "loss": 4.0429, "step": 87380 }, { "epoch": 0.1820625, "grad_norm": 0.7227445244789124, "learning_rate": 0.0002769913931308675, "loss": 3.979, "step": 87390 }, { "epoch": 0.18208333333333335, "grad_norm": 0.8037196397781372, "learning_rate": 0.00027698614598694227, "loss": 4.142, "step": 87400 }, { "epoch": 0.18210416666666668, "grad_norm": 0.8336159586906433, "learning_rate": 0.0002769808982944871, "loss": 4.0123, "step": 87410 }, { "epoch": 0.182125, "grad_norm": 0.8700069189071655, "learning_rate": 0.00027697565005352473, "loss": 3.9346, "step": 87420 }, { "epoch": 0.18214583333333334, "grad_norm": 0.7583079934120178, "learning_rate": 0.0002769704012640778, "loss": 3.9338, "step": 87430 }, { "epoch": 0.18216666666666667, "grad_norm": 0.7131475806236267, "learning_rate": 0.0002769651519261691, "loss": 3.8463, "step": 87440 }, { "epoch": 0.1821875, "grad_norm": 0.7094453573226929, "learning_rate": 0.00027695990203982105, "loss": 3.905, "step": 87450 }, { "epoch": 0.18220833333333333, "grad_norm": 0.8984208703041077, "learning_rate": 0.0002769546516050566, "loss": 3.9301, "step": 87460 }, { "epoch": 0.18222916666666666, "grad_norm": 0.9187492728233337, "learning_rate": 0.0002769494006218982, "loss": 3.9991, "step": 87470 }, { "epoch": 0.18225, "grad_norm": 0.785453736782074, "learning_rate": 0.0002769441490903687, "loss": 3.9285, "step": 87480 }, { "epoch": 0.18227083333333333, "grad_norm": 0.7565127015113831, "learning_rate": 0.00027693889701049074, "loss": 3.8673, "step": 87490 }, { "epoch": 0.18229166666666666, "grad_norm": 0.7924365401268005, "learning_rate": 0.00027693364438228694, "loss": 3.8782, "step": 87500 }, { "epoch": 0.1823125, "grad_norm": 0.8229979872703552, "learning_rate": 0.00027692839120578, "loss": 3.7964, "step": 87510 }, { "epoch": 0.18233333333333332, "grad_norm": 0.7013866305351257, "learning_rate": 0.0002769231374809928, "loss": 3.703, "step": 87520 }, { "epoch": 0.18235416666666668, "grad_norm": 0.7846365571022034, "learning_rate": 0.00027691788320794775, "loss": 4.0488, "step": 87530 }, { "epoch": 0.182375, "grad_norm": 0.7673659920692444, "learning_rate": 0.0002769126283866677, "loss": 3.9344, "step": 87540 }, { "epoch": 0.18239583333333334, "grad_norm": 0.8162211775779724, "learning_rate": 0.0002769073730171754, "loss": 3.763, "step": 87550 }, { "epoch": 0.18241666666666667, "grad_norm": 0.6888481378555298, "learning_rate": 0.00027690211709949344, "loss": 3.8642, "step": 87560 }, { "epoch": 0.1824375, "grad_norm": 0.7766658663749695, "learning_rate": 0.0002768968606336446, "loss": 3.7084, "step": 87570 }, { "epoch": 0.18245833333333333, "grad_norm": 0.9030970335006714, "learning_rate": 0.0002768916036196515, "loss": 3.9177, "step": 87580 }, { "epoch": 0.18247916666666666, "grad_norm": 0.76337730884552, "learning_rate": 0.0002768863460575369, "loss": 3.9446, "step": 87590 }, { "epoch": 0.1825, "grad_norm": 0.797347366809845, "learning_rate": 0.00027688108794732356, "loss": 3.8734, "step": 87600 }, { "epoch": 0.18252083333333333, "grad_norm": 0.7519146203994751, "learning_rate": 0.00027687582928903414, "loss": 3.8493, "step": 87610 }, { "epoch": 0.18254166666666666, "grad_norm": 0.7263171076774597, "learning_rate": 0.0002768705700826913, "loss": 4.0843, "step": 87620 }, { "epoch": 0.1825625, "grad_norm": 0.854971170425415, "learning_rate": 0.0002768653103283179, "loss": 3.9364, "step": 87630 }, { "epoch": 0.18258333333333332, "grad_norm": 0.7594761252403259, "learning_rate": 0.00027686005002593644, "loss": 3.9043, "step": 87640 }, { "epoch": 0.18260416666666668, "grad_norm": 0.7557277679443359, "learning_rate": 0.00027685478917556993, "loss": 3.7167, "step": 87650 }, { "epoch": 0.182625, "grad_norm": 0.836554229259491, "learning_rate": 0.0002768495277772408, "loss": 3.8935, "step": 87660 }, { "epoch": 0.18264583333333334, "grad_norm": 0.8543583750724792, "learning_rate": 0.00027684426583097203, "loss": 3.9999, "step": 87670 }, { "epoch": 0.18266666666666667, "grad_norm": 0.7264884114265442, "learning_rate": 0.0002768390033367862, "loss": 3.9784, "step": 87680 }, { "epoch": 0.1826875, "grad_norm": 0.829288899898529, "learning_rate": 0.0002768337402947061, "loss": 3.9155, "step": 87690 }, { "epoch": 0.18270833333333333, "grad_norm": 0.8200216293334961, "learning_rate": 0.00027682847670475446, "loss": 3.9929, "step": 87700 }, { "epoch": 0.18272916666666666, "grad_norm": 0.7360736727714539, "learning_rate": 0.000276823212566954, "loss": 3.956, "step": 87710 }, { "epoch": 0.18275, "grad_norm": 0.7371709942817688, "learning_rate": 0.0002768179478813274, "loss": 3.9111, "step": 87720 }, { "epoch": 0.18277083333333333, "grad_norm": 0.7644110321998596, "learning_rate": 0.0002768126826478975, "loss": 3.9201, "step": 87730 }, { "epoch": 0.18279166666666666, "grad_norm": 0.7633153200149536, "learning_rate": 0.000276807416866687, "loss": 3.8998, "step": 87740 }, { "epoch": 0.1828125, "grad_norm": 1.025044560432434, "learning_rate": 0.0002768021505377187, "loss": 3.9701, "step": 87750 }, { "epoch": 0.18283333333333332, "grad_norm": 0.7863289713859558, "learning_rate": 0.0002767968836610153, "loss": 4.1157, "step": 87760 }, { "epoch": 0.18285416666666668, "grad_norm": 0.7808500528335571, "learning_rate": 0.0002767916162365995, "loss": 4.0034, "step": 87770 }, { "epoch": 0.182875, "grad_norm": 0.6739521622657776, "learning_rate": 0.00027678634826449407, "loss": 3.9762, "step": 87780 }, { "epoch": 0.18289583333333334, "grad_norm": 1.1730210781097412, "learning_rate": 0.0002767810797447219, "loss": 3.8859, "step": 87790 }, { "epoch": 0.18291666666666667, "grad_norm": 0.8041358590126038, "learning_rate": 0.0002767758106773056, "loss": 4.1744, "step": 87800 }, { "epoch": 0.1829375, "grad_norm": 0.8782163262367249, "learning_rate": 0.000276770541062268, "loss": 4.0348, "step": 87810 }, { "epoch": 0.18295833333333333, "grad_norm": 0.8994797468185425, "learning_rate": 0.00027676527089963177, "loss": 4.018, "step": 87820 }, { "epoch": 0.18297916666666666, "grad_norm": 0.7245046496391296, "learning_rate": 0.0002767600001894198, "loss": 3.8823, "step": 87830 }, { "epoch": 0.183, "grad_norm": 0.7504734396934509, "learning_rate": 0.0002767547289316548, "loss": 3.8876, "step": 87840 }, { "epoch": 0.18302083333333333, "grad_norm": 0.8326441049575806, "learning_rate": 0.00027674945712635957, "loss": 3.8836, "step": 87850 }, { "epoch": 0.18304166666666666, "grad_norm": 0.6638035178184509, "learning_rate": 0.0002767441847735568, "loss": 3.7964, "step": 87860 }, { "epoch": 0.1830625, "grad_norm": 0.8729750514030457, "learning_rate": 0.00027673891187326944, "loss": 4.0322, "step": 87870 }, { "epoch": 0.18308333333333332, "grad_norm": 0.8071134686470032, "learning_rate": 0.00027673363842552, "loss": 3.9481, "step": 87880 }, { "epoch": 0.18310416666666668, "grad_norm": 0.8748875856399536, "learning_rate": 0.0002767283644303315, "loss": 3.9024, "step": 87890 }, { "epoch": 0.183125, "grad_norm": 0.7890925407409668, "learning_rate": 0.0002767230898877266, "loss": 4.045, "step": 87900 }, { "epoch": 0.18314583333333334, "grad_norm": 0.7785685658454895, "learning_rate": 0.0002767178147977281, "loss": 3.9871, "step": 87910 }, { "epoch": 0.18316666666666667, "grad_norm": 0.9221833348274231, "learning_rate": 0.0002767125391603588, "loss": 3.9511, "step": 87920 }, { "epoch": 0.1831875, "grad_norm": 0.8880302309989929, "learning_rate": 0.00027670726297564154, "loss": 4.0629, "step": 87930 }, { "epoch": 0.18320833333333333, "grad_norm": 0.7509293556213379, "learning_rate": 0.00027670198624359896, "loss": 4.0799, "step": 87940 }, { "epoch": 0.18322916666666667, "grad_norm": 0.8642449975013733, "learning_rate": 0.000276696708964254, "loss": 4.0747, "step": 87950 }, { "epoch": 0.18325, "grad_norm": 0.8820912837982178, "learning_rate": 0.0002766914311376294, "loss": 4.0732, "step": 87960 }, { "epoch": 0.18327083333333333, "grad_norm": 0.92373126745224, "learning_rate": 0.00027668615276374805, "loss": 3.9147, "step": 87970 }, { "epoch": 0.18329166666666666, "grad_norm": 0.8607349991798401, "learning_rate": 0.00027668087384263255, "loss": 3.9928, "step": 87980 }, { "epoch": 0.1833125, "grad_norm": 0.7504574060440063, "learning_rate": 0.0002766755943743059, "loss": 4.0613, "step": 87990 }, { "epoch": 0.18333333333333332, "grad_norm": 0.8695613145828247, "learning_rate": 0.00027667031435879075, "loss": 3.9888, "step": 88000 }, { "epoch": 0.18333333333333332, "eval_loss": 4.29074239730835, "eval_runtime": 9.5409, "eval_samples_per_second": 1.048, "eval_steps_per_second": 0.314, "step": 88000 }, { "epoch": 0.18335416666666668, "grad_norm": 0.7890095710754395, "learning_rate": 0.00027666503379611, "loss": 3.78, "step": 88010 }, { "epoch": 0.183375, "grad_norm": 0.7826977372169495, "learning_rate": 0.0002766597526862865, "loss": 3.9982, "step": 88020 }, { "epoch": 0.18339583333333334, "grad_norm": 0.7879928350448608, "learning_rate": 0.00027665447102934296, "loss": 3.9673, "step": 88030 }, { "epoch": 0.18341666666666667, "grad_norm": 0.7032837867736816, "learning_rate": 0.00027664918882530225, "loss": 3.8704, "step": 88040 }, { "epoch": 0.1834375, "grad_norm": 0.7922263741493225, "learning_rate": 0.00027664390607418717, "loss": 3.9802, "step": 88050 }, { "epoch": 0.18345833333333333, "grad_norm": 0.7143397927284241, "learning_rate": 0.00027663862277602054, "loss": 3.9475, "step": 88060 }, { "epoch": 0.18347916666666667, "grad_norm": 0.7781085968017578, "learning_rate": 0.00027663333893082517, "loss": 4.0553, "step": 88070 }, { "epoch": 0.1835, "grad_norm": 0.8027164936065674, "learning_rate": 0.00027662805453862395, "loss": 3.8228, "step": 88080 }, { "epoch": 0.18352083333333333, "grad_norm": 0.897082507610321, "learning_rate": 0.0002766227695994396, "loss": 4.0345, "step": 88090 }, { "epoch": 0.18354166666666666, "grad_norm": 0.7642663717269897, "learning_rate": 0.0002766174841132951, "loss": 3.9021, "step": 88100 }, { "epoch": 0.1835625, "grad_norm": 0.8067945241928101, "learning_rate": 0.00027661219808021307, "loss": 3.9437, "step": 88110 }, { "epoch": 0.18358333333333332, "grad_norm": 0.7370964288711548, "learning_rate": 0.0002766069115002165, "loss": 3.9584, "step": 88120 }, { "epoch": 0.18360416666666668, "grad_norm": 0.7243981957435608, "learning_rate": 0.0002766016243733282, "loss": 3.8296, "step": 88130 }, { "epoch": 0.183625, "grad_norm": 0.7076358795166016, "learning_rate": 0.000276596336699571, "loss": 3.953, "step": 88140 }, { "epoch": 0.18364583333333334, "grad_norm": 0.8295220136642456, "learning_rate": 0.0002765910484789677, "loss": 3.8637, "step": 88150 }, { "epoch": 0.18366666666666667, "grad_norm": 0.7509817481040955, "learning_rate": 0.0002765857597115412, "loss": 4.0541, "step": 88160 }, { "epoch": 0.1836875, "grad_norm": 0.8788045048713684, "learning_rate": 0.0002765804703973144, "loss": 3.9488, "step": 88170 }, { "epoch": 0.18370833333333333, "grad_norm": 0.8003854751586914, "learning_rate": 0.00027657518053630996, "loss": 4.0549, "step": 88180 }, { "epoch": 0.18372916666666667, "grad_norm": 0.827948272228241, "learning_rate": 0.0002765698901285509, "loss": 3.9404, "step": 88190 }, { "epoch": 0.18375, "grad_norm": 0.7165871858596802, "learning_rate": 0.00027656459917406, "loss": 3.856, "step": 88200 }, { "epoch": 0.18377083333333333, "grad_norm": 0.8522375226020813, "learning_rate": 0.0002765593076728601, "loss": 4.084, "step": 88210 }, { "epoch": 0.18379166666666666, "grad_norm": 0.7691645622253418, "learning_rate": 0.00027655401562497417, "loss": 4.0144, "step": 88220 }, { "epoch": 0.1838125, "grad_norm": 0.723880410194397, "learning_rate": 0.0002765487230304249, "loss": 3.7982, "step": 88230 }, { "epoch": 0.18383333333333332, "grad_norm": 0.7315043210983276, "learning_rate": 0.00027654342988923524, "loss": 3.9605, "step": 88240 }, { "epoch": 0.18385416666666668, "grad_norm": 0.8680640459060669, "learning_rate": 0.0002765381362014282, "loss": 3.9021, "step": 88250 }, { "epoch": 0.183875, "grad_norm": 0.9071645140647888, "learning_rate": 0.00027653284196702633, "loss": 3.8715, "step": 88260 }, { "epoch": 0.18389583333333334, "grad_norm": 0.7919116616249084, "learning_rate": 0.0002765275471860527, "loss": 3.8815, "step": 88270 }, { "epoch": 0.18391666666666667, "grad_norm": 0.8136408925056458, "learning_rate": 0.0002765222518585302, "loss": 3.8861, "step": 88280 }, { "epoch": 0.1839375, "grad_norm": 0.8737508058547974, "learning_rate": 0.0002765169559844816, "loss": 3.8579, "step": 88290 }, { "epoch": 0.18395833333333333, "grad_norm": 0.7423958778381348, "learning_rate": 0.00027651165956392985, "loss": 4.0493, "step": 88300 }, { "epoch": 0.18397916666666667, "grad_norm": 0.793302595615387, "learning_rate": 0.0002765063625968978, "loss": 4.0295, "step": 88310 }, { "epoch": 0.184, "grad_norm": 0.7486281991004944, "learning_rate": 0.00027650106508340835, "loss": 3.8815, "step": 88320 }, { "epoch": 0.18402083333333333, "grad_norm": 0.8140532374382019, "learning_rate": 0.00027649576702348436, "loss": 3.9092, "step": 88330 }, { "epoch": 0.18404166666666666, "grad_norm": 0.8728615045547485, "learning_rate": 0.0002764904684171487, "loss": 4.0579, "step": 88340 }, { "epoch": 0.1840625, "grad_norm": 0.7310709357261658, "learning_rate": 0.00027648516926442434, "loss": 3.7804, "step": 88350 }, { "epoch": 0.18408333333333332, "grad_norm": 0.7199096083641052, "learning_rate": 0.0002764798695653341, "loss": 4.119, "step": 88360 }, { "epoch": 0.18410416666666668, "grad_norm": 0.7274208664894104, "learning_rate": 0.00027647456931990087, "loss": 3.9022, "step": 88370 }, { "epoch": 0.184125, "grad_norm": 0.7428338527679443, "learning_rate": 0.00027646926852814763, "loss": 3.9269, "step": 88380 }, { "epoch": 0.18414583333333334, "grad_norm": 0.8210427165031433, "learning_rate": 0.0002764639671900971, "loss": 3.9589, "step": 88390 }, { "epoch": 0.18416666666666667, "grad_norm": 0.7799885272979736, "learning_rate": 0.0002764586653057724, "loss": 3.9239, "step": 88400 }, { "epoch": 0.1841875, "grad_norm": 0.8810585141181946, "learning_rate": 0.0002764533628751962, "loss": 4.088, "step": 88410 }, { "epoch": 0.18420833333333334, "grad_norm": 0.7676212787628174, "learning_rate": 0.00027644805989839163, "loss": 3.8941, "step": 88420 }, { "epoch": 0.18422916666666667, "grad_norm": 0.6871315836906433, "learning_rate": 0.00027644275637538144, "loss": 4.0138, "step": 88430 }, { "epoch": 0.18425, "grad_norm": 0.7277504205703735, "learning_rate": 0.00027643745230618863, "loss": 3.9849, "step": 88440 }, { "epoch": 0.18427083333333333, "grad_norm": 0.7299270629882812, "learning_rate": 0.00027643214769083603, "loss": 3.9388, "step": 88450 }, { "epoch": 0.18429166666666666, "grad_norm": 0.6751368045806885, "learning_rate": 0.00027642684252934666, "loss": 3.9853, "step": 88460 }, { "epoch": 0.1843125, "grad_norm": 0.7517796158790588, "learning_rate": 0.0002764215368217433, "loss": 4.0856, "step": 88470 }, { "epoch": 0.18433333333333332, "grad_norm": 0.7871310114860535, "learning_rate": 0.000276416230568049, "loss": 3.9931, "step": 88480 }, { "epoch": 0.18435416666666668, "grad_norm": 0.8664315342903137, "learning_rate": 0.0002764109237682866, "loss": 3.943, "step": 88490 }, { "epoch": 0.184375, "grad_norm": 0.8582894206047058, "learning_rate": 0.000276405616422479, "loss": 4.153, "step": 88500 }, { "epoch": 0.18439583333333334, "grad_norm": 0.7225536108016968, "learning_rate": 0.0002764003085306492, "loss": 3.8939, "step": 88510 }, { "epoch": 0.18441666666666667, "grad_norm": 0.721159040927887, "learning_rate": 0.00027639500009282015, "loss": 3.7858, "step": 88520 }, { "epoch": 0.1844375, "grad_norm": 0.8943138122558594, "learning_rate": 0.00027638969110901473, "loss": 3.8634, "step": 88530 }, { "epoch": 0.18445833333333334, "grad_norm": 0.7939661741256714, "learning_rate": 0.0002763843815792558, "loss": 3.8654, "step": 88540 }, { "epoch": 0.18447916666666667, "grad_norm": 0.7544674873352051, "learning_rate": 0.0002763790715035664, "loss": 3.8772, "step": 88550 }, { "epoch": 0.1845, "grad_norm": 0.748901903629303, "learning_rate": 0.0002763737608819694, "loss": 3.9768, "step": 88560 }, { "epoch": 0.18452083333333333, "grad_norm": 0.7297369241714478, "learning_rate": 0.0002763684497144879, "loss": 4.1252, "step": 88570 }, { "epoch": 0.18454166666666666, "grad_norm": 0.6932283043861389, "learning_rate": 0.0002763631380011446, "loss": 3.9537, "step": 88580 }, { "epoch": 0.1845625, "grad_norm": 0.805833101272583, "learning_rate": 0.0002763578257419626, "loss": 3.8452, "step": 88590 }, { "epoch": 0.18458333333333332, "grad_norm": 0.7612653374671936, "learning_rate": 0.0002763525129369648, "loss": 3.8933, "step": 88600 }, { "epoch": 0.18460416666666668, "grad_norm": 0.7577599883079529, "learning_rate": 0.00027634719958617417, "loss": 3.9752, "step": 88610 }, { "epoch": 0.184625, "grad_norm": 0.6952414512634277, "learning_rate": 0.00027634188568961365, "loss": 4.0679, "step": 88620 }, { "epoch": 0.18464583333333334, "grad_norm": 0.9316269755363464, "learning_rate": 0.0002763365712473062, "loss": 3.9413, "step": 88630 }, { "epoch": 0.18466666666666667, "grad_norm": 0.6981588006019592, "learning_rate": 0.0002763312562592747, "loss": 3.937, "step": 88640 }, { "epoch": 0.1846875, "grad_norm": 0.7068548202514648, "learning_rate": 0.0002763259407255423, "loss": 3.8029, "step": 88650 }, { "epoch": 0.18470833333333334, "grad_norm": 0.7920008897781372, "learning_rate": 0.00027632062464613173, "loss": 4.1221, "step": 88660 }, { "epoch": 0.18472916666666667, "grad_norm": 1.3808574676513672, "learning_rate": 0.00027631530802106613, "loss": 3.9122, "step": 88670 }, { "epoch": 0.18475, "grad_norm": 0.852178156375885, "learning_rate": 0.00027630999085036836, "loss": 4.0765, "step": 88680 }, { "epoch": 0.18477083333333333, "grad_norm": 0.8481760025024414, "learning_rate": 0.00027630467313406146, "loss": 3.9964, "step": 88690 }, { "epoch": 0.18479166666666666, "grad_norm": 0.7423007488250732, "learning_rate": 0.00027629935487216836, "loss": 3.732, "step": 88700 }, { "epoch": 0.1848125, "grad_norm": 0.785493016242981, "learning_rate": 0.000276294036064712, "loss": 4.0228, "step": 88710 }, { "epoch": 0.18483333333333332, "grad_norm": 0.8060574531555176, "learning_rate": 0.00027628871671171544, "loss": 4.0448, "step": 88720 }, { "epoch": 0.18485416666666668, "grad_norm": 2.909912347793579, "learning_rate": 0.0002762833968132016, "loss": 4.023, "step": 88730 }, { "epoch": 0.184875, "grad_norm": 0.7693156599998474, "learning_rate": 0.00027627807636919344, "loss": 3.9898, "step": 88740 }, { "epoch": 0.18489583333333334, "grad_norm": 0.7227055430412292, "learning_rate": 0.000276272755379714, "loss": 3.8248, "step": 88750 }, { "epoch": 0.18491666666666667, "grad_norm": 0.7221776843070984, "learning_rate": 0.00027626743384478623, "loss": 4.0202, "step": 88760 }, { "epoch": 0.1849375, "grad_norm": 0.710896909236908, "learning_rate": 0.00027626211176443315, "loss": 3.9443, "step": 88770 }, { "epoch": 0.18495833333333334, "grad_norm": 0.6673493981361389, "learning_rate": 0.0002762567891386777, "loss": 4.0255, "step": 88780 }, { "epoch": 0.18497916666666667, "grad_norm": 0.8053713440895081, "learning_rate": 0.0002762514659675429, "loss": 3.9367, "step": 88790 }, { "epoch": 0.185, "grad_norm": 0.6909416317939758, "learning_rate": 0.00027624614225105177, "loss": 3.9277, "step": 88800 }, { "epoch": 0.18502083333333333, "grad_norm": 0.8633298873901367, "learning_rate": 0.00027624081798922727, "loss": 3.9217, "step": 88810 }, { "epoch": 0.18504166666666666, "grad_norm": 0.7115922570228577, "learning_rate": 0.00027623549318209233, "loss": 3.9014, "step": 88820 }, { "epoch": 0.1850625, "grad_norm": 0.7920133471488953, "learning_rate": 0.0002762301678296701, "loss": 3.9994, "step": 88830 }, { "epoch": 0.18508333333333332, "grad_norm": 0.6990574598312378, "learning_rate": 0.00027622484193198354, "loss": 3.9916, "step": 88840 }, { "epoch": 0.18510416666666665, "grad_norm": 0.851533055305481, "learning_rate": 0.00027621951548905554, "loss": 4.0342, "step": 88850 }, { "epoch": 0.185125, "grad_norm": 0.6753920316696167, "learning_rate": 0.0002762141885009092, "loss": 4.0132, "step": 88860 }, { "epoch": 0.18514583333333334, "grad_norm": 0.8283059597015381, "learning_rate": 0.00027620886096756765, "loss": 3.8397, "step": 88870 }, { "epoch": 0.18516666666666667, "grad_norm": 0.7125903964042664, "learning_rate": 0.00027620353288905367, "loss": 4.1474, "step": 88880 }, { "epoch": 0.1851875, "grad_norm": 1.0602282285690308, "learning_rate": 0.00027619820426539037, "loss": 4.045, "step": 88890 }, { "epoch": 0.18520833333333334, "grad_norm": 0.7853630781173706, "learning_rate": 0.00027619287509660084, "loss": 4.0366, "step": 88900 }, { "epoch": 0.18522916666666667, "grad_norm": 0.7283516526222229, "learning_rate": 0.000276187545382708, "loss": 3.9581, "step": 88910 }, { "epoch": 0.18525, "grad_norm": 0.7134384512901306, "learning_rate": 0.000276182215123735, "loss": 4.0543, "step": 88920 }, { "epoch": 0.18527083333333333, "grad_norm": 0.7980267405509949, "learning_rate": 0.00027617688431970464, "loss": 3.8665, "step": 88930 }, { "epoch": 0.18529166666666666, "grad_norm": 0.9083043336868286, "learning_rate": 0.00027617155297064017, "loss": 3.8635, "step": 88940 }, { "epoch": 0.1853125, "grad_norm": 0.7255121469497681, "learning_rate": 0.0002761662210765645, "loss": 3.7795, "step": 88950 }, { "epoch": 0.18533333333333332, "grad_norm": 0.9030846953392029, "learning_rate": 0.00027616088863750073, "loss": 4.0779, "step": 88960 }, { "epoch": 0.18535416666666665, "grad_norm": 0.7669171094894409, "learning_rate": 0.0002761555556534718, "loss": 3.9201, "step": 88970 }, { "epoch": 0.185375, "grad_norm": 0.7465364933013916, "learning_rate": 0.0002761502221245009, "loss": 4.0523, "step": 88980 }, { "epoch": 0.18539583333333334, "grad_norm": 0.8280254006385803, "learning_rate": 0.0002761448880506109, "loss": 4.0381, "step": 88990 }, { "epoch": 0.18541666666666667, "grad_norm": 0.7784864902496338, "learning_rate": 0.0002761395534318249, "loss": 3.9399, "step": 89000 }, { "epoch": 0.18541666666666667, "eval_loss": 4.298866271972656, "eval_runtime": 12.0141, "eval_samples_per_second": 0.832, "eval_steps_per_second": 0.25, "step": 89000 }, { "epoch": 0.1854375, "grad_norm": 1.2096363306045532, "learning_rate": 0.00027613421826816595, "loss": 3.9134, "step": 89010 }, { "epoch": 0.18545833333333334, "grad_norm": 0.7081828713417053, "learning_rate": 0.00027612888255965724, "loss": 3.8537, "step": 89020 }, { "epoch": 0.18547916666666667, "grad_norm": 1.0037404298782349, "learning_rate": 0.00027612354630632155, "loss": 4.1552, "step": 89030 }, { "epoch": 0.1855, "grad_norm": 0.7764583230018616, "learning_rate": 0.00027611820950818207, "loss": 3.8679, "step": 89040 }, { "epoch": 0.18552083333333333, "grad_norm": 0.8074873089790344, "learning_rate": 0.0002761128721652619, "loss": 3.9948, "step": 89050 }, { "epoch": 0.18554166666666666, "grad_norm": 0.7888335585594177, "learning_rate": 0.000276107534277584, "loss": 4.0423, "step": 89060 }, { "epoch": 0.1855625, "grad_norm": 0.8509371280670166, "learning_rate": 0.0002761021958451715, "loss": 4.0586, "step": 89070 }, { "epoch": 0.18558333333333332, "grad_norm": 1.0026004314422607, "learning_rate": 0.0002760968568680474, "loss": 3.8302, "step": 89080 }, { "epoch": 0.18560416666666665, "grad_norm": 0.8381650447845459, "learning_rate": 0.0002760915173462348, "loss": 3.9405, "step": 89090 }, { "epoch": 0.185625, "grad_norm": 0.7993146777153015, "learning_rate": 0.0002760861772797568, "loss": 4.0074, "step": 89100 }, { "epoch": 0.18564583333333334, "grad_norm": 0.720235288143158, "learning_rate": 0.00027608083666863634, "loss": 4.106, "step": 89110 }, { "epoch": 0.18566666666666667, "grad_norm": 0.860051155090332, "learning_rate": 0.00027607549551289664, "loss": 4.0359, "step": 89120 }, { "epoch": 0.1856875, "grad_norm": 0.7113305330276489, "learning_rate": 0.0002760701538125607, "loss": 3.9432, "step": 89130 }, { "epoch": 0.18570833333333334, "grad_norm": 1.0736980438232422, "learning_rate": 0.00027606481156765153, "loss": 4.1147, "step": 89140 }, { "epoch": 0.18572916666666667, "grad_norm": 0.8083234429359436, "learning_rate": 0.00027605946877819236, "loss": 3.9846, "step": 89150 }, { "epoch": 0.18575, "grad_norm": 0.8779605627059937, "learning_rate": 0.00027605412544420615, "loss": 3.8787, "step": 89160 }, { "epoch": 0.18577083333333333, "grad_norm": 0.7097904682159424, "learning_rate": 0.000276048781565716, "loss": 3.9343, "step": 89170 }, { "epoch": 0.18579166666666666, "grad_norm": 0.7155259847640991, "learning_rate": 0.000276043437142745, "loss": 3.8689, "step": 89180 }, { "epoch": 0.1858125, "grad_norm": 0.7701885104179382, "learning_rate": 0.00027603809217531625, "loss": 3.7983, "step": 89190 }, { "epoch": 0.18583333333333332, "grad_norm": 0.7614938616752625, "learning_rate": 0.00027603274666345286, "loss": 3.964, "step": 89200 }, { "epoch": 0.18585416666666665, "grad_norm": 0.8108147382736206, "learning_rate": 0.00027602740060717783, "loss": 3.9181, "step": 89210 }, { "epoch": 0.185875, "grad_norm": 0.7919842004776001, "learning_rate": 0.0002760220540065144, "loss": 3.888, "step": 89220 }, { "epoch": 0.18589583333333334, "grad_norm": 0.8006912469863892, "learning_rate": 0.0002760167068614855, "loss": 3.9911, "step": 89230 }, { "epoch": 0.18591666666666667, "grad_norm": 0.6830794811248779, "learning_rate": 0.00027601135917211436, "loss": 3.9372, "step": 89240 }, { "epoch": 0.1859375, "grad_norm": 0.7485286593437195, "learning_rate": 0.00027600601093842397, "loss": 4.0607, "step": 89250 }, { "epoch": 0.18595833333333334, "grad_norm": 0.7953529357910156, "learning_rate": 0.0002760006621604375, "loss": 4.0595, "step": 89260 }, { "epoch": 0.18597916666666667, "grad_norm": 0.6941603422164917, "learning_rate": 0.0002759953128381781, "loss": 4.0179, "step": 89270 }, { "epoch": 0.186, "grad_norm": 0.6825506687164307, "learning_rate": 0.0002759899629716688, "loss": 3.9162, "step": 89280 }, { "epoch": 0.18602083333333333, "grad_norm": 0.9081491231918335, "learning_rate": 0.0002759846125609327, "loss": 3.6899, "step": 89290 }, { "epoch": 0.18604166666666666, "grad_norm": 0.8196941614151001, "learning_rate": 0.000275979261605993, "loss": 3.8499, "step": 89300 }, { "epoch": 0.1860625, "grad_norm": 0.7357652187347412, "learning_rate": 0.0002759739101068727, "loss": 3.9789, "step": 89310 }, { "epoch": 0.18608333333333332, "grad_norm": 0.8006840944290161, "learning_rate": 0.00027596855806359503, "loss": 3.8858, "step": 89320 }, { "epoch": 0.18610416666666665, "grad_norm": 0.8082605600357056, "learning_rate": 0.000275963205476183, "loss": 3.9375, "step": 89330 }, { "epoch": 0.186125, "grad_norm": 0.8830567002296448, "learning_rate": 0.00027595785234465976, "loss": 3.8676, "step": 89340 }, { "epoch": 0.18614583333333334, "grad_norm": 0.9486656785011292, "learning_rate": 0.0002759524986690485, "loss": 4.1069, "step": 89350 }, { "epoch": 0.18616666666666667, "grad_norm": 0.7805612087249756, "learning_rate": 0.0002759471444493723, "loss": 3.9353, "step": 89360 }, { "epoch": 0.1861875, "grad_norm": 0.8980852961540222, "learning_rate": 0.0002759417896856543, "loss": 4.1242, "step": 89370 }, { "epoch": 0.18620833333333334, "grad_norm": 0.6506435871124268, "learning_rate": 0.0002759364343779176, "loss": 3.8812, "step": 89380 }, { "epoch": 0.18622916666666667, "grad_norm": 0.7133354544639587, "learning_rate": 0.0002759310785261854, "loss": 3.993, "step": 89390 }, { "epoch": 0.18625, "grad_norm": 0.7775059342384338, "learning_rate": 0.0002759257221304807, "loss": 3.9676, "step": 89400 }, { "epoch": 0.18627083333333333, "grad_norm": 0.6684448719024658, "learning_rate": 0.0002759203651908267, "loss": 3.9214, "step": 89410 }, { "epoch": 0.18629166666666666, "grad_norm": 0.7657297849655151, "learning_rate": 0.0002759150077072467, "loss": 3.8964, "step": 89420 }, { "epoch": 0.1863125, "grad_norm": 0.6800009608268738, "learning_rate": 0.0002759096496797636, "loss": 3.7839, "step": 89430 }, { "epoch": 0.18633333333333332, "grad_norm": 0.8518722057342529, "learning_rate": 0.0002759042911084007, "loss": 3.8452, "step": 89440 }, { "epoch": 0.18635416666666665, "grad_norm": 0.7656694650650024, "learning_rate": 0.0002758989319931811, "loss": 4.1663, "step": 89450 }, { "epoch": 0.186375, "grad_norm": 0.8027648329734802, "learning_rate": 0.00027589357233412794, "loss": 3.8722, "step": 89460 }, { "epoch": 0.18639583333333334, "grad_norm": 0.8354061245918274, "learning_rate": 0.0002758882121312644, "loss": 3.8319, "step": 89470 }, { "epoch": 0.18641666666666667, "grad_norm": 1.0203309059143066, "learning_rate": 0.0002758828513846136, "loss": 3.9267, "step": 89480 }, { "epoch": 0.1864375, "grad_norm": 0.7360163331031799, "learning_rate": 0.0002758774900941987, "loss": 4.0231, "step": 89490 }, { "epoch": 0.18645833333333334, "grad_norm": 0.7954447865486145, "learning_rate": 0.0002758721282600428, "loss": 3.8451, "step": 89500 }, { "epoch": 0.18647916666666667, "grad_norm": 0.6878617405891418, "learning_rate": 0.00027586676588216925, "loss": 3.9694, "step": 89510 }, { "epoch": 0.1865, "grad_norm": 0.7182298302650452, "learning_rate": 0.00027586140296060105, "loss": 3.8655, "step": 89520 }, { "epoch": 0.18652083333333333, "grad_norm": 0.7702656984329224, "learning_rate": 0.0002758560394953614, "loss": 3.8865, "step": 89530 }, { "epoch": 0.18654166666666666, "grad_norm": 0.7679427862167358, "learning_rate": 0.00027585067548647346, "loss": 3.907, "step": 89540 }, { "epoch": 0.1865625, "grad_norm": 0.6802034974098206, "learning_rate": 0.0002758453109339605, "loss": 3.8685, "step": 89550 }, { "epoch": 0.18658333333333332, "grad_norm": 0.8093920946121216, "learning_rate": 0.0002758399458378455, "loss": 3.9711, "step": 89560 }, { "epoch": 0.18660416666666665, "grad_norm": 0.7637585997581482, "learning_rate": 0.0002758345801981518, "loss": 3.8115, "step": 89570 }, { "epoch": 0.186625, "grad_norm": 0.7978289723396301, "learning_rate": 0.0002758292140149025, "loss": 3.9875, "step": 89580 }, { "epoch": 0.18664583333333334, "grad_norm": 0.7508188486099243, "learning_rate": 0.0002758238472881208, "loss": 4.0969, "step": 89590 }, { "epoch": 0.18666666666666668, "grad_norm": 0.7081105709075928, "learning_rate": 0.0002758184800178299, "loss": 4.1183, "step": 89600 }, { "epoch": 0.1866875, "grad_norm": 0.744877278804779, "learning_rate": 0.000275813112204053, "loss": 3.7202, "step": 89610 }, { "epoch": 0.18670833333333334, "grad_norm": 0.813997209072113, "learning_rate": 0.0002758077438468132, "loss": 4.0378, "step": 89620 }, { "epoch": 0.18672916666666667, "grad_norm": 0.8119266033172607, "learning_rate": 0.0002758023749461337, "loss": 3.8986, "step": 89630 }, { "epoch": 0.18675, "grad_norm": 0.8180190324783325, "learning_rate": 0.00027579700550203783, "loss": 3.9859, "step": 89640 }, { "epoch": 0.18677083333333333, "grad_norm": 0.9067244529724121, "learning_rate": 0.0002757916355145487, "loss": 3.8231, "step": 89650 }, { "epoch": 0.18679166666666666, "grad_norm": 0.7998123168945312, "learning_rate": 0.0002757862649836895, "loss": 3.9886, "step": 89660 }, { "epoch": 0.1868125, "grad_norm": 0.7788608074188232, "learning_rate": 0.0002757808939094834, "loss": 3.9497, "step": 89670 }, { "epoch": 0.18683333333333332, "grad_norm": 0.7209687232971191, "learning_rate": 0.0002757755222919536, "loss": 3.7818, "step": 89680 }, { "epoch": 0.18685416666666665, "grad_norm": 0.7668169140815735, "learning_rate": 0.0002757701501311233, "loss": 4.0408, "step": 89690 }, { "epoch": 0.186875, "grad_norm": 0.7057467103004456, "learning_rate": 0.0002757647774270158, "loss": 3.7789, "step": 89700 }, { "epoch": 0.18689583333333334, "grad_norm": 0.797359824180603, "learning_rate": 0.0002757594041796542, "loss": 3.87, "step": 89710 }, { "epoch": 0.18691666666666668, "grad_norm": 0.7950314879417419, "learning_rate": 0.0002757540303890617, "loss": 3.931, "step": 89720 }, { "epoch": 0.1869375, "grad_norm": 0.7354533076286316, "learning_rate": 0.0002757486560552617, "loss": 3.8874, "step": 89730 }, { "epoch": 0.18695833333333334, "grad_norm": 0.8701459765434265, "learning_rate": 0.0002757432811782772, "loss": 3.9536, "step": 89740 }, { "epoch": 0.18697916666666667, "grad_norm": 0.7935304641723633, "learning_rate": 0.00027573790575813155, "loss": 3.9164, "step": 89750 }, { "epoch": 0.187, "grad_norm": 0.7384026050567627, "learning_rate": 0.00027573252979484785, "loss": 3.8527, "step": 89760 }, { "epoch": 0.18702083333333333, "grad_norm": 0.8241063356399536, "learning_rate": 0.00027572715328844945, "loss": 3.7992, "step": 89770 }, { "epoch": 0.18704166666666666, "grad_norm": 0.9801690578460693, "learning_rate": 0.00027572177623895943, "loss": 3.7796, "step": 89780 }, { "epoch": 0.1870625, "grad_norm": 0.8996636271476746, "learning_rate": 0.00027571639864640117, "loss": 3.8248, "step": 89790 }, { "epoch": 0.18708333333333332, "grad_norm": 0.8434402346611023, "learning_rate": 0.0002757110205107978, "loss": 4.0475, "step": 89800 }, { "epoch": 0.18710416666666665, "grad_norm": 0.7799971699714661, "learning_rate": 0.00027570564183217265, "loss": 4.0126, "step": 89810 }, { "epoch": 0.187125, "grad_norm": 0.8561511635780334, "learning_rate": 0.0002757002626105488, "loss": 3.8496, "step": 89820 }, { "epoch": 0.18714583333333334, "grad_norm": 0.723863959312439, "learning_rate": 0.0002756948828459496, "loss": 4.0591, "step": 89830 }, { "epoch": 0.18716666666666668, "grad_norm": 0.8599280118942261, "learning_rate": 0.0002756895025383983, "loss": 3.9083, "step": 89840 }, { "epoch": 0.1871875, "grad_norm": 0.8584170937538147, "learning_rate": 0.00027568412168791804, "loss": 3.768, "step": 89850 }, { "epoch": 0.18720833333333334, "grad_norm": 0.8101885914802551, "learning_rate": 0.0002756787402945321, "loss": 4.0316, "step": 89860 }, { "epoch": 0.18722916666666667, "grad_norm": 0.7032775282859802, "learning_rate": 0.00027567335835826384, "loss": 3.9187, "step": 89870 }, { "epoch": 0.18725, "grad_norm": 0.8329091668128967, "learning_rate": 0.00027566797587913635, "loss": 4.0463, "step": 89880 }, { "epoch": 0.18727083333333333, "grad_norm": 0.733814537525177, "learning_rate": 0.000275662592857173, "loss": 3.9978, "step": 89890 }, { "epoch": 0.18729166666666666, "grad_norm": 0.8260434865951538, "learning_rate": 0.00027565720929239695, "loss": 3.8844, "step": 89900 }, { "epoch": 0.1873125, "grad_norm": 0.741408109664917, "learning_rate": 0.0002756518251848315, "loss": 3.8955, "step": 89910 }, { "epoch": 0.18733333333333332, "grad_norm": 1.0143468379974365, "learning_rate": 0.00027564644053449993, "loss": 4.0574, "step": 89920 }, { "epoch": 0.18735416666666665, "grad_norm": 0.8887616395950317, "learning_rate": 0.0002756410553414254, "loss": 3.8075, "step": 89930 }, { "epoch": 0.187375, "grad_norm": 0.6973094344139099, "learning_rate": 0.0002756356696056313, "loss": 4.1351, "step": 89940 }, { "epoch": 0.18739583333333334, "grad_norm": 0.8250039219856262, "learning_rate": 0.00027563028332714084, "loss": 3.9998, "step": 89950 }, { "epoch": 0.18741666666666668, "grad_norm": 0.7200683355331421, "learning_rate": 0.0002756248965059773, "loss": 3.9812, "step": 89960 }, { "epoch": 0.1874375, "grad_norm": 0.7437129616737366, "learning_rate": 0.00027561950914216387, "loss": 3.9968, "step": 89970 }, { "epoch": 0.18745833333333334, "grad_norm": 0.7318971753120422, "learning_rate": 0.00027561412123572397, "loss": 4.0593, "step": 89980 }, { "epoch": 0.18747916666666667, "grad_norm": 0.8358121514320374, "learning_rate": 0.0002756087327866807, "loss": 4.2084, "step": 89990 }, { "epoch": 0.1875, "grad_norm": 0.9614058136940002, "learning_rate": 0.00027560334379505744, "loss": 3.8818, "step": 90000 }, { "epoch": 0.1875, "eval_loss": 4.2920942306518555, "eval_runtime": 10.9871, "eval_samples_per_second": 0.91, "eval_steps_per_second": 0.273, "step": 90000 }, { "epoch": 0.18752083333333333, "grad_norm": 1.11366868019104, "learning_rate": 0.0002755979542608775, "loss": 3.8387, "step": 90010 }, { "epoch": 0.18754166666666666, "grad_norm": 0.8971464037895203, "learning_rate": 0.0002755925641841641, "loss": 3.9103, "step": 90020 }, { "epoch": 0.1875625, "grad_norm": 1.0217576026916504, "learning_rate": 0.0002755871735649405, "loss": 3.9588, "step": 90030 }, { "epoch": 0.18758333333333332, "grad_norm": 0.8443076610565186, "learning_rate": 0.00027558178240323, "loss": 3.8041, "step": 90040 }, { "epoch": 0.18760416666666666, "grad_norm": 1.0453131198883057, "learning_rate": 0.000275576390699056, "loss": 4.0446, "step": 90050 }, { "epoch": 0.187625, "grad_norm": 0.6860546469688416, "learning_rate": 0.00027557099845244165, "loss": 4.0248, "step": 90060 }, { "epoch": 0.18764583333333335, "grad_norm": 0.8259005546569824, "learning_rate": 0.00027556560566341023, "loss": 3.8635, "step": 90070 }, { "epoch": 0.18766666666666668, "grad_norm": 0.8179410099983215, "learning_rate": 0.0002755602123319852, "loss": 3.863, "step": 90080 }, { "epoch": 0.1876875, "grad_norm": 0.7073521614074707, "learning_rate": 0.00027555481845818974, "loss": 3.9528, "step": 90090 }, { "epoch": 0.18770833333333334, "grad_norm": 0.8947041630744934, "learning_rate": 0.00027554942404204707, "loss": 4.1079, "step": 90100 }, { "epoch": 0.18772916666666667, "grad_norm": 0.6746863722801208, "learning_rate": 0.00027554402908358067, "loss": 3.8617, "step": 90110 }, { "epoch": 0.18775, "grad_norm": 0.9067639112472534, "learning_rate": 0.00027553863358281374, "loss": 4.2157, "step": 90120 }, { "epoch": 0.18777083333333333, "grad_norm": 0.7524749040603638, "learning_rate": 0.0002755332375397696, "loss": 3.8636, "step": 90130 }, { "epoch": 0.18779166666666666, "grad_norm": 0.8891716003417969, "learning_rate": 0.00027552784095447155, "loss": 3.8854, "step": 90140 }, { "epoch": 0.1878125, "grad_norm": 0.7647290229797363, "learning_rate": 0.00027552244382694297, "loss": 3.7469, "step": 90150 }, { "epoch": 0.18783333333333332, "grad_norm": 0.7565181851387024, "learning_rate": 0.00027551704615720704, "loss": 3.6436, "step": 90160 }, { "epoch": 0.18785416666666666, "grad_norm": 0.8345105648040771, "learning_rate": 0.0002755116479452872, "loss": 3.8707, "step": 90170 }, { "epoch": 0.187875, "grad_norm": 0.8356766104698181, "learning_rate": 0.0002755062491912067, "loss": 3.8833, "step": 90180 }, { "epoch": 0.18789583333333335, "grad_norm": 1.0346956253051758, "learning_rate": 0.0002755008498949889, "loss": 4.1915, "step": 90190 }, { "epoch": 0.18791666666666668, "grad_norm": 0.8076524138450623, "learning_rate": 0.0002754954500566571, "loss": 3.8596, "step": 90200 }, { "epoch": 0.1879375, "grad_norm": 0.7552304267883301, "learning_rate": 0.0002754900496762346, "loss": 3.9999, "step": 90210 }, { "epoch": 0.18795833333333334, "grad_norm": 0.7007092237472534, "learning_rate": 0.0002754846487537448, "loss": 3.9292, "step": 90220 }, { "epoch": 0.18797916666666667, "grad_norm": 0.8677220344543457, "learning_rate": 0.000275479247289211, "loss": 4.0425, "step": 90230 }, { "epoch": 0.188, "grad_norm": 0.7654786109924316, "learning_rate": 0.00027547384528265646, "loss": 3.893, "step": 90240 }, { "epoch": 0.18802083333333333, "grad_norm": 0.7446410655975342, "learning_rate": 0.0002754684427341046, "loss": 3.8495, "step": 90250 }, { "epoch": 0.18804166666666666, "grad_norm": 0.7536426782608032, "learning_rate": 0.00027546303964357877, "loss": 3.8203, "step": 90260 }, { "epoch": 0.1880625, "grad_norm": 0.7190613150596619, "learning_rate": 0.0002754576360111022, "loss": 3.9754, "step": 90270 }, { "epoch": 0.18808333333333332, "grad_norm": 0.7491293549537659, "learning_rate": 0.0002754522318366983, "loss": 4.0677, "step": 90280 }, { "epoch": 0.18810416666666666, "grad_norm": 1.0107452869415283, "learning_rate": 0.0002754468271203905, "loss": 3.8851, "step": 90290 }, { "epoch": 0.188125, "grad_norm": 0.684029221534729, "learning_rate": 0.00027544142186220204, "loss": 3.7384, "step": 90300 }, { "epoch": 0.18814583333333335, "grad_norm": 0.8449579477310181, "learning_rate": 0.00027543601606215627, "loss": 3.9798, "step": 90310 }, { "epoch": 0.18816666666666668, "grad_norm": 0.7163834571838379, "learning_rate": 0.00027543060972027656, "loss": 3.9439, "step": 90320 }, { "epoch": 0.1881875, "grad_norm": 0.7535377144813538, "learning_rate": 0.00027542520283658627, "loss": 3.9214, "step": 90330 }, { "epoch": 0.18820833333333334, "grad_norm": 0.7216730117797852, "learning_rate": 0.0002754197954111087, "loss": 4.024, "step": 90340 }, { "epoch": 0.18822916666666667, "grad_norm": 0.7601853609085083, "learning_rate": 0.00027541438744386733, "loss": 3.8554, "step": 90350 }, { "epoch": 0.18825, "grad_norm": 0.6821929216384888, "learning_rate": 0.0002754089789348854, "loss": 3.8161, "step": 90360 }, { "epoch": 0.18827083333333333, "grad_norm": 0.6998051404953003, "learning_rate": 0.00027540356988418636, "loss": 3.7827, "step": 90370 }, { "epoch": 0.18829166666666666, "grad_norm": 0.7484045028686523, "learning_rate": 0.0002753981602917935, "loss": 3.9709, "step": 90380 }, { "epoch": 0.1883125, "grad_norm": 0.7463517785072327, "learning_rate": 0.00027539275015773027, "loss": 4.0278, "step": 90390 }, { "epoch": 0.18833333333333332, "grad_norm": 0.8142198324203491, "learning_rate": 0.00027538733948201995, "loss": 4.0242, "step": 90400 }, { "epoch": 0.18835416666666666, "grad_norm": 0.777458131313324, "learning_rate": 0.00027538192826468604, "loss": 3.9408, "step": 90410 }, { "epoch": 0.188375, "grad_norm": 1.2004265785217285, "learning_rate": 0.0002753765165057517, "loss": 3.7879, "step": 90420 }, { "epoch": 0.18839583333333335, "grad_norm": 0.6975199580192566, "learning_rate": 0.0002753711042052405, "loss": 3.925, "step": 90430 }, { "epoch": 0.18841666666666668, "grad_norm": 0.7498310804367065, "learning_rate": 0.00027536569136317576, "loss": 3.7748, "step": 90440 }, { "epoch": 0.1884375, "grad_norm": 0.7448443174362183, "learning_rate": 0.00027536027797958086, "loss": 3.818, "step": 90450 }, { "epoch": 0.18845833333333334, "grad_norm": 0.7086969614028931, "learning_rate": 0.0002753548640544792, "loss": 4.0275, "step": 90460 }, { "epoch": 0.18847916666666667, "grad_norm": 0.7517547607421875, "learning_rate": 0.0002753494495878941, "loss": 3.8173, "step": 90470 }, { "epoch": 0.1885, "grad_norm": 0.9155359268188477, "learning_rate": 0.000275344034579849, "loss": 4.0659, "step": 90480 }, { "epoch": 0.18852083333333333, "grad_norm": 0.7029311656951904, "learning_rate": 0.0002753386190303673, "loss": 3.7859, "step": 90490 }, { "epoch": 0.18854166666666666, "grad_norm": 0.8668927550315857, "learning_rate": 0.00027533320293947236, "loss": 3.9797, "step": 90500 }, { "epoch": 0.1885625, "grad_norm": 0.8076042532920837, "learning_rate": 0.0002753277863071876, "loss": 3.9226, "step": 90510 }, { "epoch": 0.18858333333333333, "grad_norm": 0.6942238211631775, "learning_rate": 0.00027532236913353645, "loss": 4.1003, "step": 90520 }, { "epoch": 0.18860416666666666, "grad_norm": 0.8237395882606506, "learning_rate": 0.0002753169514185422, "loss": 3.9405, "step": 90530 }, { "epoch": 0.188625, "grad_norm": 0.7730165123939514, "learning_rate": 0.0002753115331622284, "loss": 3.8686, "step": 90540 }, { "epoch": 0.18864583333333335, "grad_norm": 0.7748793959617615, "learning_rate": 0.0002753061143646183, "loss": 3.9027, "step": 90550 }, { "epoch": 0.18866666666666668, "grad_norm": 0.7220009565353394, "learning_rate": 0.00027530069502573545, "loss": 3.7875, "step": 90560 }, { "epoch": 0.1886875, "grad_norm": 0.7040328979492188, "learning_rate": 0.0002752952751456032, "loss": 3.9804, "step": 90570 }, { "epoch": 0.18870833333333334, "grad_norm": 0.7275586128234863, "learning_rate": 0.00027528985472424495, "loss": 4.0049, "step": 90580 }, { "epoch": 0.18872916666666667, "grad_norm": 0.9606851935386658, "learning_rate": 0.00027528443376168406, "loss": 3.8625, "step": 90590 }, { "epoch": 0.18875, "grad_norm": 0.7357778549194336, "learning_rate": 0.00027527901225794403, "loss": 4.0667, "step": 90600 }, { "epoch": 0.18877083333333333, "grad_norm": 0.6824604272842407, "learning_rate": 0.0002752735902130483, "loss": 3.6783, "step": 90610 }, { "epoch": 0.18879166666666666, "grad_norm": 0.7038468718528748, "learning_rate": 0.00027526816762702024, "loss": 4.1564, "step": 90620 }, { "epoch": 0.1888125, "grad_norm": 0.8768200874328613, "learning_rate": 0.00027526274449988326, "loss": 3.9711, "step": 90630 }, { "epoch": 0.18883333333333333, "grad_norm": 0.8745374083518982, "learning_rate": 0.00027525732083166077, "loss": 4.0623, "step": 90640 }, { "epoch": 0.18885416666666666, "grad_norm": 0.8174855709075928, "learning_rate": 0.0002752518966223763, "loss": 3.9034, "step": 90650 }, { "epoch": 0.188875, "grad_norm": 0.8773013353347778, "learning_rate": 0.0002752464718720532, "loss": 3.921, "step": 90660 }, { "epoch": 0.18889583333333335, "grad_norm": 0.8423275351524353, "learning_rate": 0.0002752410465807149, "loss": 4.0036, "step": 90670 }, { "epoch": 0.18891666666666668, "grad_norm": 0.7193958759307861, "learning_rate": 0.00027523562074838485, "loss": 3.9239, "step": 90680 }, { "epoch": 0.1889375, "grad_norm": 0.8813473582267761, "learning_rate": 0.00027523019437508645, "loss": 4.0094, "step": 90690 }, { "epoch": 0.18895833333333334, "grad_norm": 0.7666972875595093, "learning_rate": 0.00027522476746084327, "loss": 3.8462, "step": 90700 }, { "epoch": 0.18897916666666667, "grad_norm": 0.8894777297973633, "learning_rate": 0.0002752193400056786, "loss": 3.9852, "step": 90710 }, { "epoch": 0.189, "grad_norm": 0.8080527186393738, "learning_rate": 0.000275213912009616, "loss": 3.957, "step": 90720 }, { "epoch": 0.18902083333333333, "grad_norm": 0.7745118141174316, "learning_rate": 0.00027520848347267876, "loss": 3.9157, "step": 90730 }, { "epoch": 0.18904166666666666, "grad_norm": 0.9185326099395752, "learning_rate": 0.00027520305439489057, "loss": 3.8117, "step": 90740 }, { "epoch": 0.1890625, "grad_norm": 0.8392927050590515, "learning_rate": 0.0002751976247762747, "loss": 3.8071, "step": 90750 }, { "epoch": 0.18908333333333333, "grad_norm": 0.954681932926178, "learning_rate": 0.00027519219461685454, "loss": 3.9229, "step": 90760 }, { "epoch": 0.18910416666666666, "grad_norm": 0.9523108601570129, "learning_rate": 0.00027518676391665375, "loss": 3.9633, "step": 90770 }, { "epoch": 0.189125, "grad_norm": 0.7654154896736145, "learning_rate": 0.0002751813326756957, "loss": 3.9699, "step": 90780 }, { "epoch": 0.18914583333333335, "grad_norm": 0.770520806312561, "learning_rate": 0.0002751759008940038, "loss": 3.8459, "step": 90790 }, { "epoch": 0.18916666666666668, "grad_norm": 0.8089296221733093, "learning_rate": 0.0002751704685716016, "loss": 3.9771, "step": 90800 }, { "epoch": 0.1891875, "grad_norm": 1.0744339227676392, "learning_rate": 0.0002751650357085125, "loss": 3.6902, "step": 90810 }, { "epoch": 0.18920833333333334, "grad_norm": 0.7356364727020264, "learning_rate": 0.00027515960230475997, "loss": 3.8714, "step": 90820 }, { "epoch": 0.18922916666666667, "grad_norm": 0.9227558970451355, "learning_rate": 0.00027515416836036753, "loss": 3.888, "step": 90830 }, { "epoch": 0.18925, "grad_norm": 0.7819401621818542, "learning_rate": 0.0002751487338753586, "loss": 3.8022, "step": 90840 }, { "epoch": 0.18927083333333333, "grad_norm": 0.7911032438278198, "learning_rate": 0.00027514329884975673, "loss": 4.0341, "step": 90850 }, { "epoch": 0.18929166666666666, "grad_norm": 0.8402722477912903, "learning_rate": 0.0002751378632835853, "loss": 3.9001, "step": 90860 }, { "epoch": 0.1893125, "grad_norm": 0.7463510036468506, "learning_rate": 0.0002751324271768678, "loss": 3.9722, "step": 90870 }, { "epoch": 0.18933333333333333, "grad_norm": 0.7551965117454529, "learning_rate": 0.0002751269905296278, "loss": 4.0114, "step": 90880 }, { "epoch": 0.18935416666666666, "grad_norm": 0.7226583361625671, "learning_rate": 0.0002751215533418887, "loss": 3.9945, "step": 90890 }, { "epoch": 0.189375, "grad_norm": 0.7309621572494507, "learning_rate": 0.000275116115613674, "loss": 4.0263, "step": 90900 }, { "epoch": 0.18939583333333335, "grad_norm": 0.7473005056381226, "learning_rate": 0.00027511067734500725, "loss": 3.9245, "step": 90910 }, { "epoch": 0.18941666666666668, "grad_norm": 0.8030510544776917, "learning_rate": 0.00027510523853591193, "loss": 3.922, "step": 90920 }, { "epoch": 0.1894375, "grad_norm": 0.740079939365387, "learning_rate": 0.00027509979918641144, "loss": 3.9914, "step": 90930 }, { "epoch": 0.18945833333333334, "grad_norm": 0.729196310043335, "learning_rate": 0.0002750943592965293, "loss": 3.9046, "step": 90940 }, { "epoch": 0.18947916666666667, "grad_norm": 0.6961444616317749, "learning_rate": 0.0002750889188662891, "loss": 4.0557, "step": 90950 }, { "epoch": 0.1895, "grad_norm": 0.9419139623641968, "learning_rate": 0.0002750834778957143, "loss": 3.8487, "step": 90960 }, { "epoch": 0.18952083333333333, "grad_norm": 0.7238985896110535, "learning_rate": 0.0002750780363848283, "loss": 4.1281, "step": 90970 }, { "epoch": 0.18954166666666666, "grad_norm": 0.8287613987922668, "learning_rate": 0.0002750725943336548, "loss": 3.9944, "step": 90980 }, { "epoch": 0.1895625, "grad_norm": 0.8379096388816833, "learning_rate": 0.00027506715174221714, "loss": 4.0347, "step": 90990 }, { "epoch": 0.18958333333333333, "grad_norm": 0.6929618120193481, "learning_rate": 0.0002750617086105389, "loss": 3.8417, "step": 91000 }, { "epoch": 0.18958333333333333, "eval_loss": 4.276630878448486, "eval_runtime": 10.2234, "eval_samples_per_second": 0.978, "eval_steps_per_second": 0.293, "step": 91000 }, { "epoch": 0.18960416666666666, "grad_norm": 0.8686568737030029, "learning_rate": 0.00027505626493864354, "loss": 3.9349, "step": 91010 }, { "epoch": 0.189625, "grad_norm": 0.8446127772331238, "learning_rate": 0.0002750508207265547, "loss": 3.9135, "step": 91020 }, { "epoch": 0.18964583333333335, "grad_norm": 0.8525540828704834, "learning_rate": 0.00027504537597429577, "loss": 4.0003, "step": 91030 }, { "epoch": 0.18966666666666668, "grad_norm": 0.823111355304718, "learning_rate": 0.00027503993068189026, "loss": 3.9984, "step": 91040 }, { "epoch": 0.1896875, "grad_norm": 0.7598847150802612, "learning_rate": 0.0002750344848493618, "loss": 3.9276, "step": 91050 }, { "epoch": 0.18970833333333334, "grad_norm": 0.8569549918174744, "learning_rate": 0.0002750290384767339, "loss": 3.9448, "step": 91060 }, { "epoch": 0.18972916666666667, "grad_norm": 0.6327351927757263, "learning_rate": 0.00027502359156402997, "loss": 3.98, "step": 91070 }, { "epoch": 0.18975, "grad_norm": 0.701816201210022, "learning_rate": 0.0002750181441112736, "loss": 3.8545, "step": 91080 }, { "epoch": 0.18977083333333333, "grad_norm": 0.8722787499427795, "learning_rate": 0.0002750126961184884, "loss": 3.8524, "step": 91090 }, { "epoch": 0.18979166666666666, "grad_norm": 0.7483274340629578, "learning_rate": 0.00027500724758569784, "loss": 3.8947, "step": 91100 }, { "epoch": 0.1898125, "grad_norm": 0.7213094830513, "learning_rate": 0.0002750017985129254, "loss": 4.1604, "step": 91110 }, { "epoch": 0.18983333333333333, "grad_norm": 0.8775256872177124, "learning_rate": 0.0002749963489001947, "loss": 3.9029, "step": 91120 }, { "epoch": 0.18985416666666666, "grad_norm": 0.8480299711227417, "learning_rate": 0.0002749908987475292, "loss": 3.9399, "step": 91130 }, { "epoch": 0.189875, "grad_norm": 0.9053731560707092, "learning_rate": 0.00027498544805495257, "loss": 3.9933, "step": 91140 }, { "epoch": 0.18989583333333335, "grad_norm": 0.829850435256958, "learning_rate": 0.0002749799968224882, "loss": 3.8422, "step": 91150 }, { "epoch": 0.18991666666666668, "grad_norm": 0.7775528430938721, "learning_rate": 0.0002749745450501598, "loss": 3.9708, "step": 91160 }, { "epoch": 0.1899375, "grad_norm": 0.6491659879684448, "learning_rate": 0.00027496909273799075, "loss": 4.0027, "step": 91170 }, { "epoch": 0.18995833333333334, "grad_norm": 0.7435899376869202, "learning_rate": 0.00027496363988600473, "loss": 3.7506, "step": 91180 }, { "epoch": 0.18997916666666667, "grad_norm": 0.7295722365379333, "learning_rate": 0.00027495818649422523, "loss": 3.9025, "step": 91190 }, { "epoch": 0.19, "grad_norm": 0.7059231400489807, "learning_rate": 0.00027495273256267585, "loss": 3.8826, "step": 91200 }, { "epoch": 0.19002083333333333, "grad_norm": 0.7443966269493103, "learning_rate": 0.0002749472780913801, "loss": 3.9267, "step": 91210 }, { "epoch": 0.19004166666666666, "grad_norm": 0.9410343170166016, "learning_rate": 0.00027494182308036163, "loss": 3.8722, "step": 91220 }, { "epoch": 0.1900625, "grad_norm": 0.8353641033172607, "learning_rate": 0.00027493636752964386, "loss": 4.0574, "step": 91230 }, { "epoch": 0.19008333333333333, "grad_norm": 0.7245425581932068, "learning_rate": 0.00027493091143925046, "loss": 4.0093, "step": 91240 }, { "epoch": 0.19010416666666666, "grad_norm": 0.7991434335708618, "learning_rate": 0.000274925454809205, "loss": 3.9749, "step": 91250 }, { "epoch": 0.190125, "grad_norm": 0.6720604300498962, "learning_rate": 0.000274919997639531, "loss": 4.0222, "step": 91260 }, { "epoch": 0.19014583333333332, "grad_norm": 0.8459290266036987, "learning_rate": 0.00027491453993025206, "loss": 3.9078, "step": 91270 }, { "epoch": 0.19016666666666668, "grad_norm": 0.7595254182815552, "learning_rate": 0.00027490908168139173, "loss": 4.0737, "step": 91280 }, { "epoch": 0.1901875, "grad_norm": 0.8362794518470764, "learning_rate": 0.00027490362289297364, "loss": 3.8611, "step": 91290 }, { "epoch": 0.19020833333333334, "grad_norm": 1.1498925685882568, "learning_rate": 0.0002748981635650213, "loss": 4.0931, "step": 91300 }, { "epoch": 0.19022916666666667, "grad_norm": 0.8223147392272949, "learning_rate": 0.0002748927036975584, "loss": 3.8085, "step": 91310 }, { "epoch": 0.19025, "grad_norm": 0.8182123303413391, "learning_rate": 0.0002748872432906084, "loss": 3.8545, "step": 91320 }, { "epoch": 0.19027083333333333, "grad_norm": 0.7466261982917786, "learning_rate": 0.000274881782344195, "loss": 3.8463, "step": 91330 }, { "epoch": 0.19029166666666666, "grad_norm": 0.8861969113349915, "learning_rate": 0.0002748763208583417, "loss": 4.027, "step": 91340 }, { "epoch": 0.1903125, "grad_norm": 0.7078753113746643, "learning_rate": 0.00027487085883307207, "loss": 3.9894, "step": 91350 }, { "epoch": 0.19033333333333333, "grad_norm": 0.8025042414665222, "learning_rate": 0.0002748653962684098, "loss": 4.005, "step": 91360 }, { "epoch": 0.19035416666666666, "grad_norm": 0.8878797888755798, "learning_rate": 0.0002748599331643784, "loss": 3.745, "step": 91370 }, { "epoch": 0.190375, "grad_norm": 0.7819230556488037, "learning_rate": 0.0002748544695210016, "loss": 4.0213, "step": 91380 }, { "epoch": 0.19039583333333332, "grad_norm": 0.8536155223846436, "learning_rate": 0.00027484900533830285, "loss": 3.7896, "step": 91390 }, { "epoch": 0.19041666666666668, "grad_norm": 0.786052942276001, "learning_rate": 0.0002748435406163059, "loss": 4.0097, "step": 91400 }, { "epoch": 0.1904375, "grad_norm": 0.718035876750946, "learning_rate": 0.0002748380753550342, "loss": 3.9545, "step": 91410 }, { "epoch": 0.19045833333333334, "grad_norm": 0.6784069538116455, "learning_rate": 0.00027483260955451144, "loss": 3.9363, "step": 91420 }, { "epoch": 0.19047916666666667, "grad_norm": 0.7188217043876648, "learning_rate": 0.0002748271432147612, "loss": 3.8519, "step": 91430 }, { "epoch": 0.1905, "grad_norm": 0.6768965125083923, "learning_rate": 0.0002748216763358071, "loss": 3.8921, "step": 91440 }, { "epoch": 0.19052083333333333, "grad_norm": 0.7178685069084167, "learning_rate": 0.0002748162089176728, "loss": 4.1011, "step": 91450 }, { "epoch": 0.19054166666666666, "grad_norm": 0.794382631778717, "learning_rate": 0.00027481074096038187, "loss": 4.1549, "step": 91460 }, { "epoch": 0.1905625, "grad_norm": 0.779817521572113, "learning_rate": 0.000274805272463958, "loss": 3.9833, "step": 91470 }, { "epoch": 0.19058333333333333, "grad_norm": 0.9672266840934753, "learning_rate": 0.00027479980342842464, "loss": 3.9802, "step": 91480 }, { "epoch": 0.19060416666666666, "grad_norm": 0.8670803904533386, "learning_rate": 0.00027479433385380563, "loss": 3.726, "step": 91490 }, { "epoch": 0.190625, "grad_norm": 0.7401044964790344, "learning_rate": 0.00027478886374012444, "loss": 3.9623, "step": 91500 }, { "epoch": 0.19064583333333332, "grad_norm": 0.9476518034934998, "learning_rate": 0.00027478339308740476, "loss": 3.9517, "step": 91510 }, { "epoch": 0.19066666666666668, "grad_norm": 0.780386209487915, "learning_rate": 0.00027477792189567024, "loss": 3.752, "step": 91520 }, { "epoch": 0.1906875, "grad_norm": 0.6833907961845398, "learning_rate": 0.00027477245016494444, "loss": 3.9909, "step": 91530 }, { "epoch": 0.19070833333333334, "grad_norm": 0.7191479802131653, "learning_rate": 0.0002747669778952511, "loss": 3.8381, "step": 91540 }, { "epoch": 0.19072916666666667, "grad_norm": 1.0186420679092407, "learning_rate": 0.00027476150508661375, "loss": 3.7833, "step": 91550 }, { "epoch": 0.19075, "grad_norm": 0.8338903784751892, "learning_rate": 0.0002747560317390561, "loss": 3.908, "step": 91560 }, { "epoch": 0.19077083333333333, "grad_norm": 0.7646533250808716, "learning_rate": 0.0002747505578526018, "loss": 4.0111, "step": 91570 }, { "epoch": 0.19079166666666666, "grad_norm": 0.7737823724746704, "learning_rate": 0.0002747450834272745, "loss": 3.8103, "step": 91580 }, { "epoch": 0.1908125, "grad_norm": 0.7915352582931519, "learning_rate": 0.00027473960846309775, "loss": 3.9467, "step": 91590 }, { "epoch": 0.19083333333333333, "grad_norm": 0.8901461958885193, "learning_rate": 0.0002747341329600953, "loss": 4.0009, "step": 91600 }, { "epoch": 0.19085416666666666, "grad_norm": 0.7481701374053955, "learning_rate": 0.0002747286569182907, "loss": 4.0391, "step": 91610 }, { "epoch": 0.190875, "grad_norm": 0.8185672760009766, "learning_rate": 0.00027472318033770776, "loss": 4.0325, "step": 91620 }, { "epoch": 0.19089583333333332, "grad_norm": 0.6752582788467407, "learning_rate": 0.00027471770321837, "loss": 3.9469, "step": 91630 }, { "epoch": 0.19091666666666668, "grad_norm": 0.7974951267242432, "learning_rate": 0.00027471222556030116, "loss": 3.8233, "step": 91640 }, { "epoch": 0.1909375, "grad_norm": 0.7876443862915039, "learning_rate": 0.00027470674736352485, "loss": 3.9325, "step": 91650 }, { "epoch": 0.19095833333333334, "grad_norm": 0.7514185309410095, "learning_rate": 0.00027470126862806475, "loss": 3.8126, "step": 91660 }, { "epoch": 0.19097916666666667, "grad_norm": 0.6796295046806335, "learning_rate": 0.00027469578935394455, "loss": 3.9914, "step": 91670 }, { "epoch": 0.191, "grad_norm": 0.7301395535469055, "learning_rate": 0.0002746903095411879, "loss": 4.1735, "step": 91680 }, { "epoch": 0.19102083333333333, "grad_norm": 0.6710376739501953, "learning_rate": 0.00027468482918981845, "loss": 4.0461, "step": 91690 }, { "epoch": 0.19104166666666667, "grad_norm": 0.7758207321166992, "learning_rate": 0.00027467934829985993, "loss": 3.8788, "step": 91700 }, { "epoch": 0.1910625, "grad_norm": 0.7084881663322449, "learning_rate": 0.0002746738668713359, "loss": 3.9367, "step": 91710 }, { "epoch": 0.19108333333333333, "grad_norm": 0.7900219559669495, "learning_rate": 0.00027466838490427023, "loss": 3.9891, "step": 91720 }, { "epoch": 0.19110416666666666, "grad_norm": 0.7622429132461548, "learning_rate": 0.0002746629023986864, "loss": 4.143, "step": 91730 }, { "epoch": 0.191125, "grad_norm": 0.7779148817062378, "learning_rate": 0.0002746574193546082, "loss": 3.9204, "step": 91740 }, { "epoch": 0.19114583333333332, "grad_norm": 0.8320451974868774, "learning_rate": 0.0002746519357720593, "loss": 4.0396, "step": 91750 }, { "epoch": 0.19116666666666668, "grad_norm": 0.6889131665229797, "learning_rate": 0.0002746464516510633, "loss": 4.0424, "step": 91760 }, { "epoch": 0.1911875, "grad_norm": 0.7551159262657166, "learning_rate": 0.0002746409669916441, "loss": 4.1392, "step": 91770 }, { "epoch": 0.19120833333333334, "grad_norm": 0.9842861294746399, "learning_rate": 0.0002746354817938251, "loss": 3.8253, "step": 91780 }, { "epoch": 0.19122916666666667, "grad_norm": 0.737730860710144, "learning_rate": 0.0002746299960576303, "loss": 3.9084, "step": 91790 }, { "epoch": 0.19125, "grad_norm": 0.6666132211685181, "learning_rate": 0.00027462450978308316, "loss": 3.9368, "step": 91800 }, { "epoch": 0.19127083333333333, "grad_norm": 1.0006086826324463, "learning_rate": 0.0002746190229702075, "loss": 3.9634, "step": 91810 }, { "epoch": 0.19129166666666667, "grad_norm": 0.7661669850349426, "learning_rate": 0.000274613535619027, "loss": 3.9001, "step": 91820 }, { "epoch": 0.1913125, "grad_norm": 0.7501083016395569, "learning_rate": 0.00027460804772956533, "loss": 3.8066, "step": 91830 }, { "epoch": 0.19133333333333333, "grad_norm": 0.8600069284439087, "learning_rate": 0.00027460255930184625, "loss": 3.9067, "step": 91840 }, { "epoch": 0.19135416666666666, "grad_norm": 0.6812048554420471, "learning_rate": 0.0002745970703358934, "loss": 4.0688, "step": 91850 }, { "epoch": 0.191375, "grad_norm": 0.7618786096572876, "learning_rate": 0.0002745915808317305, "loss": 3.9948, "step": 91860 }, { "epoch": 0.19139583333333332, "grad_norm": 0.8765764832496643, "learning_rate": 0.00027458609078938133, "loss": 3.9949, "step": 91870 }, { "epoch": 0.19141666666666668, "grad_norm": 0.7917579412460327, "learning_rate": 0.0002745806002088696, "loss": 3.826, "step": 91880 }, { "epoch": 0.1914375, "grad_norm": 0.7034358978271484, "learning_rate": 0.0002745751090902189, "loss": 3.9916, "step": 91890 }, { "epoch": 0.19145833333333334, "grad_norm": 0.725060760974884, "learning_rate": 0.00027456961743345306, "loss": 3.8604, "step": 91900 }, { "epoch": 0.19147916666666667, "grad_norm": 0.7747330069541931, "learning_rate": 0.00027456412523859584, "loss": 3.7856, "step": 91910 }, { "epoch": 0.1915, "grad_norm": 1.0238698720932007, "learning_rate": 0.0002745586325056709, "loss": 4.0772, "step": 91920 }, { "epoch": 0.19152083333333333, "grad_norm": 0.764764666557312, "learning_rate": 0.0002745531392347019, "loss": 3.8257, "step": 91930 }, { "epoch": 0.19154166666666667, "grad_norm": 0.8122008442878723, "learning_rate": 0.00027454764542571264, "loss": 3.8727, "step": 91940 }, { "epoch": 0.1915625, "grad_norm": 0.6949844360351562, "learning_rate": 0.0002745421510787269, "loss": 4.0294, "step": 91950 }, { "epoch": 0.19158333333333333, "grad_norm": 0.779973030090332, "learning_rate": 0.0002745366561937684, "loss": 3.9849, "step": 91960 }, { "epoch": 0.19160416666666666, "grad_norm": 0.8110035061836243, "learning_rate": 0.00027453116077086077, "loss": 3.8684, "step": 91970 }, { "epoch": 0.191625, "grad_norm": 0.7618404030799866, "learning_rate": 0.00027452566481002785, "loss": 3.8138, "step": 91980 }, { "epoch": 0.19164583333333332, "grad_norm": 0.8639703989028931, "learning_rate": 0.00027452016831129334, "loss": 4.0034, "step": 91990 }, { "epoch": 0.19166666666666668, "grad_norm": 0.9348292350769043, "learning_rate": 0.000274514671274681, "loss": 3.9246, "step": 92000 }, { "epoch": 0.19166666666666668, "eval_loss": 4.304018497467041, "eval_runtime": 10.3251, "eval_samples_per_second": 0.969, "eval_steps_per_second": 0.291, "step": 92000 }, { "epoch": 0.1916875, "grad_norm": 0.720513641834259, "learning_rate": 0.00027450917370021457, "loss": 4.0624, "step": 92010 }, { "epoch": 0.19170833333333334, "grad_norm": 0.7905014157295227, "learning_rate": 0.00027450367558791775, "loss": 3.9737, "step": 92020 }, { "epoch": 0.19172916666666667, "grad_norm": 0.773129940032959, "learning_rate": 0.00027449817693781436, "loss": 4.0088, "step": 92030 }, { "epoch": 0.19175, "grad_norm": 0.7528867721557617, "learning_rate": 0.00027449267774992816, "loss": 3.8686, "step": 92040 }, { "epoch": 0.19177083333333333, "grad_norm": 0.8468011021614075, "learning_rate": 0.00027448717802428283, "loss": 4.0911, "step": 92050 }, { "epoch": 0.19179166666666667, "grad_norm": 0.7901443243026733, "learning_rate": 0.0002744816777609022, "loss": 3.9156, "step": 92060 }, { "epoch": 0.1918125, "grad_norm": 0.921197235584259, "learning_rate": 0.00027447617695981, "loss": 4.1764, "step": 92070 }, { "epoch": 0.19183333333333333, "grad_norm": 0.7413967251777649, "learning_rate": 0.0002744706756210299, "loss": 3.9085, "step": 92080 }, { "epoch": 0.19185416666666666, "grad_norm": 0.7521814107894897, "learning_rate": 0.0002744651737445858, "loss": 3.9243, "step": 92090 }, { "epoch": 0.191875, "grad_norm": 0.8064786195755005, "learning_rate": 0.00027445967133050145, "loss": 3.8933, "step": 92100 }, { "epoch": 0.19189583333333332, "grad_norm": 0.8939036130905151, "learning_rate": 0.0002744541683788006, "loss": 4.1365, "step": 92110 }, { "epoch": 0.19191666666666668, "grad_norm": 0.9395675659179688, "learning_rate": 0.00027444866488950695, "loss": 3.8792, "step": 92120 }, { "epoch": 0.1919375, "grad_norm": 0.8432508111000061, "learning_rate": 0.00027444316086264436, "loss": 3.7222, "step": 92130 }, { "epoch": 0.19195833333333334, "grad_norm": 0.7654009461402893, "learning_rate": 0.00027443765629823656, "loss": 3.9068, "step": 92140 }, { "epoch": 0.19197916666666667, "grad_norm": 0.7469329833984375, "learning_rate": 0.00027443215119630734, "loss": 3.9266, "step": 92150 }, { "epoch": 0.192, "grad_norm": 0.7478797435760498, "learning_rate": 0.00027442664555688044, "loss": 3.9401, "step": 92160 }, { "epoch": 0.19202083333333334, "grad_norm": 0.7221897840499878, "learning_rate": 0.00027442113937997973, "loss": 3.9671, "step": 92170 }, { "epoch": 0.19204166666666667, "grad_norm": 0.7009600400924683, "learning_rate": 0.000274415632665629, "loss": 3.9802, "step": 92180 }, { "epoch": 0.1920625, "grad_norm": 0.9405708312988281, "learning_rate": 0.0002744101254138519, "loss": 3.8237, "step": 92190 }, { "epoch": 0.19208333333333333, "grad_norm": 0.9240197539329529, "learning_rate": 0.0002744046176246723, "loss": 4.1535, "step": 92200 }, { "epoch": 0.19210416666666666, "grad_norm": 1.5765730142593384, "learning_rate": 0.000274399109298114, "loss": 3.8292, "step": 92210 }, { "epoch": 0.192125, "grad_norm": 0.7649264931678772, "learning_rate": 0.00027439360043420084, "loss": 4.0274, "step": 92220 }, { "epoch": 0.19214583333333332, "grad_norm": 0.8353575468063354, "learning_rate": 0.00027438809103295654, "loss": 3.9686, "step": 92230 }, { "epoch": 0.19216666666666668, "grad_norm": 0.8402441740036011, "learning_rate": 0.0002743825810944049, "loss": 3.9734, "step": 92240 }, { "epoch": 0.1921875, "grad_norm": 0.7814085483551025, "learning_rate": 0.00027437707061856977, "loss": 3.8722, "step": 92250 }, { "epoch": 0.19220833333333334, "grad_norm": 0.7611770033836365, "learning_rate": 0.0002743715596054749, "loss": 3.9009, "step": 92260 }, { "epoch": 0.19222916666666667, "grad_norm": 0.8077239990234375, "learning_rate": 0.00027436604805514413, "loss": 3.946, "step": 92270 }, { "epoch": 0.19225, "grad_norm": 0.902617871761322, "learning_rate": 0.0002743605359676013, "loss": 4.0646, "step": 92280 }, { "epoch": 0.19227083333333334, "grad_norm": 0.7679324746131897, "learning_rate": 0.0002743550233428701, "loss": 3.7573, "step": 92290 }, { "epoch": 0.19229166666666667, "grad_norm": 0.805543839931488, "learning_rate": 0.0002743495101809745, "loss": 3.961, "step": 92300 }, { "epoch": 0.1923125, "grad_norm": 0.8161610960960388, "learning_rate": 0.0002743439964819382, "loss": 3.9249, "step": 92310 }, { "epoch": 0.19233333333333333, "grad_norm": 0.8563823103904724, "learning_rate": 0.0002743384822457851, "loss": 3.9702, "step": 92320 }, { "epoch": 0.19235416666666666, "grad_norm": 0.820151686668396, "learning_rate": 0.0002743329674725389, "loss": 3.9398, "step": 92330 }, { "epoch": 0.192375, "grad_norm": 0.7374067306518555, "learning_rate": 0.00027432745216222356, "loss": 3.8798, "step": 92340 }, { "epoch": 0.19239583333333332, "grad_norm": 0.736767053604126, "learning_rate": 0.0002743219363148628, "loss": 3.9624, "step": 92350 }, { "epoch": 0.19241666666666668, "grad_norm": 0.9352604150772095, "learning_rate": 0.0002743164199304805, "loss": 4.012, "step": 92360 }, { "epoch": 0.1924375, "grad_norm": 0.6628725528717041, "learning_rate": 0.00027431090300910043, "loss": 3.9992, "step": 92370 }, { "epoch": 0.19245833333333334, "grad_norm": 0.7624752521514893, "learning_rate": 0.0002743053855507465, "loss": 3.9903, "step": 92380 }, { "epoch": 0.19247916666666667, "grad_norm": 0.781508207321167, "learning_rate": 0.00027429986755544256, "loss": 3.8491, "step": 92390 }, { "epoch": 0.1925, "grad_norm": 0.7229906916618347, "learning_rate": 0.0002742943490232123, "loss": 3.9524, "step": 92400 }, { "epoch": 0.19252083333333334, "grad_norm": 0.7586458921432495, "learning_rate": 0.0002742888299540797, "loss": 4.0652, "step": 92410 }, { "epoch": 0.19254166666666667, "grad_norm": 0.8727280497550964, "learning_rate": 0.0002742833103480686, "loss": 3.9226, "step": 92420 }, { "epoch": 0.1925625, "grad_norm": 0.8636091351509094, "learning_rate": 0.0002742777902052027, "loss": 3.8735, "step": 92430 }, { "epoch": 0.19258333333333333, "grad_norm": 0.8419030904769897, "learning_rate": 0.000274272269525506, "loss": 4.0432, "step": 92440 }, { "epoch": 0.19260416666666666, "grad_norm": 0.6897881031036377, "learning_rate": 0.0002742667483090023, "loss": 3.9078, "step": 92450 }, { "epoch": 0.192625, "grad_norm": 0.7528761029243469, "learning_rate": 0.00027426122655571536, "loss": 3.9572, "step": 92460 }, { "epoch": 0.19264583333333332, "grad_norm": 0.8524377346038818, "learning_rate": 0.00027425570426566916, "loss": 3.7353, "step": 92470 }, { "epoch": 0.19266666666666668, "grad_norm": 0.8729358315467834, "learning_rate": 0.0002742501814388875, "loss": 3.9651, "step": 92480 }, { "epoch": 0.1926875, "grad_norm": 0.8362614512443542, "learning_rate": 0.00027424465807539424, "loss": 3.9995, "step": 92490 }, { "epoch": 0.19270833333333334, "grad_norm": 0.6963710188865662, "learning_rate": 0.0002742391341752132, "loss": 3.9844, "step": 92500 }, { "epoch": 0.19272916666666667, "grad_norm": 0.7750999927520752, "learning_rate": 0.0002742336097383683, "loss": 3.9475, "step": 92510 }, { "epoch": 0.19275, "grad_norm": 0.7656430602073669, "learning_rate": 0.0002742280847648834, "loss": 4.0152, "step": 92520 }, { "epoch": 0.19277083333333334, "grad_norm": 0.7820266485214233, "learning_rate": 0.0002742225592547823, "loss": 4.0884, "step": 92530 }, { "epoch": 0.19279166666666667, "grad_norm": 0.7531667351722717, "learning_rate": 0.00027421703320808894, "loss": 3.8227, "step": 92540 }, { "epoch": 0.1928125, "grad_norm": 0.8280318379402161, "learning_rate": 0.00027421150662482717, "loss": 4.0076, "step": 92550 }, { "epoch": 0.19283333333333333, "grad_norm": 0.8133417963981628, "learning_rate": 0.0002742059795050209, "loss": 3.9055, "step": 92560 }, { "epoch": 0.19285416666666666, "grad_norm": 0.8578565120697021, "learning_rate": 0.0002742004518486939, "loss": 3.8173, "step": 92570 }, { "epoch": 0.192875, "grad_norm": 0.7284464240074158, "learning_rate": 0.0002741949236558701, "loss": 4.0032, "step": 92580 }, { "epoch": 0.19289583333333332, "grad_norm": 0.7112690210342407, "learning_rate": 0.00027418939492657347, "loss": 3.8814, "step": 92590 }, { "epoch": 0.19291666666666665, "grad_norm": 0.8367990851402283, "learning_rate": 0.00027418386566082774, "loss": 3.8413, "step": 92600 }, { "epoch": 0.1929375, "grad_norm": 0.8962868452072144, "learning_rate": 0.0002741783358586569, "loss": 3.8134, "step": 92610 }, { "epoch": 0.19295833333333334, "grad_norm": 0.6666688919067383, "learning_rate": 0.00027417280552008476, "loss": 4.0485, "step": 92620 }, { "epoch": 0.19297916666666667, "grad_norm": 0.7154685854911804, "learning_rate": 0.0002741672746451353, "loss": 4.2429, "step": 92630 }, { "epoch": 0.193, "grad_norm": 0.7668737173080444, "learning_rate": 0.0002741617432338323, "loss": 3.6922, "step": 92640 }, { "epoch": 0.19302083333333334, "grad_norm": 0.7683324217796326, "learning_rate": 0.0002741562112861998, "loss": 4.0276, "step": 92650 }, { "epoch": 0.19304166666666667, "grad_norm": 0.9048532247543335, "learning_rate": 0.00027415067880226155, "loss": 4.0346, "step": 92660 }, { "epoch": 0.1930625, "grad_norm": 0.6691904664039612, "learning_rate": 0.00027414514578204155, "loss": 3.8164, "step": 92670 }, { "epoch": 0.19308333333333333, "grad_norm": 0.8999292850494385, "learning_rate": 0.0002741396122255636, "loss": 4.112, "step": 92680 }, { "epoch": 0.19310416666666666, "grad_norm": 0.8325583338737488, "learning_rate": 0.00027413407813285174, "loss": 3.9046, "step": 92690 }, { "epoch": 0.193125, "grad_norm": 0.7240872383117676, "learning_rate": 0.0002741285435039298, "loss": 3.7488, "step": 92700 }, { "epoch": 0.19314583333333332, "grad_norm": 0.7588842511177063, "learning_rate": 0.00027412300833882164, "loss": 4.0078, "step": 92710 }, { "epoch": 0.19316666666666665, "grad_norm": 0.9620528817176819, "learning_rate": 0.00027411747263755116, "loss": 3.8836, "step": 92720 }, { "epoch": 0.1931875, "grad_norm": 0.8557708859443665, "learning_rate": 0.00027411193640014244, "loss": 3.776, "step": 92730 }, { "epoch": 0.19320833333333334, "grad_norm": 0.8330896496772766, "learning_rate": 0.0002741063996266192, "loss": 4.1032, "step": 92740 }, { "epoch": 0.19322916666666667, "grad_norm": 0.9313504099845886, "learning_rate": 0.0002741008623170055, "loss": 4.0922, "step": 92750 }, { "epoch": 0.19325, "grad_norm": 0.8999679684638977, "learning_rate": 0.00027409532447132516, "loss": 3.9642, "step": 92760 }, { "epoch": 0.19327083333333334, "grad_norm": 0.8363356590270996, "learning_rate": 0.00027408978608960214, "loss": 3.9914, "step": 92770 }, { "epoch": 0.19329166666666667, "grad_norm": 0.9103180766105652, "learning_rate": 0.00027408424717186036, "loss": 4.0082, "step": 92780 }, { "epoch": 0.1933125, "grad_norm": 0.7567905187606812, "learning_rate": 0.00027407870771812377, "loss": 4.0551, "step": 92790 }, { "epoch": 0.19333333333333333, "grad_norm": 0.726589024066925, "learning_rate": 0.0002740731677284163, "loss": 3.7554, "step": 92800 }, { "epoch": 0.19335416666666666, "grad_norm": 0.7578080296516418, "learning_rate": 0.00027406762720276175, "loss": 4.1402, "step": 92810 }, { "epoch": 0.193375, "grad_norm": 0.7857120037078857, "learning_rate": 0.00027406208614118424, "loss": 3.9718, "step": 92820 }, { "epoch": 0.19339583333333332, "grad_norm": 0.7242152690887451, "learning_rate": 0.00027405654454370766, "loss": 3.9675, "step": 92830 }, { "epoch": 0.19341666666666665, "grad_norm": 0.7252117395401001, "learning_rate": 0.0002740510024103558, "loss": 3.8327, "step": 92840 }, { "epoch": 0.1934375, "grad_norm": 0.8823216557502747, "learning_rate": 0.0002740454597411528, "loss": 3.99, "step": 92850 }, { "epoch": 0.19345833333333334, "grad_norm": 0.9301354885101318, "learning_rate": 0.0002740399165361225, "loss": 3.8664, "step": 92860 }, { "epoch": 0.19347916666666667, "grad_norm": 0.7952534556388855, "learning_rate": 0.0002740343727952888, "loss": 3.9184, "step": 92870 }, { "epoch": 0.1935, "grad_norm": 0.7573935389518738, "learning_rate": 0.0002740288285186758, "loss": 3.6879, "step": 92880 }, { "epoch": 0.19352083333333334, "grad_norm": 0.7205803990364075, "learning_rate": 0.0002740232837063073, "loss": 3.6603, "step": 92890 }, { "epoch": 0.19354166666666667, "grad_norm": 0.8046885132789612, "learning_rate": 0.00027401773835820735, "loss": 3.993, "step": 92900 }, { "epoch": 0.1935625, "grad_norm": 0.7210755944252014, "learning_rate": 0.0002740121924743998, "loss": 4.0867, "step": 92910 }, { "epoch": 0.19358333333333333, "grad_norm": 0.7960945963859558, "learning_rate": 0.0002740066460549087, "loss": 3.9225, "step": 92920 }, { "epoch": 0.19360416666666666, "grad_norm": 0.7935143709182739, "learning_rate": 0.000274001099099758, "loss": 3.8238, "step": 92930 }, { "epoch": 0.193625, "grad_norm": 0.7336628437042236, "learning_rate": 0.00027399555160897163, "loss": 3.789, "step": 92940 }, { "epoch": 0.19364583333333332, "grad_norm": 0.835741400718689, "learning_rate": 0.00027399000358257347, "loss": 3.9717, "step": 92950 }, { "epoch": 0.19366666666666665, "grad_norm": 0.8618433475494385, "learning_rate": 0.0002739844550205877, "loss": 4.0095, "step": 92960 }, { "epoch": 0.1936875, "grad_norm": 0.8053343892097473, "learning_rate": 0.0002739789059230381, "loss": 3.9956, "step": 92970 }, { "epoch": 0.19370833333333334, "grad_norm": 0.7320711612701416, "learning_rate": 0.00027397335628994866, "loss": 3.7438, "step": 92980 }, { "epoch": 0.19372916666666667, "grad_norm": 0.7310126423835754, "learning_rate": 0.0002739678061213434, "loss": 3.9132, "step": 92990 }, { "epoch": 0.19375, "grad_norm": 0.8002314567565918, "learning_rate": 0.00027396225541724637, "loss": 4.0405, "step": 93000 }, { "epoch": 0.19375, "eval_loss": 4.269639015197754, "eval_runtime": 10.1917, "eval_samples_per_second": 0.981, "eval_steps_per_second": 0.294, "step": 93000 }, { "epoch": 0.19377083333333334, "grad_norm": 0.7941508293151855, "learning_rate": 0.0002739567041776814, "loss": 3.8952, "step": 93010 }, { "epoch": 0.19379166666666667, "grad_norm": 0.7720952033996582, "learning_rate": 0.00027395115240267255, "loss": 4.1051, "step": 93020 }, { "epoch": 0.1938125, "grad_norm": 0.927321195602417, "learning_rate": 0.0002739456000922438, "loss": 4.0727, "step": 93030 }, { "epoch": 0.19383333333333333, "grad_norm": 0.771827220916748, "learning_rate": 0.0002739400472464191, "loss": 3.9515, "step": 93040 }, { "epoch": 0.19385416666666666, "grad_norm": 0.7216969132423401, "learning_rate": 0.0002739344938652224, "loss": 3.8871, "step": 93050 }, { "epoch": 0.193875, "grad_norm": 0.8987125754356384, "learning_rate": 0.0002739289399486778, "loss": 3.743, "step": 93060 }, { "epoch": 0.19389583333333332, "grad_norm": 0.9023748636245728, "learning_rate": 0.00027392338549680925, "loss": 3.9201, "step": 93070 }, { "epoch": 0.19391666666666665, "grad_norm": 0.8799203634262085, "learning_rate": 0.0002739178305096407, "loss": 3.985, "step": 93080 }, { "epoch": 0.1939375, "grad_norm": 0.8309151530265808, "learning_rate": 0.00027391227498719617, "loss": 4.1411, "step": 93090 }, { "epoch": 0.19395833333333334, "grad_norm": 0.7469663619995117, "learning_rate": 0.0002739067189294997, "loss": 4.047, "step": 93100 }, { "epoch": 0.19397916666666667, "grad_norm": 1.0068955421447754, "learning_rate": 0.00027390116233657523, "loss": 3.7882, "step": 93110 }, { "epoch": 0.194, "grad_norm": 0.7198595404624939, "learning_rate": 0.00027389560520844675, "loss": 3.7972, "step": 93120 }, { "epoch": 0.19402083333333334, "grad_norm": 0.6688303351402283, "learning_rate": 0.00027389004754513834, "loss": 3.9947, "step": 93130 }, { "epoch": 0.19404166666666667, "grad_norm": 0.694288969039917, "learning_rate": 0.0002738844893466739, "loss": 3.9205, "step": 93140 }, { "epoch": 0.1940625, "grad_norm": 0.7417435050010681, "learning_rate": 0.00027387893061307756, "loss": 4.0214, "step": 93150 }, { "epoch": 0.19408333333333333, "grad_norm": 0.7214083075523376, "learning_rate": 0.00027387337134437327, "loss": 3.6254, "step": 93160 }, { "epoch": 0.19410416666666666, "grad_norm": 0.7388765811920166, "learning_rate": 0.000273867811540585, "loss": 4.0499, "step": 93170 }, { "epoch": 0.194125, "grad_norm": 0.856877863407135, "learning_rate": 0.00027386225120173686, "loss": 3.9623, "step": 93180 }, { "epoch": 0.19414583333333332, "grad_norm": 0.7007079720497131, "learning_rate": 0.0002738566903278528, "loss": 4.0631, "step": 93190 }, { "epoch": 0.19416666666666665, "grad_norm": 0.7219590544700623, "learning_rate": 0.0002738511289189569, "loss": 3.9473, "step": 93200 }, { "epoch": 0.1941875, "grad_norm": 0.7756072282791138, "learning_rate": 0.00027384556697507316, "loss": 4.1159, "step": 93210 }, { "epoch": 0.19420833333333334, "grad_norm": 0.9047934412956238, "learning_rate": 0.00027384000449622557, "loss": 4.0723, "step": 93220 }, { "epoch": 0.19422916666666667, "grad_norm": 0.805165708065033, "learning_rate": 0.00027383444148243815, "loss": 3.9257, "step": 93230 }, { "epoch": 0.19425, "grad_norm": 0.8401201963424683, "learning_rate": 0.000273828877933735, "loss": 4.0321, "step": 93240 }, { "epoch": 0.19427083333333334, "grad_norm": 0.8996986746788025, "learning_rate": 0.0002738233138501401, "loss": 4.08, "step": 93250 }, { "epoch": 0.19429166666666667, "grad_norm": 0.7385739684104919, "learning_rate": 0.00027381774923167744, "loss": 3.8499, "step": 93260 }, { "epoch": 0.1943125, "grad_norm": 0.9362020492553711, "learning_rate": 0.00027381218407837116, "loss": 3.9704, "step": 93270 }, { "epoch": 0.19433333333333333, "grad_norm": 0.736035168170929, "learning_rate": 0.00027380661839024523, "loss": 4.1272, "step": 93280 }, { "epoch": 0.19435416666666666, "grad_norm": 0.7421329617500305, "learning_rate": 0.0002738010521673238, "loss": 3.8996, "step": 93290 }, { "epoch": 0.194375, "grad_norm": 0.6876094937324524, "learning_rate": 0.00027379548540963075, "loss": 3.9998, "step": 93300 }, { "epoch": 0.19439583333333332, "grad_norm": 0.8467497229576111, "learning_rate": 0.0002737899181171902, "loss": 3.8202, "step": 93310 }, { "epoch": 0.19441666666666665, "grad_norm": 0.7419642210006714, "learning_rate": 0.00027378435029002627, "loss": 3.9519, "step": 93320 }, { "epoch": 0.1944375, "grad_norm": 0.7050631642341614, "learning_rate": 0.00027377878192816286, "loss": 4.0001, "step": 93330 }, { "epoch": 0.19445833333333334, "grad_norm": 0.7252691388130188, "learning_rate": 0.0002737732130316242, "loss": 3.8829, "step": 93340 }, { "epoch": 0.19447916666666668, "grad_norm": 0.7547847628593445, "learning_rate": 0.00027376764360043413, "loss": 3.977, "step": 93350 }, { "epoch": 0.1945, "grad_norm": 0.6897545456886292, "learning_rate": 0.00027376207363461694, "loss": 3.9498, "step": 93360 }, { "epoch": 0.19452083333333334, "grad_norm": 0.7228429317474365, "learning_rate": 0.0002737565031341965, "loss": 3.9702, "step": 93370 }, { "epoch": 0.19454166666666667, "grad_norm": 0.705147385597229, "learning_rate": 0.00027375093209919705, "loss": 3.8303, "step": 93380 }, { "epoch": 0.1945625, "grad_norm": 0.9464631676673889, "learning_rate": 0.0002737453605296424, "loss": 4.0417, "step": 93390 }, { "epoch": 0.19458333333333333, "grad_norm": 0.8223630785942078, "learning_rate": 0.0002737397884255569, "loss": 4.0428, "step": 93400 }, { "epoch": 0.19460416666666666, "grad_norm": 0.685832142829895, "learning_rate": 0.0002737342157869645, "loss": 3.9259, "step": 93410 }, { "epoch": 0.194625, "grad_norm": 0.8223825693130493, "learning_rate": 0.00027372864261388923, "loss": 3.8906, "step": 93420 }, { "epoch": 0.19464583333333332, "grad_norm": 1.185671329498291, "learning_rate": 0.0002737230689063552, "loss": 4.0781, "step": 93430 }, { "epoch": 0.19466666666666665, "grad_norm": 0.7670809626579285, "learning_rate": 0.0002737174946643865, "loss": 3.8752, "step": 93440 }, { "epoch": 0.1946875, "grad_norm": 0.8647821545600891, "learning_rate": 0.0002737119198880072, "loss": 4.0045, "step": 93450 }, { "epoch": 0.19470833333333334, "grad_norm": 0.7961347103118896, "learning_rate": 0.00027370634457724133, "loss": 3.9624, "step": 93460 }, { "epoch": 0.19472916666666668, "grad_norm": 0.7699318528175354, "learning_rate": 0.00027370076873211305, "loss": 3.8687, "step": 93470 }, { "epoch": 0.19475, "grad_norm": 0.8351806402206421, "learning_rate": 0.0002736951923526464, "loss": 4.1077, "step": 93480 }, { "epoch": 0.19477083333333334, "grad_norm": 0.9162630438804626, "learning_rate": 0.0002736896154388655, "loss": 4.0104, "step": 93490 }, { "epoch": 0.19479166666666667, "grad_norm": 0.745882511138916, "learning_rate": 0.0002736840379907944, "loss": 3.8675, "step": 93500 }, { "epoch": 0.1948125, "grad_norm": 0.747920572757721, "learning_rate": 0.0002736784600084572, "loss": 3.9878, "step": 93510 }, { "epoch": 0.19483333333333333, "grad_norm": 0.8390116095542908, "learning_rate": 0.00027367288149187806, "loss": 3.8748, "step": 93520 }, { "epoch": 0.19485416666666666, "grad_norm": 0.7207647562026978, "learning_rate": 0.000273667302441081, "loss": 3.7873, "step": 93530 }, { "epoch": 0.194875, "grad_norm": 0.8329967260360718, "learning_rate": 0.0002736617228560901, "loss": 3.8015, "step": 93540 }, { "epoch": 0.19489583333333332, "grad_norm": 0.7339974045753479, "learning_rate": 0.0002736561427369296, "loss": 3.8681, "step": 93550 }, { "epoch": 0.19491666666666665, "grad_norm": 0.798789918422699, "learning_rate": 0.0002736505620836234, "loss": 4.0514, "step": 93560 }, { "epoch": 0.1949375, "grad_norm": 0.7890822291374207, "learning_rate": 0.0002736449808961958, "loss": 3.9427, "step": 93570 }, { "epoch": 0.19495833333333334, "grad_norm": 0.7477342486381531, "learning_rate": 0.0002736393991746708, "loss": 3.8848, "step": 93580 }, { "epoch": 0.19497916666666668, "grad_norm": 0.898853063583374, "learning_rate": 0.0002736338169190725, "loss": 3.9888, "step": 93590 }, { "epoch": 0.195, "grad_norm": 0.7376127243041992, "learning_rate": 0.0002736282341294251, "loss": 3.8526, "step": 93600 }, { "epoch": 0.19502083333333334, "grad_norm": 0.7087004780769348, "learning_rate": 0.0002736226508057526, "loss": 3.8738, "step": 93610 }, { "epoch": 0.19504166666666667, "grad_norm": 0.8363021016120911, "learning_rate": 0.0002736170669480793, "loss": 4.1419, "step": 93620 }, { "epoch": 0.1950625, "grad_norm": 0.7132776975631714, "learning_rate": 0.0002736114825564291, "loss": 4.0503, "step": 93630 }, { "epoch": 0.19508333333333333, "grad_norm": 0.7109072208404541, "learning_rate": 0.00027360589763082623, "loss": 4.128, "step": 93640 }, { "epoch": 0.19510416666666666, "grad_norm": 0.7300116419792175, "learning_rate": 0.0002736003121712948, "loss": 3.7277, "step": 93650 }, { "epoch": 0.195125, "grad_norm": 0.8087018728256226, "learning_rate": 0.000273594726177859, "loss": 3.8619, "step": 93660 }, { "epoch": 0.19514583333333332, "grad_norm": 0.8632952570915222, "learning_rate": 0.0002735891396505429, "loss": 4.1368, "step": 93670 }, { "epoch": 0.19516666666666665, "grad_norm": 0.934794008731842, "learning_rate": 0.0002735835525893706, "loss": 4.0777, "step": 93680 }, { "epoch": 0.1951875, "grad_norm": 0.7700251340866089, "learning_rate": 0.00027357796499436626, "loss": 3.9264, "step": 93690 }, { "epoch": 0.19520833333333334, "grad_norm": 0.7411268353462219, "learning_rate": 0.0002735723768655541, "loss": 4.1325, "step": 93700 }, { "epoch": 0.19522916666666668, "grad_norm": 0.9760246872901917, "learning_rate": 0.00027356678820295813, "loss": 3.9986, "step": 93710 }, { "epoch": 0.19525, "grad_norm": 0.7019138336181641, "learning_rate": 0.00027356119900660256, "loss": 4.0159, "step": 93720 }, { "epoch": 0.19527083333333334, "grad_norm": 0.7643010020256042, "learning_rate": 0.0002735556092765115, "loss": 4.0083, "step": 93730 }, { "epoch": 0.19529166666666667, "grad_norm": 0.8194450736045837, "learning_rate": 0.00027355001901270917, "loss": 3.8196, "step": 93740 }, { "epoch": 0.1953125, "grad_norm": 0.7122031450271606, "learning_rate": 0.0002735444282152196, "loss": 3.9696, "step": 93750 }, { "epoch": 0.19533333333333333, "grad_norm": 0.9850800633430481, "learning_rate": 0.000273538836884067, "loss": 4.094, "step": 93760 }, { "epoch": 0.19535416666666666, "grad_norm": 0.7248971462249756, "learning_rate": 0.0002735332450192756, "loss": 4.1117, "step": 93770 }, { "epoch": 0.195375, "grad_norm": 0.7017927765846252, "learning_rate": 0.0002735276526208694, "loss": 3.8721, "step": 93780 }, { "epoch": 0.19539583333333332, "grad_norm": 0.8409106731414795, "learning_rate": 0.00027352205968887266, "loss": 3.9017, "step": 93790 }, { "epoch": 0.19541666666666666, "grad_norm": 0.7094943523406982, "learning_rate": 0.00027351646622330954, "loss": 3.95, "step": 93800 }, { "epoch": 0.1954375, "grad_norm": 0.750248372554779, "learning_rate": 0.00027351087222420413, "loss": 4.0178, "step": 93810 }, { "epoch": 0.19545833333333335, "grad_norm": 0.663446843624115, "learning_rate": 0.00027350527769158067, "loss": 3.8346, "step": 93820 }, { "epoch": 0.19547916666666668, "grad_norm": 0.7019898891448975, "learning_rate": 0.00027349968262546334, "loss": 3.9638, "step": 93830 }, { "epoch": 0.1955, "grad_norm": 0.7226138710975647, "learning_rate": 0.0002734940870258762, "loss": 3.9421, "step": 93840 }, { "epoch": 0.19552083333333334, "grad_norm": 0.7109925150871277, "learning_rate": 0.0002734884908928435, "loss": 4.1389, "step": 93850 }, { "epoch": 0.19554166666666667, "grad_norm": 0.7578256130218506, "learning_rate": 0.0002734828942263894, "loss": 4.1641, "step": 93860 }, { "epoch": 0.1955625, "grad_norm": 0.7542611956596375, "learning_rate": 0.00027347729702653813, "loss": 3.9333, "step": 93870 }, { "epoch": 0.19558333333333333, "grad_norm": 1.0114073753356934, "learning_rate": 0.00027347169929331375, "loss": 3.9586, "step": 93880 }, { "epoch": 0.19560416666666666, "grad_norm": 0.7541428208351135, "learning_rate": 0.0002734661010267405, "loss": 3.9015, "step": 93890 }, { "epoch": 0.195625, "grad_norm": 0.691645622253418, "learning_rate": 0.0002734605022268426, "loss": 3.8081, "step": 93900 }, { "epoch": 0.19564583333333332, "grad_norm": 0.9284999370574951, "learning_rate": 0.0002734549028936442, "loss": 3.9396, "step": 93910 }, { "epoch": 0.19566666666666666, "grad_norm": 0.7675895690917969, "learning_rate": 0.00027344930302716943, "loss": 3.9035, "step": 93920 }, { "epoch": 0.1956875, "grad_norm": 0.780472993850708, "learning_rate": 0.00027344370262744256, "loss": 3.9011, "step": 93930 }, { "epoch": 0.19570833333333335, "grad_norm": 0.7809320092201233, "learning_rate": 0.00027343810169448777, "loss": 3.8916, "step": 93940 }, { "epoch": 0.19572916666666668, "grad_norm": 0.7453614473342896, "learning_rate": 0.0002734325002283293, "loss": 3.8171, "step": 93950 }, { "epoch": 0.19575, "grad_norm": 0.9034572243690491, "learning_rate": 0.0002734268982289912, "loss": 3.8176, "step": 93960 }, { "epoch": 0.19577083333333334, "grad_norm": 0.7633448243141174, "learning_rate": 0.0002734212956964978, "loss": 3.7947, "step": 93970 }, { "epoch": 0.19579166666666667, "grad_norm": 0.9083358645439148, "learning_rate": 0.00027341569263087317, "loss": 3.8277, "step": 93980 }, { "epoch": 0.1958125, "grad_norm": 0.791124701499939, "learning_rate": 0.0002734100890321417, "loss": 3.9152, "step": 93990 }, { "epoch": 0.19583333333333333, "grad_norm": 0.8397074341773987, "learning_rate": 0.0002734044849003275, "loss": 4.0513, "step": 94000 }, { "epoch": 0.19583333333333333, "eval_loss": 4.285913944244385, "eval_runtime": 10.0018, "eval_samples_per_second": 1.0, "eval_steps_per_second": 0.3, "step": 94000 }, { "epoch": 0.19585416666666666, "grad_norm": 0.7428603768348694, "learning_rate": 0.0002733988802354547, "loss": 4.0798, "step": 94010 }, { "epoch": 0.195875, "grad_norm": 0.7495461702346802, "learning_rate": 0.0002733932750375476, "loss": 4.0043, "step": 94020 }, { "epoch": 0.19589583333333332, "grad_norm": 0.7680255770683289, "learning_rate": 0.00027338766930663045, "loss": 3.7617, "step": 94030 }, { "epoch": 0.19591666666666666, "grad_norm": 0.7712447047233582, "learning_rate": 0.00027338206304272736, "loss": 4.0918, "step": 94040 }, { "epoch": 0.1959375, "grad_norm": 0.800653338432312, "learning_rate": 0.00027337645624586263, "loss": 3.9981, "step": 94050 }, { "epoch": 0.19595833333333335, "grad_norm": 0.676794171333313, "learning_rate": 0.0002733708489160604, "loss": 3.9644, "step": 94060 }, { "epoch": 0.19597916666666668, "grad_norm": 0.6784111261367798, "learning_rate": 0.00027336524105334495, "loss": 3.9767, "step": 94070 }, { "epoch": 0.196, "grad_norm": 0.8128810524940491, "learning_rate": 0.0002733596326577405, "loss": 3.9617, "step": 94080 }, { "epoch": 0.19602083333333334, "grad_norm": 0.8545257449150085, "learning_rate": 0.0002733540237292713, "loss": 3.8829, "step": 94090 }, { "epoch": 0.19604166666666667, "grad_norm": 0.7146647572517395, "learning_rate": 0.0002733484142679615, "loss": 3.9225, "step": 94100 }, { "epoch": 0.1960625, "grad_norm": 0.849390983581543, "learning_rate": 0.00027334280427383534, "loss": 4.0716, "step": 94110 }, { "epoch": 0.19608333333333333, "grad_norm": 0.7027696967124939, "learning_rate": 0.0002733371937469172, "loss": 3.9006, "step": 94120 }, { "epoch": 0.19610416666666666, "grad_norm": 0.7660244107246399, "learning_rate": 0.00027333158268723107, "loss": 3.7835, "step": 94130 }, { "epoch": 0.196125, "grad_norm": 0.8189563751220703, "learning_rate": 0.0002733259710948014, "loss": 3.8866, "step": 94140 }, { "epoch": 0.19614583333333332, "grad_norm": 0.7408201694488525, "learning_rate": 0.00027332035896965236, "loss": 3.8726, "step": 94150 }, { "epoch": 0.19616666666666666, "grad_norm": 0.809445321559906, "learning_rate": 0.0002733147463118081, "loss": 3.9916, "step": 94160 }, { "epoch": 0.1961875, "grad_norm": 0.7544098496437073, "learning_rate": 0.000273309133121293, "loss": 4.0405, "step": 94170 }, { "epoch": 0.19620833333333335, "grad_norm": 0.7298381924629211, "learning_rate": 0.0002733035193981313, "loss": 4.0829, "step": 94180 }, { "epoch": 0.19622916666666668, "grad_norm": 0.8632772564888, "learning_rate": 0.0002732979051423472, "loss": 3.992, "step": 94190 }, { "epoch": 0.19625, "grad_norm": 0.7655407786369324, "learning_rate": 0.0002732922903539649, "loss": 4.0246, "step": 94200 }, { "epoch": 0.19627083333333334, "grad_norm": 0.7302138209342957, "learning_rate": 0.00027328667503300874, "loss": 3.9714, "step": 94210 }, { "epoch": 0.19629166666666667, "grad_norm": 0.8145546317100525, "learning_rate": 0.0002732810591795029, "loss": 3.9614, "step": 94220 }, { "epoch": 0.1963125, "grad_norm": 0.710543155670166, "learning_rate": 0.0002732754427934717, "loss": 3.9526, "step": 94230 }, { "epoch": 0.19633333333333333, "grad_norm": 0.7220954298973083, "learning_rate": 0.00027326982587493943, "loss": 3.8375, "step": 94240 }, { "epoch": 0.19635416666666666, "grad_norm": 0.8978043794631958, "learning_rate": 0.00027326420842393025, "loss": 4.0095, "step": 94250 }, { "epoch": 0.196375, "grad_norm": 0.7745317220687866, "learning_rate": 0.0002732585904404685, "loss": 3.8199, "step": 94260 }, { "epoch": 0.19639583333333333, "grad_norm": 0.6638867855072021, "learning_rate": 0.00027325297192457845, "loss": 3.8557, "step": 94270 }, { "epoch": 0.19641666666666666, "grad_norm": 0.765419602394104, "learning_rate": 0.0002732473528762843, "loss": 4.1052, "step": 94280 }, { "epoch": 0.1964375, "grad_norm": 0.7885999083518982, "learning_rate": 0.00027324173329561045, "loss": 3.761, "step": 94290 }, { "epoch": 0.19645833333333335, "grad_norm": 0.7087690234184265, "learning_rate": 0.000273236113182581, "loss": 3.9428, "step": 94300 }, { "epoch": 0.19647916666666668, "grad_norm": 0.773313581943512, "learning_rate": 0.0002732304925372204, "loss": 3.9819, "step": 94310 }, { "epoch": 0.1965, "grad_norm": 0.8233387470245361, "learning_rate": 0.0002732248713595528, "loss": 4.0071, "step": 94320 }, { "epoch": 0.19652083333333334, "grad_norm": 0.8832021355628967, "learning_rate": 0.00027321924964960253, "loss": 3.7911, "step": 94330 }, { "epoch": 0.19654166666666667, "grad_norm": 0.8114696145057678, "learning_rate": 0.0002732136274073939, "loss": 4.1259, "step": 94340 }, { "epoch": 0.1965625, "grad_norm": 0.7254542112350464, "learning_rate": 0.0002732080046329512, "loss": 3.9026, "step": 94350 }, { "epoch": 0.19658333333333333, "grad_norm": 0.812205970287323, "learning_rate": 0.0002732023813262986, "loss": 3.7488, "step": 94360 }, { "epoch": 0.19660416666666666, "grad_norm": 0.8565831780433655, "learning_rate": 0.0002731967574874606, "loss": 3.8708, "step": 94370 }, { "epoch": 0.196625, "grad_norm": 0.7425814867019653, "learning_rate": 0.00027319113311646126, "loss": 3.959, "step": 94380 }, { "epoch": 0.19664583333333333, "grad_norm": 0.9900192022323608, "learning_rate": 0.00027318550821332506, "loss": 4.0643, "step": 94390 }, { "epoch": 0.19666666666666666, "grad_norm": 0.832787275314331, "learning_rate": 0.00027317988277807614, "loss": 3.9747, "step": 94400 }, { "epoch": 0.1966875, "grad_norm": 0.9632630944252014, "learning_rate": 0.00027317425681073896, "loss": 4.1129, "step": 94410 }, { "epoch": 0.19670833333333335, "grad_norm": 0.7998073101043701, "learning_rate": 0.00027316863031133775, "loss": 3.9019, "step": 94420 }, { "epoch": 0.19672916666666668, "grad_norm": 0.7998934388160706, "learning_rate": 0.0002731630032798968, "loss": 4.076, "step": 94430 }, { "epoch": 0.19675, "grad_norm": 0.8293442726135254, "learning_rate": 0.0002731573757164404, "loss": 3.924, "step": 94440 }, { "epoch": 0.19677083333333334, "grad_norm": 0.7782034277915955, "learning_rate": 0.0002731517476209929, "loss": 3.8855, "step": 94450 }, { "epoch": 0.19679166666666667, "grad_norm": 0.7438388466835022, "learning_rate": 0.00027314611899357854, "loss": 3.9089, "step": 94460 }, { "epoch": 0.1968125, "grad_norm": 0.768671989440918, "learning_rate": 0.0002731404898342218, "loss": 3.9499, "step": 94470 }, { "epoch": 0.19683333333333333, "grad_norm": 0.7243049740791321, "learning_rate": 0.00027313486014294685, "loss": 3.9702, "step": 94480 }, { "epoch": 0.19685416666666666, "grad_norm": 0.8078787922859192, "learning_rate": 0.00027312922991977803, "loss": 3.8232, "step": 94490 }, { "epoch": 0.196875, "grad_norm": 0.8151666522026062, "learning_rate": 0.00027312359916473964, "loss": 4.1178, "step": 94500 }, { "epoch": 0.19689583333333333, "grad_norm": 0.7245591282844543, "learning_rate": 0.00027311796787785606, "loss": 3.8415, "step": 94510 }, { "epoch": 0.19691666666666666, "grad_norm": 0.7509301900863647, "learning_rate": 0.00027311233605915164, "loss": 3.7977, "step": 94520 }, { "epoch": 0.1969375, "grad_norm": 0.7546054124832153, "learning_rate": 0.0002731067037086506, "loss": 3.7631, "step": 94530 }, { "epoch": 0.19695833333333335, "grad_norm": 0.8203265070915222, "learning_rate": 0.00027310107082637736, "loss": 3.8932, "step": 94540 }, { "epoch": 0.19697916666666668, "grad_norm": 0.6537691354751587, "learning_rate": 0.00027309543741235623, "loss": 3.957, "step": 94550 }, { "epoch": 0.197, "grad_norm": 0.7701115608215332, "learning_rate": 0.0002730898034666115, "loss": 3.8988, "step": 94560 }, { "epoch": 0.19702083333333334, "grad_norm": 0.7552040815353394, "learning_rate": 0.00027308416898916754, "loss": 3.9089, "step": 94570 }, { "epoch": 0.19704166666666667, "grad_norm": 0.8950221538543701, "learning_rate": 0.0002730785339800487, "loss": 3.8939, "step": 94580 }, { "epoch": 0.1970625, "grad_norm": 0.6725966334342957, "learning_rate": 0.0002730728984392793, "loss": 3.8281, "step": 94590 }, { "epoch": 0.19708333333333333, "grad_norm": 0.7390570044517517, "learning_rate": 0.00027306726236688375, "loss": 3.8458, "step": 94600 }, { "epoch": 0.19710416666666666, "grad_norm": 0.9460276365280151, "learning_rate": 0.00027306162576288634, "loss": 4.0306, "step": 94610 }, { "epoch": 0.197125, "grad_norm": 0.7983285784721375, "learning_rate": 0.0002730559886273114, "loss": 4.0208, "step": 94620 }, { "epoch": 0.19714583333333333, "grad_norm": 0.7989623546600342, "learning_rate": 0.0002730503509601833, "loss": 4.0132, "step": 94630 }, { "epoch": 0.19716666666666666, "grad_norm": 0.8446179032325745, "learning_rate": 0.0002730447127615263, "loss": 3.8906, "step": 94640 }, { "epoch": 0.1971875, "grad_norm": 0.7612013220787048, "learning_rate": 0.0002730390740313649, "loss": 3.9187, "step": 94650 }, { "epoch": 0.19720833333333335, "grad_norm": 0.6686002612113953, "learning_rate": 0.0002730334347697235, "loss": 3.9897, "step": 94660 }, { "epoch": 0.19722916666666668, "grad_norm": 0.8132466077804565, "learning_rate": 0.0002730277949766262, "loss": 3.9706, "step": 94670 }, { "epoch": 0.19725, "grad_norm": 0.8219506144523621, "learning_rate": 0.00027302215465209765, "loss": 3.9559, "step": 94680 }, { "epoch": 0.19727083333333334, "grad_norm": 0.8895891308784485, "learning_rate": 0.00027301651379616203, "loss": 4.0325, "step": 94690 }, { "epoch": 0.19729166666666667, "grad_norm": 0.7913607358932495, "learning_rate": 0.0002730108724088438, "loss": 3.904, "step": 94700 }, { "epoch": 0.1973125, "grad_norm": 0.9104297757148743, "learning_rate": 0.00027300523049016726, "loss": 4.0778, "step": 94710 }, { "epoch": 0.19733333333333333, "grad_norm": 0.754450798034668, "learning_rate": 0.0002729995880401568, "loss": 3.9666, "step": 94720 }, { "epoch": 0.19735416666666666, "grad_norm": 0.646834671497345, "learning_rate": 0.0002729939450588368, "loss": 3.836, "step": 94730 }, { "epoch": 0.197375, "grad_norm": 0.7612391114234924, "learning_rate": 0.00027298830154623167, "loss": 3.8928, "step": 94740 }, { "epoch": 0.19739583333333333, "grad_norm": 0.8547986745834351, "learning_rate": 0.00027298265750236577, "loss": 3.9103, "step": 94750 }, { "epoch": 0.19741666666666666, "grad_norm": 0.8213331699371338, "learning_rate": 0.00027297701292726347, "loss": 4.0028, "step": 94760 }, { "epoch": 0.1974375, "grad_norm": 0.7758845090866089, "learning_rate": 0.00027297136782094915, "loss": 3.8489, "step": 94770 }, { "epoch": 0.19745833333333335, "grad_norm": 0.7645173668861389, "learning_rate": 0.00027296572218344717, "loss": 3.8653, "step": 94780 }, { "epoch": 0.19747916666666668, "grad_norm": 0.8325846195220947, "learning_rate": 0.00027296007601478197, "loss": 3.8926, "step": 94790 }, { "epoch": 0.1975, "grad_norm": 0.7507449388504028, "learning_rate": 0.0002729544293149779, "loss": 3.8006, "step": 94800 }, { "epoch": 0.19752083333333334, "grad_norm": 0.8223894238471985, "learning_rate": 0.00027294878208405937, "loss": 4.062, "step": 94810 }, { "epoch": 0.19754166666666667, "grad_norm": 0.6670302152633667, "learning_rate": 0.0002729431343220507, "loss": 3.9239, "step": 94820 }, { "epoch": 0.1975625, "grad_norm": 0.7052832841873169, "learning_rate": 0.00027293748602897646, "loss": 3.8612, "step": 94830 }, { "epoch": 0.19758333333333333, "grad_norm": 0.8444905281066895, "learning_rate": 0.00027293183720486096, "loss": 4.0202, "step": 94840 }, { "epoch": 0.19760416666666666, "grad_norm": 0.8753871321678162, "learning_rate": 0.0002729261878497285, "loss": 3.9907, "step": 94850 }, { "epoch": 0.197625, "grad_norm": 0.7703127264976501, "learning_rate": 0.0002729205379636036, "loss": 3.9846, "step": 94860 }, { "epoch": 0.19764583333333333, "grad_norm": 0.710654079914093, "learning_rate": 0.0002729148875465106, "loss": 3.8334, "step": 94870 }, { "epoch": 0.19766666666666666, "grad_norm": 0.792307436466217, "learning_rate": 0.00027290923659847394, "loss": 4.1345, "step": 94880 }, { "epoch": 0.1976875, "grad_norm": 0.8061255812644958, "learning_rate": 0.00027290358511951806, "loss": 3.9624, "step": 94890 }, { "epoch": 0.19770833333333335, "grad_norm": 0.736041247844696, "learning_rate": 0.0002728979331096673, "loss": 3.932, "step": 94900 }, { "epoch": 0.19772916666666668, "grad_norm": 0.7914325594902039, "learning_rate": 0.00027289228056894617, "loss": 3.9747, "step": 94910 }, { "epoch": 0.19775, "grad_norm": 0.7332755327224731, "learning_rate": 0.000272886627497379, "loss": 3.917, "step": 94920 }, { "epoch": 0.19777083333333334, "grad_norm": 0.7542585730552673, "learning_rate": 0.00027288097389499024, "loss": 4.1028, "step": 94930 }, { "epoch": 0.19779166666666667, "grad_norm": 0.750957727432251, "learning_rate": 0.00027287531976180433, "loss": 3.8554, "step": 94940 }, { "epoch": 0.1978125, "grad_norm": 0.8525398969650269, "learning_rate": 0.00027286966509784563, "loss": 4.1059, "step": 94950 }, { "epoch": 0.19783333333333333, "grad_norm": 0.7257283926010132, "learning_rate": 0.0002728640099031387, "loss": 3.8929, "step": 94960 }, { "epoch": 0.19785416666666666, "grad_norm": 0.7192295789718628, "learning_rate": 0.00027285835417770784, "loss": 3.7907, "step": 94970 }, { "epoch": 0.197875, "grad_norm": 0.7817862629890442, "learning_rate": 0.0002728526979215775, "loss": 4.0013, "step": 94980 }, { "epoch": 0.19789583333333333, "grad_norm": 0.7521064281463623, "learning_rate": 0.00027284704113477213, "loss": 3.9138, "step": 94990 }, { "epoch": 0.19791666666666666, "grad_norm": 0.8898777365684509, "learning_rate": 0.00027284138381731616, "loss": 3.9277, "step": 95000 }, { "epoch": 0.19791666666666666, "eval_loss": 4.271115779876709, "eval_runtime": 10.2343, "eval_samples_per_second": 0.977, "eval_steps_per_second": 0.293, "step": 95000 }, { "epoch": 0.1979375, "grad_norm": 0.6711692810058594, "learning_rate": 0.0002728357259692341, "loss": 3.9482, "step": 95010 }, { "epoch": 0.19795833333333332, "grad_norm": 0.7672122120857239, "learning_rate": 0.00027283006759055024, "loss": 3.939, "step": 95020 }, { "epoch": 0.19797916666666668, "grad_norm": 0.7526044249534607, "learning_rate": 0.00027282440868128913, "loss": 3.9021, "step": 95030 }, { "epoch": 0.198, "grad_norm": 0.7613542675971985, "learning_rate": 0.0002728187492414752, "loss": 4.023, "step": 95040 }, { "epoch": 0.19802083333333334, "grad_norm": 0.8219260573387146, "learning_rate": 0.00027281308927113297, "loss": 3.8358, "step": 95050 }, { "epoch": 0.19804166666666667, "grad_norm": 0.7035009264945984, "learning_rate": 0.0002728074287702867, "loss": 4.0996, "step": 95060 }, { "epoch": 0.1980625, "grad_norm": 0.7991828918457031, "learning_rate": 0.000272801767738961, "loss": 3.8931, "step": 95070 }, { "epoch": 0.19808333333333333, "grad_norm": 0.8352935910224915, "learning_rate": 0.0002727961061771803, "loss": 3.913, "step": 95080 }, { "epoch": 0.19810416666666666, "grad_norm": 0.6879733800888062, "learning_rate": 0.00027279044408496896, "loss": 3.7716, "step": 95090 }, { "epoch": 0.198125, "grad_norm": 0.7977094054222107, "learning_rate": 0.0002727847814623515, "loss": 3.9439, "step": 95100 }, { "epoch": 0.19814583333333333, "grad_norm": 0.8713047504425049, "learning_rate": 0.0002727791183093524, "loss": 3.7435, "step": 95110 }, { "epoch": 0.19816666666666666, "grad_norm": 0.8096645474433899, "learning_rate": 0.00027277345462599616, "loss": 4.0533, "step": 95120 }, { "epoch": 0.1981875, "grad_norm": 0.7325319051742554, "learning_rate": 0.00027276779041230715, "loss": 3.9595, "step": 95130 }, { "epoch": 0.19820833333333332, "grad_norm": 1.015947937965393, "learning_rate": 0.00027276212566830987, "loss": 3.9971, "step": 95140 }, { "epoch": 0.19822916666666668, "grad_norm": 0.9872867465019226, "learning_rate": 0.0002727564603940288, "loss": 3.9777, "step": 95150 }, { "epoch": 0.19825, "grad_norm": 0.6348692774772644, "learning_rate": 0.00027275079458948843, "loss": 4.1258, "step": 95160 }, { "epoch": 0.19827083333333334, "grad_norm": 0.7497531771659851, "learning_rate": 0.00027274512825471324, "loss": 4.0081, "step": 95170 }, { "epoch": 0.19829166666666667, "grad_norm": 0.7661571502685547, "learning_rate": 0.00027273946138972767, "loss": 3.8591, "step": 95180 }, { "epoch": 0.1983125, "grad_norm": 0.7939054369926453, "learning_rate": 0.0002727337939945562, "loss": 4.1012, "step": 95190 }, { "epoch": 0.19833333333333333, "grad_norm": 0.7353616952896118, "learning_rate": 0.0002727281260692233, "loss": 3.8836, "step": 95200 }, { "epoch": 0.19835416666666666, "grad_norm": 0.7423490881919861, "learning_rate": 0.0002727224576137535, "loss": 3.9224, "step": 95210 }, { "epoch": 0.198375, "grad_norm": 0.7997414469718933, "learning_rate": 0.0002727167886281713, "loss": 3.9208, "step": 95220 }, { "epoch": 0.19839583333333333, "grad_norm": 0.7954651713371277, "learning_rate": 0.00027271111911250103, "loss": 3.927, "step": 95230 }, { "epoch": 0.19841666666666666, "grad_norm": 0.710033118724823, "learning_rate": 0.00027270544906676737, "loss": 4.0043, "step": 95240 }, { "epoch": 0.1984375, "grad_norm": 0.8082271814346313, "learning_rate": 0.00027269977849099476, "loss": 3.9193, "step": 95250 }, { "epoch": 0.19845833333333332, "grad_norm": 0.8078631162643433, "learning_rate": 0.0002726941073852077, "loss": 3.7871, "step": 95260 }, { "epoch": 0.19847916666666668, "grad_norm": 0.7675504684448242, "learning_rate": 0.00027268843574943056, "loss": 3.993, "step": 95270 }, { "epoch": 0.1985, "grad_norm": 0.8192450404167175, "learning_rate": 0.00027268276358368804, "loss": 3.921, "step": 95280 }, { "epoch": 0.19852083333333334, "grad_norm": 0.7936809062957764, "learning_rate": 0.00027267709088800446, "loss": 3.9812, "step": 95290 }, { "epoch": 0.19854166666666667, "grad_norm": 0.8804940581321716, "learning_rate": 0.00027267141766240444, "loss": 3.8316, "step": 95300 }, { "epoch": 0.1985625, "grad_norm": 1.021031379699707, "learning_rate": 0.0002726657439069125, "loss": 3.9863, "step": 95310 }, { "epoch": 0.19858333333333333, "grad_norm": 0.9963385462760925, "learning_rate": 0.000272660069621553, "loss": 3.9901, "step": 95320 }, { "epoch": 0.19860416666666666, "grad_norm": 0.8169689774513245, "learning_rate": 0.00027265439480635064, "loss": 3.9198, "step": 95330 }, { "epoch": 0.198625, "grad_norm": 0.7887220978736877, "learning_rate": 0.00027264871946132977, "loss": 3.9599, "step": 95340 }, { "epoch": 0.19864583333333333, "grad_norm": 0.755453884601593, "learning_rate": 0.000272643043586515, "loss": 3.893, "step": 95350 }, { "epoch": 0.19866666666666666, "grad_norm": 0.8351927399635315, "learning_rate": 0.0002726373671819309, "loss": 4.0355, "step": 95360 }, { "epoch": 0.1986875, "grad_norm": 0.870010495185852, "learning_rate": 0.00027263169024760187, "loss": 3.9091, "step": 95370 }, { "epoch": 0.19870833333333332, "grad_norm": 0.8379443883895874, "learning_rate": 0.00027262601278355247, "loss": 3.94, "step": 95380 }, { "epoch": 0.19872916666666668, "grad_norm": 0.7221532464027405, "learning_rate": 0.00027262033478980726, "loss": 3.9911, "step": 95390 }, { "epoch": 0.19875, "grad_norm": 0.7765875458717346, "learning_rate": 0.0002726146562663907, "loss": 3.8333, "step": 95400 }, { "epoch": 0.19877083333333334, "grad_norm": 0.8983017802238464, "learning_rate": 0.0002726089772133274, "loss": 3.9037, "step": 95410 }, { "epoch": 0.19879166666666667, "grad_norm": 0.6565699577331543, "learning_rate": 0.0002726032976306418, "loss": 3.8885, "step": 95420 }, { "epoch": 0.1988125, "grad_norm": 0.870557963848114, "learning_rate": 0.0002725976175183585, "loss": 3.9318, "step": 95430 }, { "epoch": 0.19883333333333333, "grad_norm": 0.6848026514053345, "learning_rate": 0.00027259193687650203, "loss": 3.8416, "step": 95440 }, { "epoch": 0.19885416666666667, "grad_norm": 0.7527801990509033, "learning_rate": 0.0002725862557050969, "loss": 4.0907, "step": 95450 }, { "epoch": 0.198875, "grad_norm": 0.8276255130767822, "learning_rate": 0.00027258057400416773, "loss": 3.762, "step": 95460 }, { "epoch": 0.19889583333333333, "grad_norm": 0.9026311635971069, "learning_rate": 0.000272574891773739, "loss": 3.8851, "step": 95470 }, { "epoch": 0.19891666666666666, "grad_norm": 0.7340048551559448, "learning_rate": 0.0002725692090138352, "loss": 3.9971, "step": 95480 }, { "epoch": 0.1989375, "grad_norm": 0.8014360070228577, "learning_rate": 0.00027256352572448096, "loss": 4.0204, "step": 95490 }, { "epoch": 0.19895833333333332, "grad_norm": 0.8241854310035706, "learning_rate": 0.0002725578419057008, "loss": 3.9715, "step": 95500 }, { "epoch": 0.19897916666666668, "grad_norm": 0.7955034375190735, "learning_rate": 0.00027255215755751924, "loss": 3.8963, "step": 95510 }, { "epoch": 0.199, "grad_norm": 0.774272620677948, "learning_rate": 0.0002725464726799609, "loss": 4.0039, "step": 95520 }, { "epoch": 0.19902083333333334, "grad_norm": 0.8428143858909607, "learning_rate": 0.0002725407872730503, "loss": 3.8393, "step": 95530 }, { "epoch": 0.19904166666666667, "grad_norm": 0.7368664741516113, "learning_rate": 0.000272535101336812, "loss": 3.8077, "step": 95540 }, { "epoch": 0.1990625, "grad_norm": 0.7432920336723328, "learning_rate": 0.00027252941487127056, "loss": 4.0228, "step": 95550 }, { "epoch": 0.19908333333333333, "grad_norm": 0.720112144947052, "learning_rate": 0.0002725237278764506, "loss": 4.065, "step": 95560 }, { "epoch": 0.19910416666666667, "grad_norm": 0.7293336391448975, "learning_rate": 0.0002725180403523766, "loss": 3.8378, "step": 95570 }, { "epoch": 0.199125, "grad_norm": 0.7541269063949585, "learning_rate": 0.00027251235229907314, "loss": 3.9803, "step": 95580 }, { "epoch": 0.19914583333333333, "grad_norm": 0.7519063353538513, "learning_rate": 0.00027250666371656483, "loss": 4.0744, "step": 95590 }, { "epoch": 0.19916666666666666, "grad_norm": 0.74894779920578, "learning_rate": 0.0002725009746048762, "loss": 3.7719, "step": 95600 }, { "epoch": 0.1991875, "grad_norm": 0.7593650221824646, "learning_rate": 0.0002724952849640319, "loss": 3.811, "step": 95610 }, { "epoch": 0.19920833333333332, "grad_norm": 0.7517598867416382, "learning_rate": 0.0002724895947940564, "loss": 4.1314, "step": 95620 }, { "epoch": 0.19922916666666668, "grad_norm": 0.7260909080505371, "learning_rate": 0.00027248390409497435, "loss": 3.9499, "step": 95630 }, { "epoch": 0.19925, "grad_norm": 0.7088784575462341, "learning_rate": 0.0002724782128668103, "loss": 4.0847, "step": 95640 }, { "epoch": 0.19927083333333334, "grad_norm": 0.8258644938468933, "learning_rate": 0.0002724725211095889, "loss": 4.0237, "step": 95650 }, { "epoch": 0.19929166666666667, "grad_norm": 0.6923059821128845, "learning_rate": 0.0002724668288233347, "loss": 3.8894, "step": 95660 }, { "epoch": 0.1993125, "grad_norm": 0.8046190142631531, "learning_rate": 0.0002724611360080722, "loss": 3.92, "step": 95670 }, { "epoch": 0.19933333333333333, "grad_norm": 0.7987192273139954, "learning_rate": 0.0002724554426638261, "loss": 4.0126, "step": 95680 }, { "epoch": 0.19935416666666667, "grad_norm": 0.6852538585662842, "learning_rate": 0.000272449748790621, "loss": 3.8898, "step": 95690 }, { "epoch": 0.199375, "grad_norm": 0.7531848549842834, "learning_rate": 0.0002724440543884814, "loss": 3.9476, "step": 95700 }, { "epoch": 0.19939583333333333, "grad_norm": 0.8573852181434631, "learning_rate": 0.00027243835945743204, "loss": 3.9328, "step": 95710 }, { "epoch": 0.19941666666666666, "grad_norm": 0.8567180633544922, "learning_rate": 0.0002724326639974973, "loss": 3.803, "step": 95720 }, { "epoch": 0.1994375, "grad_norm": 0.7971590161323547, "learning_rate": 0.000272426968008702, "loss": 3.9547, "step": 95730 }, { "epoch": 0.19945833333333332, "grad_norm": 0.673969030380249, "learning_rate": 0.00027242127149107063, "loss": 3.8689, "step": 95740 }, { "epoch": 0.19947916666666668, "grad_norm": 0.7227053642272949, "learning_rate": 0.00027241557444462785, "loss": 3.9238, "step": 95750 }, { "epoch": 0.1995, "grad_norm": 0.8365728855133057, "learning_rate": 0.0002724098768693982, "loss": 3.8884, "step": 95760 }, { "epoch": 0.19952083333333334, "grad_norm": 0.7833431363105774, "learning_rate": 0.00027240417876540636, "loss": 4.0479, "step": 95770 }, { "epoch": 0.19954166666666667, "grad_norm": 0.7857282757759094, "learning_rate": 0.0002723984801326769, "loss": 4.031, "step": 95780 }, { "epoch": 0.1995625, "grad_norm": 0.7180692553520203, "learning_rate": 0.0002723927809712345, "loss": 3.7832, "step": 95790 }, { "epoch": 0.19958333333333333, "grad_norm": 0.7568239569664001, "learning_rate": 0.0002723870812811037, "loss": 4.0191, "step": 95800 }, { "epoch": 0.19960416666666667, "grad_norm": 1.0466986894607544, "learning_rate": 0.00027238138106230913, "loss": 4.0187, "step": 95810 }, { "epoch": 0.199625, "grad_norm": 0.7847929000854492, "learning_rate": 0.0002723756803148755, "loss": 3.9603, "step": 95820 }, { "epoch": 0.19964583333333333, "grad_norm": 0.6816434860229492, "learning_rate": 0.00027236997903882734, "loss": 3.8365, "step": 95830 }, { "epoch": 0.19966666666666666, "grad_norm": 0.7795352935791016, "learning_rate": 0.0002723642772341893, "loss": 3.8474, "step": 95840 }, { "epoch": 0.1996875, "grad_norm": 0.9082037806510925, "learning_rate": 0.000272358574900986, "loss": 3.9114, "step": 95850 }, { "epoch": 0.19970833333333332, "grad_norm": 0.786378800868988, "learning_rate": 0.0002723528720392421, "loss": 3.8308, "step": 95860 }, { "epoch": 0.19972916666666668, "grad_norm": 0.7490182518959045, "learning_rate": 0.00027234716864898224, "loss": 4.0144, "step": 95870 }, { "epoch": 0.19975, "grad_norm": 0.8036988377571106, "learning_rate": 0.000272341464730231, "loss": 3.8668, "step": 95880 }, { "epoch": 0.19977083333333334, "grad_norm": 0.9833376407623291, "learning_rate": 0.00027233576028301316, "loss": 3.8897, "step": 95890 }, { "epoch": 0.19979166666666667, "grad_norm": 0.8045269846916199, "learning_rate": 0.00027233005530735314, "loss": 3.8997, "step": 95900 }, { "epoch": 0.1998125, "grad_norm": 0.7489220499992371, "learning_rate": 0.00027232434980327576, "loss": 3.9744, "step": 95910 }, { "epoch": 0.19983333333333334, "grad_norm": 0.7048522233963013, "learning_rate": 0.0002723186437708056, "loss": 3.8358, "step": 95920 }, { "epoch": 0.19985416666666667, "grad_norm": 0.779782235622406, "learning_rate": 0.0002723129372099673, "loss": 3.8097, "step": 95930 }, { "epoch": 0.199875, "grad_norm": 1.021405577659607, "learning_rate": 0.00027230723012078555, "loss": 4.2053, "step": 95940 }, { "epoch": 0.19989583333333333, "grad_norm": 0.9189375638961792, "learning_rate": 0.000272301522503285, "loss": 3.9751, "step": 95950 }, { "epoch": 0.19991666666666666, "grad_norm": 0.8550997376441956, "learning_rate": 0.0002722958143574902, "loss": 3.9191, "step": 95960 }, { "epoch": 0.1999375, "grad_norm": 1.0112518072128296, "learning_rate": 0.000272290105683426, "loss": 3.9383, "step": 95970 }, { "epoch": 0.19995833333333332, "grad_norm": 0.9111433625221252, "learning_rate": 0.0002722843964811169, "loss": 3.868, "step": 95980 }, { "epoch": 0.19997916666666668, "grad_norm": 0.9547604918479919, "learning_rate": 0.00027227868675058764, "loss": 3.9079, "step": 95990 }, { "epoch": 0.2, "grad_norm": 0.7119100689888, "learning_rate": 0.00027227297649186274, "loss": 3.8974, "step": 96000 }, { "epoch": 0.2, "eval_loss": 4.269207000732422, "eval_runtime": 9.6444, "eval_samples_per_second": 1.037, "eval_steps_per_second": 0.311, "step": 96000 }, { "epoch": 0.20002083333333334, "grad_norm": 0.6749746799468994, "learning_rate": 0.0002722672657049671, "loss": 3.9385, "step": 96010 }, { "epoch": 0.20004166666666667, "grad_norm": 0.720657467842102, "learning_rate": 0.00027226155438992523, "loss": 3.8762, "step": 96020 }, { "epoch": 0.2000625, "grad_norm": 0.8139712810516357, "learning_rate": 0.00027225584254676185, "loss": 3.9956, "step": 96030 }, { "epoch": 0.20008333333333334, "grad_norm": 0.7231793403625488, "learning_rate": 0.0002722501301755016, "loss": 4.0713, "step": 96040 }, { "epoch": 0.20010416666666667, "grad_norm": 0.7793995141983032, "learning_rate": 0.0002722444172761692, "loss": 3.9339, "step": 96050 }, { "epoch": 0.200125, "grad_norm": 0.7356772422790527, "learning_rate": 0.00027223870384878926, "loss": 3.9066, "step": 96060 }, { "epoch": 0.20014583333333333, "grad_norm": 0.8260016441345215, "learning_rate": 0.0002722329898933865, "loss": 3.8784, "step": 96070 }, { "epoch": 0.20016666666666666, "grad_norm": 0.8359085321426392, "learning_rate": 0.0002722272754099857, "loss": 3.9533, "step": 96080 }, { "epoch": 0.2001875, "grad_norm": 0.7122097015380859, "learning_rate": 0.00027222156039861137, "loss": 3.9402, "step": 96090 }, { "epoch": 0.20020833333333332, "grad_norm": 0.833626925945282, "learning_rate": 0.00027221584485928835, "loss": 3.8526, "step": 96100 }, { "epoch": 0.20022916666666668, "grad_norm": 0.7518821954727173, "learning_rate": 0.0002722101287920412, "loss": 3.9381, "step": 96110 }, { "epoch": 0.20025, "grad_norm": 0.9906911253929138, "learning_rate": 0.00027220441219689463, "loss": 3.767, "step": 96120 }, { "epoch": 0.20027083333333334, "grad_norm": 0.7922478318214417, "learning_rate": 0.00027219869507387343, "loss": 3.9935, "step": 96130 }, { "epoch": 0.20029166666666667, "grad_norm": 0.8802465200424194, "learning_rate": 0.0002721929774230023, "loss": 3.999, "step": 96140 }, { "epoch": 0.2003125, "grad_norm": 0.753786563873291, "learning_rate": 0.0002721872592443057, "loss": 4.1773, "step": 96150 }, { "epoch": 0.20033333333333334, "grad_norm": 0.8047367334365845, "learning_rate": 0.00027218154053780866, "loss": 4.2498, "step": 96160 }, { "epoch": 0.20035416666666667, "grad_norm": 0.8207294940948486, "learning_rate": 0.00027217582130353564, "loss": 3.88, "step": 96170 }, { "epoch": 0.200375, "grad_norm": 0.8483783006668091, "learning_rate": 0.0002721701015415115, "loss": 3.913, "step": 96180 }, { "epoch": 0.20039583333333333, "grad_norm": 0.7812147736549377, "learning_rate": 0.0002721643812517608, "loss": 3.9171, "step": 96190 }, { "epoch": 0.20041666666666666, "grad_norm": 0.8235172033309937, "learning_rate": 0.0002721586604343084, "loss": 3.8888, "step": 96200 }, { "epoch": 0.2004375, "grad_norm": 0.8635163307189941, "learning_rate": 0.00027215293908917893, "loss": 3.7856, "step": 96210 }, { "epoch": 0.20045833333333332, "grad_norm": 0.7315236330032349, "learning_rate": 0.0002721472172163971, "loss": 3.9348, "step": 96220 }, { "epoch": 0.20047916666666668, "grad_norm": 0.7713849544525146, "learning_rate": 0.00027214149481598766, "loss": 3.911, "step": 96230 }, { "epoch": 0.2005, "grad_norm": 1.029566764831543, "learning_rate": 0.00027213577188797526, "loss": 3.933, "step": 96240 }, { "epoch": 0.20052083333333334, "grad_norm": 0.823090136051178, "learning_rate": 0.00027213004843238466, "loss": 4.0918, "step": 96250 }, { "epoch": 0.20054166666666667, "grad_norm": 0.7355145215988159, "learning_rate": 0.0002721243244492407, "loss": 3.841, "step": 96260 }, { "epoch": 0.2005625, "grad_norm": 0.7411622405052185, "learning_rate": 0.0002721185999385679, "loss": 3.9687, "step": 96270 }, { "epoch": 0.20058333333333334, "grad_norm": 0.770967960357666, "learning_rate": 0.00027211287490039115, "loss": 3.9921, "step": 96280 }, { "epoch": 0.20060416666666667, "grad_norm": 0.9157595634460449, "learning_rate": 0.00027210714933473506, "loss": 3.8543, "step": 96290 }, { "epoch": 0.200625, "grad_norm": 0.6340699791908264, "learning_rate": 0.0002721014232416245, "loss": 3.8014, "step": 96300 }, { "epoch": 0.20064583333333333, "grad_norm": 0.6797040104866028, "learning_rate": 0.00027209569662108404, "loss": 4.053, "step": 96310 }, { "epoch": 0.20066666666666666, "grad_norm": 0.8827582597732544, "learning_rate": 0.0002720899694731385, "loss": 3.9321, "step": 96320 }, { "epoch": 0.2006875, "grad_norm": 0.7410936951637268, "learning_rate": 0.00027208424179781264, "loss": 3.9641, "step": 96330 }, { "epoch": 0.20070833333333332, "grad_norm": 0.8671683669090271, "learning_rate": 0.0002720785135951312, "loss": 4.1283, "step": 96340 }, { "epoch": 0.20072916666666665, "grad_norm": 0.7476646900177002, "learning_rate": 0.00027207278486511885, "loss": 3.9762, "step": 96350 }, { "epoch": 0.20075, "grad_norm": 0.8110746741294861, "learning_rate": 0.00027206705560780045, "loss": 3.8652, "step": 96360 }, { "epoch": 0.20077083333333334, "grad_norm": 0.6852514743804932, "learning_rate": 0.0002720613258232007, "loss": 3.9914, "step": 96370 }, { "epoch": 0.20079166666666667, "grad_norm": 0.7378655076026917, "learning_rate": 0.0002720555955113443, "loss": 3.6811, "step": 96380 }, { "epoch": 0.2008125, "grad_norm": 0.7923538684844971, "learning_rate": 0.00027204986467225595, "loss": 3.9536, "step": 96390 }, { "epoch": 0.20083333333333334, "grad_norm": 0.7589314579963684, "learning_rate": 0.0002720441333059606, "loss": 3.7608, "step": 96400 }, { "epoch": 0.20085416666666667, "grad_norm": 0.7855508923530579, "learning_rate": 0.00027203840141248295, "loss": 3.9692, "step": 96410 }, { "epoch": 0.200875, "grad_norm": 0.8308335542678833, "learning_rate": 0.0002720326689918476, "loss": 3.7541, "step": 96420 }, { "epoch": 0.20089583333333333, "grad_norm": 0.8538427352905273, "learning_rate": 0.0002720269360440795, "loss": 4.0497, "step": 96430 }, { "epoch": 0.20091666666666666, "grad_norm": 0.7276864647865295, "learning_rate": 0.00027202120256920333, "loss": 4.0087, "step": 96440 }, { "epoch": 0.2009375, "grad_norm": 0.8275144100189209, "learning_rate": 0.00027201546856724383, "loss": 4.0622, "step": 96450 }, { "epoch": 0.20095833333333332, "grad_norm": 0.7370452284812927, "learning_rate": 0.00027200973403822585, "loss": 3.8801, "step": 96460 }, { "epoch": 0.20097916666666665, "grad_norm": 0.8280041217803955, "learning_rate": 0.00027200399898217405, "loss": 3.8309, "step": 96470 }, { "epoch": 0.201, "grad_norm": 0.8614276051521301, "learning_rate": 0.0002719982633991133, "loss": 4.0389, "step": 96480 }, { "epoch": 0.20102083333333334, "grad_norm": 0.7267210483551025, "learning_rate": 0.00027199252728906835, "loss": 3.9185, "step": 96490 }, { "epoch": 0.20104166666666667, "grad_norm": 0.7094448804855347, "learning_rate": 0.00027198679065206394, "loss": 3.9929, "step": 96500 }, { "epoch": 0.2010625, "grad_norm": 0.9102069735527039, "learning_rate": 0.0002719810534881249, "loss": 3.9923, "step": 96510 }, { "epoch": 0.20108333333333334, "grad_norm": 0.9140005111694336, "learning_rate": 0.000271975315797276, "loss": 3.861, "step": 96520 }, { "epoch": 0.20110416666666667, "grad_norm": 0.7833912372589111, "learning_rate": 0.0002719695775795421, "loss": 3.8002, "step": 96530 }, { "epoch": 0.201125, "grad_norm": 0.8272594809532166, "learning_rate": 0.00027196383883494775, "loss": 3.9008, "step": 96540 }, { "epoch": 0.20114583333333333, "grad_norm": 0.747657835483551, "learning_rate": 0.00027195809956351795, "loss": 3.9202, "step": 96550 }, { "epoch": 0.20116666666666666, "grad_norm": 0.8718542456626892, "learning_rate": 0.00027195235976527747, "loss": 3.9105, "step": 96560 }, { "epoch": 0.2011875, "grad_norm": 1.0046499967575073, "learning_rate": 0.000271946619440251, "loss": 4.0026, "step": 96570 }, { "epoch": 0.20120833333333332, "grad_norm": 0.7794237732887268, "learning_rate": 0.00027194087858846346, "loss": 3.9915, "step": 96580 }, { "epoch": 0.20122916666666665, "grad_norm": 0.8747658133506775, "learning_rate": 0.0002719351372099396, "loss": 3.881, "step": 96590 }, { "epoch": 0.20125, "grad_norm": 0.7785527110099792, "learning_rate": 0.0002719293953047042, "loss": 3.9765, "step": 96600 }, { "epoch": 0.20127083333333334, "grad_norm": 0.7424585223197937, "learning_rate": 0.0002719236528727821, "loss": 4.0881, "step": 96610 }, { "epoch": 0.20129166666666667, "grad_norm": 0.6733518838882446, "learning_rate": 0.00027191790991419796, "loss": 3.9841, "step": 96620 }, { "epoch": 0.2013125, "grad_norm": 0.8110787272453308, "learning_rate": 0.0002719121664289768, "loss": 4.0031, "step": 96630 }, { "epoch": 0.20133333333333334, "grad_norm": 0.7581105828285217, "learning_rate": 0.00027190642241714335, "loss": 3.7786, "step": 96640 }, { "epoch": 0.20135416666666667, "grad_norm": 0.6881938576698303, "learning_rate": 0.0002719006778787224, "loss": 3.8073, "step": 96650 }, { "epoch": 0.201375, "grad_norm": 0.8405342102050781, "learning_rate": 0.00027189493281373875, "loss": 4.0126, "step": 96660 }, { "epoch": 0.20139583333333333, "grad_norm": 0.7996871471405029, "learning_rate": 0.00027188918722221726, "loss": 4.0282, "step": 96670 }, { "epoch": 0.20141666666666666, "grad_norm": 0.7815754413604736, "learning_rate": 0.0002718834411041827, "loss": 3.8003, "step": 96680 }, { "epoch": 0.2014375, "grad_norm": 0.6517860889434814, "learning_rate": 0.00027187769445966, "loss": 4.0772, "step": 96690 }, { "epoch": 0.20145833333333332, "grad_norm": 0.870891273021698, "learning_rate": 0.0002718719472886738, "loss": 3.9419, "step": 96700 }, { "epoch": 0.20147916666666665, "grad_norm": 0.7152897715568542, "learning_rate": 0.000271866199591249, "loss": 3.9181, "step": 96710 }, { "epoch": 0.2015, "grad_norm": 0.688261866569519, "learning_rate": 0.0002718604513674106, "loss": 4.1037, "step": 96720 }, { "epoch": 0.20152083333333334, "grad_norm": 0.8328794240951538, "learning_rate": 0.0002718547026171832, "loss": 3.7863, "step": 96730 }, { "epoch": 0.20154166666666667, "grad_norm": 0.7212241291999817, "learning_rate": 0.00027184895334059173, "loss": 3.7936, "step": 96740 }, { "epoch": 0.2015625, "grad_norm": 0.8041657209396362, "learning_rate": 0.00027184320353766103, "loss": 3.9702, "step": 96750 }, { "epoch": 0.20158333333333334, "grad_norm": 0.7761883735656738, "learning_rate": 0.00027183745320841587, "loss": 3.8841, "step": 96760 }, { "epoch": 0.20160416666666667, "grad_norm": 0.7630966901779175, "learning_rate": 0.0002718317023528812, "loss": 3.988, "step": 96770 }, { "epoch": 0.201625, "grad_norm": 1.0216387510299683, "learning_rate": 0.00027182595097108173, "loss": 4.0325, "step": 96780 }, { "epoch": 0.20164583333333333, "grad_norm": 0.7563979029655457, "learning_rate": 0.00027182019906304245, "loss": 4.0333, "step": 96790 }, { "epoch": 0.20166666666666666, "grad_norm": 0.7872804403305054, "learning_rate": 0.00027181444662878804, "loss": 4.1554, "step": 96800 }, { "epoch": 0.2016875, "grad_norm": 0.732183039188385, "learning_rate": 0.00027180869366834353, "loss": 3.8076, "step": 96810 }, { "epoch": 0.20170833333333332, "grad_norm": 0.8412035703659058, "learning_rate": 0.00027180294018173365, "loss": 3.9898, "step": 96820 }, { "epoch": 0.20172916666666665, "grad_norm": 0.6848443746566772, "learning_rate": 0.0002717971861689833, "loss": 3.939, "step": 96830 }, { "epoch": 0.20175, "grad_norm": 0.7595687508583069, "learning_rate": 0.0002717914316301173, "loss": 3.9462, "step": 96840 }, { "epoch": 0.20177083333333334, "grad_norm": 0.7698736190795898, "learning_rate": 0.0002717856765651605, "loss": 3.8503, "step": 96850 }, { "epoch": 0.20179166666666667, "grad_norm": 0.7094859480857849, "learning_rate": 0.00027177992097413776, "loss": 3.8999, "step": 96860 }, { "epoch": 0.2018125, "grad_norm": 0.7424104809761047, "learning_rate": 0.000271774164857074, "loss": 3.9178, "step": 96870 }, { "epoch": 0.20183333333333334, "grad_norm": 0.8056774139404297, "learning_rate": 0.00027176840821399405, "loss": 4.1371, "step": 96880 }, { "epoch": 0.20185416666666667, "grad_norm": 0.9054586291313171, "learning_rate": 0.00027176265104492277, "loss": 3.8927, "step": 96890 }, { "epoch": 0.201875, "grad_norm": 0.730076014995575, "learning_rate": 0.00027175689334988507, "loss": 3.9444, "step": 96900 }, { "epoch": 0.20189583333333333, "grad_norm": 0.7134878635406494, "learning_rate": 0.00027175113512890577, "loss": 3.8593, "step": 96910 }, { "epoch": 0.20191666666666666, "grad_norm": 0.8196001648902893, "learning_rate": 0.0002717453763820097, "loss": 3.8333, "step": 96920 }, { "epoch": 0.2019375, "grad_norm": 0.7250441312789917, "learning_rate": 0.00027173961710922186, "loss": 3.9355, "step": 96930 }, { "epoch": 0.20195833333333332, "grad_norm": 0.7996559143066406, "learning_rate": 0.00027173385731056707, "loss": 3.8722, "step": 96940 }, { "epoch": 0.20197916666666665, "grad_norm": 0.8824446797370911, "learning_rate": 0.0002717280969860701, "loss": 3.962, "step": 96950 }, { "epoch": 0.202, "grad_norm": 0.7890738844871521, "learning_rate": 0.00027172233613575607, "loss": 4.0854, "step": 96960 }, { "epoch": 0.20202083333333334, "grad_norm": 0.7400267720222473, "learning_rate": 0.0002717165747596496, "loss": 3.7425, "step": 96970 }, { "epoch": 0.20204166666666667, "grad_norm": 0.6946665048599243, "learning_rate": 0.0002717108128577758, "loss": 3.8352, "step": 96980 }, { "epoch": 0.2020625, "grad_norm": 0.7933791279792786, "learning_rate": 0.00027170505043015947, "loss": 3.8984, "step": 96990 }, { "epoch": 0.20208333333333334, "grad_norm": 0.9109715819358826, "learning_rate": 0.0002716992874768254, "loss": 3.8104, "step": 97000 }, { "epoch": 0.20208333333333334, "eval_loss": 4.2821455001831055, "eval_runtime": 10.2029, "eval_samples_per_second": 0.98, "eval_steps_per_second": 0.294, "step": 97000 }, { "epoch": 0.20210416666666667, "grad_norm": 0.7184386849403381, "learning_rate": 0.00027169352399779865, "loss": 4.0512, "step": 97010 }, { "epoch": 0.202125, "grad_norm": 0.7090054154396057, "learning_rate": 0.00027168775999310404, "loss": 3.9147, "step": 97020 }, { "epoch": 0.20214583333333333, "grad_norm": 0.8819112777709961, "learning_rate": 0.00027168199546276654, "loss": 3.8482, "step": 97030 }, { "epoch": 0.20216666666666666, "grad_norm": 0.77251797914505, "learning_rate": 0.0002716762304068109, "loss": 3.8541, "step": 97040 }, { "epoch": 0.2021875, "grad_norm": 0.8518852591514587, "learning_rate": 0.0002716704648252621, "loss": 3.8788, "step": 97050 }, { "epoch": 0.20220833333333332, "grad_norm": 0.8591873645782471, "learning_rate": 0.0002716646987181451, "loss": 4.0258, "step": 97060 }, { "epoch": 0.20222916666666665, "grad_norm": 0.7187579870223999, "learning_rate": 0.00027165893208548473, "loss": 3.966, "step": 97070 }, { "epoch": 0.20225, "grad_norm": 0.8849664926528931, "learning_rate": 0.0002716531649273059, "loss": 3.8622, "step": 97080 }, { "epoch": 0.20227083333333334, "grad_norm": 0.7190258502960205, "learning_rate": 0.00027164739724363363, "loss": 4.0013, "step": 97090 }, { "epoch": 0.20229166666666668, "grad_norm": 0.7888973355293274, "learning_rate": 0.0002716416290344927, "loss": 3.9044, "step": 97100 }, { "epoch": 0.2023125, "grad_norm": 0.7764570713043213, "learning_rate": 0.00027163586029990813, "loss": 3.9109, "step": 97110 }, { "epoch": 0.20233333333333334, "grad_norm": 0.7124319672584534, "learning_rate": 0.0002716300910399047, "loss": 4.1086, "step": 97120 }, { "epoch": 0.20235416666666667, "grad_norm": 0.7800642251968384, "learning_rate": 0.0002716243212545075, "loss": 3.9384, "step": 97130 }, { "epoch": 0.202375, "grad_norm": 0.8160101175308228, "learning_rate": 0.00027161855094374137, "loss": 3.9939, "step": 97140 }, { "epoch": 0.20239583333333333, "grad_norm": 1.286986231803894, "learning_rate": 0.00027161278010763123, "loss": 3.8122, "step": 97150 }, { "epoch": 0.20241666666666666, "grad_norm": 0.7640390992164612, "learning_rate": 0.000271607008746202, "loss": 4.0387, "step": 97160 }, { "epoch": 0.2024375, "grad_norm": 0.8173478245735168, "learning_rate": 0.0002716012368594786, "loss": 3.8864, "step": 97170 }, { "epoch": 0.20245833333333332, "grad_norm": 0.7355332374572754, "learning_rate": 0.0002715954644474861, "loss": 3.802, "step": 97180 }, { "epoch": 0.20247916666666665, "grad_norm": 0.7653236389160156, "learning_rate": 0.0002715896915102492, "loss": 4.0003, "step": 97190 }, { "epoch": 0.2025, "grad_norm": 0.6865783929824829, "learning_rate": 0.00027158391804779305, "loss": 3.8954, "step": 97200 }, { "epoch": 0.20252083333333334, "grad_norm": 0.7461762428283691, "learning_rate": 0.0002715781440601424, "loss": 4.2432, "step": 97210 }, { "epoch": 0.20254166666666668, "grad_norm": 0.7023046612739563, "learning_rate": 0.0002715723695473224, "loss": 3.8207, "step": 97220 }, { "epoch": 0.2025625, "grad_norm": 0.7209023833274841, "learning_rate": 0.0002715665945093578, "loss": 3.8024, "step": 97230 }, { "epoch": 0.20258333333333334, "grad_norm": 0.8072795867919922, "learning_rate": 0.0002715608189462737, "loss": 3.878, "step": 97240 }, { "epoch": 0.20260416666666667, "grad_norm": 0.7748768329620361, "learning_rate": 0.00027155504285809493, "loss": 3.911, "step": 97250 }, { "epoch": 0.202625, "grad_norm": 0.7613902688026428, "learning_rate": 0.00027154926624484653, "loss": 3.9138, "step": 97260 }, { "epoch": 0.20264583333333333, "grad_norm": 0.7492506504058838, "learning_rate": 0.0002715434891065534, "loss": 3.9109, "step": 97270 }, { "epoch": 0.20266666666666666, "grad_norm": 0.8183521032333374, "learning_rate": 0.0002715377114432405, "loss": 3.9155, "step": 97280 }, { "epoch": 0.2026875, "grad_norm": 0.6761447191238403, "learning_rate": 0.0002715319332549328, "loss": 4.003, "step": 97290 }, { "epoch": 0.20270833333333332, "grad_norm": 0.8284725546836853, "learning_rate": 0.0002715261545416552, "loss": 3.9522, "step": 97300 }, { "epoch": 0.20272916666666665, "grad_norm": 0.9588183760643005, "learning_rate": 0.0002715203753034328, "loss": 3.9287, "step": 97310 }, { "epoch": 0.20275, "grad_norm": 0.8293543457984924, "learning_rate": 0.0002715145955402904, "loss": 3.8949, "step": 97320 }, { "epoch": 0.20277083333333334, "grad_norm": 0.7811524868011475, "learning_rate": 0.00027150881525225313, "loss": 3.8441, "step": 97330 }, { "epoch": 0.20279166666666668, "grad_norm": 0.7419423460960388, "learning_rate": 0.00027150303443934583, "loss": 4.0126, "step": 97340 }, { "epoch": 0.2028125, "grad_norm": 0.854369044303894, "learning_rate": 0.0002714972531015935, "loss": 3.9634, "step": 97350 }, { "epoch": 0.20283333333333334, "grad_norm": 0.8469094634056091, "learning_rate": 0.0002714914712390212, "loss": 3.885, "step": 97360 }, { "epoch": 0.20285416666666667, "grad_norm": 0.8944759368896484, "learning_rate": 0.00027148568885165374, "loss": 4.0116, "step": 97370 }, { "epoch": 0.202875, "grad_norm": 0.7014848589897156, "learning_rate": 0.00027147990593951626, "loss": 3.9866, "step": 97380 }, { "epoch": 0.20289583333333333, "grad_norm": 0.8370168805122375, "learning_rate": 0.00027147412250263364, "loss": 4.0335, "step": 97390 }, { "epoch": 0.20291666666666666, "grad_norm": 0.7997311949729919, "learning_rate": 0.0002714683385410309, "loss": 3.9079, "step": 97400 }, { "epoch": 0.2029375, "grad_norm": 0.7653656601905823, "learning_rate": 0.000271462554054733, "loss": 3.9678, "step": 97410 }, { "epoch": 0.20295833333333332, "grad_norm": 0.6855714321136475, "learning_rate": 0.000271456769043765, "loss": 3.9143, "step": 97420 }, { "epoch": 0.20297916666666665, "grad_norm": 0.8820379376411438, "learning_rate": 0.0002714509835081518, "loss": 4.0403, "step": 97430 }, { "epoch": 0.203, "grad_norm": 0.7624015212059021, "learning_rate": 0.00027144519744791835, "loss": 3.965, "step": 97440 }, { "epoch": 0.20302083333333334, "grad_norm": 0.7017776966094971, "learning_rate": 0.0002714394108630898, "loss": 4.1915, "step": 97450 }, { "epoch": 0.20304166666666668, "grad_norm": 0.8316776156425476, "learning_rate": 0.000271433623753691, "loss": 3.9246, "step": 97460 }, { "epoch": 0.2030625, "grad_norm": 0.8129537105560303, "learning_rate": 0.00027142783611974714, "loss": 3.881, "step": 97470 }, { "epoch": 0.20308333333333334, "grad_norm": 0.7926350831985474, "learning_rate": 0.000271422047961283, "loss": 3.9325, "step": 97480 }, { "epoch": 0.20310416666666667, "grad_norm": 0.8074626922607422, "learning_rate": 0.0002714162592783237, "loss": 3.977, "step": 97490 }, { "epoch": 0.203125, "grad_norm": 0.8846316337585449, "learning_rate": 0.0002714104700708942, "loss": 3.8196, "step": 97500 }, { "epoch": 0.20314583333333333, "grad_norm": 0.6884284019470215, "learning_rate": 0.00027140468033901954, "loss": 3.9149, "step": 97510 }, { "epoch": 0.20316666666666666, "grad_norm": 0.7488963603973389, "learning_rate": 0.0002713988900827247, "loss": 3.8872, "step": 97520 }, { "epoch": 0.2031875, "grad_norm": 0.6959220767021179, "learning_rate": 0.00027139309930203473, "loss": 3.9026, "step": 97530 }, { "epoch": 0.20320833333333332, "grad_norm": 0.8341795802116394, "learning_rate": 0.00027138730799697465, "loss": 4.0791, "step": 97540 }, { "epoch": 0.20322916666666666, "grad_norm": 0.8490181565284729, "learning_rate": 0.0002713815161675694, "loss": 4.0398, "step": 97550 }, { "epoch": 0.20325, "grad_norm": 0.6948962807655334, "learning_rate": 0.00027137572381384406, "loss": 3.8091, "step": 97560 }, { "epoch": 0.20327083333333335, "grad_norm": 0.709119439125061, "learning_rate": 0.00027136993093582364, "loss": 3.7727, "step": 97570 }, { "epoch": 0.20329166666666668, "grad_norm": 0.7375856637954712, "learning_rate": 0.00027136413753353313, "loss": 3.9572, "step": 97580 }, { "epoch": 0.2033125, "grad_norm": 0.7648619413375854, "learning_rate": 0.00027135834360699764, "loss": 3.9925, "step": 97590 }, { "epoch": 0.20333333333333334, "grad_norm": 0.7756049036979675, "learning_rate": 0.0002713525491562421, "loss": 3.93, "step": 97600 }, { "epoch": 0.20335416666666667, "grad_norm": 0.8068016767501831, "learning_rate": 0.0002713467541812916, "loss": 3.9425, "step": 97610 }, { "epoch": 0.203375, "grad_norm": 0.72282475233078, "learning_rate": 0.0002713409586821711, "loss": 3.8222, "step": 97620 }, { "epoch": 0.20339583333333333, "grad_norm": 0.7116051912307739, "learning_rate": 0.00027133516265890576, "loss": 3.9813, "step": 97630 }, { "epoch": 0.20341666666666666, "grad_norm": 0.8936026692390442, "learning_rate": 0.00027132936611152055, "loss": 3.8957, "step": 97640 }, { "epoch": 0.2034375, "grad_norm": 0.6795300841331482, "learning_rate": 0.0002713235690400405, "loss": 3.9239, "step": 97650 }, { "epoch": 0.20345833333333332, "grad_norm": 0.869817316532135, "learning_rate": 0.0002713177714444906, "loss": 4.0339, "step": 97660 }, { "epoch": 0.20347916666666666, "grad_norm": 0.6676619648933411, "learning_rate": 0.00027131197332489593, "loss": 3.8933, "step": 97670 }, { "epoch": 0.2035, "grad_norm": 0.7057666182518005, "learning_rate": 0.00027130617468128167, "loss": 4.0758, "step": 97680 }, { "epoch": 0.20352083333333335, "grad_norm": 0.7505435347557068, "learning_rate": 0.00027130037551367266, "loss": 4.0105, "step": 97690 }, { "epoch": 0.20354166666666668, "grad_norm": 0.7956533432006836, "learning_rate": 0.0002712945758220941, "loss": 3.8544, "step": 97700 }, { "epoch": 0.2035625, "grad_norm": 0.7448551058769226, "learning_rate": 0.00027128877560657095, "loss": 3.8635, "step": 97710 }, { "epoch": 0.20358333333333334, "grad_norm": 0.8416665196418762, "learning_rate": 0.0002712829748671283, "loss": 4.0299, "step": 97720 }, { "epoch": 0.20360416666666667, "grad_norm": 0.7655050158500671, "learning_rate": 0.00027127717360379117, "loss": 4.0655, "step": 97730 }, { "epoch": 0.203625, "grad_norm": 0.7575312852859497, "learning_rate": 0.0002712713718165847, "loss": 3.9177, "step": 97740 }, { "epoch": 0.20364583333333333, "grad_norm": 0.7807748317718506, "learning_rate": 0.0002712655695055339, "loss": 4.0441, "step": 97750 }, { "epoch": 0.20366666666666666, "grad_norm": 0.9041343927383423, "learning_rate": 0.00027125976667066384, "loss": 3.828, "step": 97760 }, { "epoch": 0.2036875, "grad_norm": 0.7137126922607422, "learning_rate": 0.0002712539633119996, "loss": 3.9601, "step": 97770 }, { "epoch": 0.20370833333333332, "grad_norm": 0.7491195797920227, "learning_rate": 0.0002712481594295662, "loss": 3.9191, "step": 97780 }, { "epoch": 0.20372916666666666, "grad_norm": 0.7567050457000732, "learning_rate": 0.00027124235502338877, "loss": 3.855, "step": 97790 }, { "epoch": 0.20375, "grad_norm": 0.8469628691673279, "learning_rate": 0.00027123655009349235, "loss": 3.9065, "step": 97800 }, { "epoch": 0.20377083333333335, "grad_norm": 0.8442763686180115, "learning_rate": 0.000271230744639902, "loss": 4.079, "step": 97810 }, { "epoch": 0.20379166666666668, "grad_norm": 0.7627809643745422, "learning_rate": 0.00027122493866264287, "loss": 4.0253, "step": 97820 }, { "epoch": 0.2038125, "grad_norm": 0.9450651407241821, "learning_rate": 0.00027121913216173995, "loss": 3.9751, "step": 97830 }, { "epoch": 0.20383333333333334, "grad_norm": 0.9559528231620789, "learning_rate": 0.0002712133251372184, "loss": 3.9703, "step": 97840 }, { "epoch": 0.20385416666666667, "grad_norm": 0.8710651397705078, "learning_rate": 0.00027120751758910323, "loss": 3.8856, "step": 97850 }, { "epoch": 0.203875, "grad_norm": 0.879367470741272, "learning_rate": 0.00027120170951741953, "loss": 3.9875, "step": 97860 }, { "epoch": 0.20389583333333333, "grad_norm": 0.8639014363288879, "learning_rate": 0.0002711959009221925, "loss": 3.8365, "step": 97870 }, { "epoch": 0.20391666666666666, "grad_norm": 0.8471252918243408, "learning_rate": 0.00027119009180344704, "loss": 3.9805, "step": 97880 }, { "epoch": 0.2039375, "grad_norm": 0.7566556334495544, "learning_rate": 0.00027118428216120846, "loss": 3.9799, "step": 97890 }, { "epoch": 0.20395833333333332, "grad_norm": 0.7058636546134949, "learning_rate": 0.0002711784719955017, "loss": 3.9915, "step": 97900 }, { "epoch": 0.20397916666666666, "grad_norm": 1.159803032875061, "learning_rate": 0.00027117266130635194, "loss": 3.8601, "step": 97910 }, { "epoch": 0.204, "grad_norm": 0.7626458406448364, "learning_rate": 0.00027116685009378425, "loss": 4.0315, "step": 97920 }, { "epoch": 0.20402083333333335, "grad_norm": 0.7354722619056702, "learning_rate": 0.00027116103835782366, "loss": 4.1317, "step": 97930 }, { "epoch": 0.20404166666666668, "grad_norm": 0.8794471025466919, "learning_rate": 0.00027115522609849537, "loss": 3.9106, "step": 97940 }, { "epoch": 0.2040625, "grad_norm": 0.7679542303085327, "learning_rate": 0.00027114941331582453, "loss": 3.8476, "step": 97950 }, { "epoch": 0.20408333333333334, "grad_norm": 0.7416098713874817, "learning_rate": 0.0002711436000098361, "loss": 3.8681, "step": 97960 }, { "epoch": 0.20410416666666667, "grad_norm": 0.8265259861946106, "learning_rate": 0.0002711377861805553, "loss": 3.7619, "step": 97970 }, { "epoch": 0.204125, "grad_norm": 0.7775449752807617, "learning_rate": 0.0002711319718280072, "loss": 4.1507, "step": 97980 }, { "epoch": 0.20414583333333333, "grad_norm": 0.666971743106842, "learning_rate": 0.00027112615695221696, "loss": 3.8885, "step": 97990 }, { "epoch": 0.20416666666666666, "grad_norm": 0.905532956123352, "learning_rate": 0.0002711203415532096, "loss": 3.9236, "step": 98000 }, { "epoch": 0.20416666666666666, "eval_loss": 4.271847724914551, "eval_runtime": 11.0625, "eval_samples_per_second": 0.904, "eval_steps_per_second": 0.271, "step": 98000 }, { "epoch": 0.2041875, "grad_norm": 0.7565674781799316, "learning_rate": 0.0002711145256310104, "loss": 3.8446, "step": 98010 }, { "epoch": 0.20420833333333333, "grad_norm": 0.8288971185684204, "learning_rate": 0.00027110870918564434, "loss": 4.0274, "step": 98020 }, { "epoch": 0.20422916666666666, "grad_norm": 0.7351484298706055, "learning_rate": 0.0002711028922171366, "loss": 3.998, "step": 98030 }, { "epoch": 0.20425, "grad_norm": 0.7573543787002563, "learning_rate": 0.0002710970747255123, "loss": 3.8923, "step": 98040 }, { "epoch": 0.20427083333333335, "grad_norm": 0.8019400238990784, "learning_rate": 0.0002710912567107965, "loss": 4.0546, "step": 98050 }, { "epoch": 0.20429166666666668, "grad_norm": 0.9333224892616272, "learning_rate": 0.00027108543817301454, "loss": 4.0017, "step": 98060 }, { "epoch": 0.2043125, "grad_norm": 0.8996326923370361, "learning_rate": 0.00027107961911219133, "loss": 4.1018, "step": 98070 }, { "epoch": 0.20433333333333334, "grad_norm": 0.9545336365699768, "learning_rate": 0.0002710737995283521, "loss": 3.9738, "step": 98080 }, { "epoch": 0.20435416666666667, "grad_norm": 0.7270487546920776, "learning_rate": 0.00027106797942152197, "loss": 3.9808, "step": 98090 }, { "epoch": 0.204375, "grad_norm": 0.7048183679580688, "learning_rate": 0.00027106215879172616, "loss": 4.1196, "step": 98100 }, { "epoch": 0.20439583333333333, "grad_norm": 0.7274428009986877, "learning_rate": 0.0002710563376389896, "loss": 3.9523, "step": 98110 }, { "epoch": 0.20441666666666666, "grad_norm": 0.8528040647506714, "learning_rate": 0.00027105051596333776, "loss": 4.0584, "step": 98120 }, { "epoch": 0.2044375, "grad_norm": 0.8082497715950012, "learning_rate": 0.00027104469376479546, "loss": 3.9875, "step": 98130 }, { "epoch": 0.20445833333333333, "grad_norm": 0.7904685735702515, "learning_rate": 0.0002710388710433881, "loss": 3.9763, "step": 98140 }, { "epoch": 0.20447916666666666, "grad_norm": 0.7936574220657349, "learning_rate": 0.0002710330477991407, "loss": 3.8748, "step": 98150 }, { "epoch": 0.2045, "grad_norm": 0.6941542029380798, "learning_rate": 0.0002710272240320784, "loss": 3.8785, "step": 98160 }, { "epoch": 0.20452083333333335, "grad_norm": 0.7061350345611572, "learning_rate": 0.00027102139974222644, "loss": 3.7852, "step": 98170 }, { "epoch": 0.20454166666666668, "grad_norm": 0.7819772362709045, "learning_rate": 0.0002710155749296099, "loss": 3.8965, "step": 98180 }, { "epoch": 0.2045625, "grad_norm": 0.762638509273529, "learning_rate": 0.00027100974959425397, "loss": 4.0542, "step": 98190 }, { "epoch": 0.20458333333333334, "grad_norm": 0.7688943147659302, "learning_rate": 0.00027100392373618387, "loss": 3.8433, "step": 98200 }, { "epoch": 0.20460416666666667, "grad_norm": 0.9404740929603577, "learning_rate": 0.00027099809735542466, "loss": 4.0874, "step": 98210 }, { "epoch": 0.204625, "grad_norm": 0.8107801079750061, "learning_rate": 0.0002709922704520016, "loss": 4.0638, "step": 98220 }, { "epoch": 0.20464583333333333, "grad_norm": 0.7169693112373352, "learning_rate": 0.00027098644302593985, "loss": 3.9551, "step": 98230 }, { "epoch": 0.20466666666666666, "grad_norm": 0.6465263962745667, "learning_rate": 0.00027098061507726455, "loss": 3.9921, "step": 98240 }, { "epoch": 0.2046875, "grad_norm": 0.7230799794197083, "learning_rate": 0.0002709747866060008, "loss": 4.0766, "step": 98250 }, { "epoch": 0.20470833333333333, "grad_norm": 0.8622190952301025, "learning_rate": 0.0002709689576121739, "loss": 4.0501, "step": 98260 }, { "epoch": 0.20472916666666666, "grad_norm": 0.6923192143440247, "learning_rate": 0.00027096312809580907, "loss": 3.9327, "step": 98270 }, { "epoch": 0.20475, "grad_norm": 0.8704793453216553, "learning_rate": 0.0002709572980569313, "loss": 3.9259, "step": 98280 }, { "epoch": 0.20477083333333335, "grad_norm": 0.8065400719642639, "learning_rate": 0.00027095146749556593, "loss": 4.0226, "step": 98290 }, { "epoch": 0.20479166666666668, "grad_norm": 0.7688430547714233, "learning_rate": 0.00027094563641173806, "loss": 3.9895, "step": 98300 }, { "epoch": 0.2048125, "grad_norm": 0.7918058633804321, "learning_rate": 0.00027093980480547296, "loss": 3.7162, "step": 98310 }, { "epoch": 0.20483333333333334, "grad_norm": 0.9288097620010376, "learning_rate": 0.00027093397267679577, "loss": 3.9202, "step": 98320 }, { "epoch": 0.20485416666666667, "grad_norm": 0.7767307162284851, "learning_rate": 0.00027092814002573166, "loss": 3.8106, "step": 98330 }, { "epoch": 0.204875, "grad_norm": 0.7230889201164246, "learning_rate": 0.00027092230685230587, "loss": 3.8489, "step": 98340 }, { "epoch": 0.20489583333333333, "grad_norm": 0.7469038963317871, "learning_rate": 0.0002709164731565436, "loss": 3.7774, "step": 98350 }, { "epoch": 0.20491666666666666, "grad_norm": 0.8063194155693054, "learning_rate": 0.00027091063893846997, "loss": 4.0771, "step": 98360 }, { "epoch": 0.2049375, "grad_norm": 0.7980257868766785, "learning_rate": 0.00027090480419811027, "loss": 3.7864, "step": 98370 }, { "epoch": 0.20495833333333333, "grad_norm": 0.8418265581130981, "learning_rate": 0.00027089896893548967, "loss": 3.8685, "step": 98380 }, { "epoch": 0.20497916666666666, "grad_norm": 0.8272743821144104, "learning_rate": 0.00027089313315063334, "loss": 3.8316, "step": 98390 }, { "epoch": 0.205, "grad_norm": 0.8037554621696472, "learning_rate": 0.0002708872968435666, "loss": 3.9302, "step": 98400 }, { "epoch": 0.20502083333333335, "grad_norm": 0.7613440155982971, "learning_rate": 0.00027088146001431456, "loss": 3.8078, "step": 98410 }, { "epoch": 0.20504166666666668, "grad_norm": 0.6807852387428284, "learning_rate": 0.0002708756226629025, "loss": 3.9171, "step": 98420 }, { "epoch": 0.2050625, "grad_norm": 0.8898691534996033, "learning_rate": 0.0002708697847893555, "loss": 3.9192, "step": 98430 }, { "epoch": 0.20508333333333334, "grad_norm": 1.0383068323135376, "learning_rate": 0.0002708639463936989, "loss": 4.13, "step": 98440 }, { "epoch": 0.20510416666666667, "grad_norm": 0.7596967220306396, "learning_rate": 0.00027085810747595794, "loss": 3.9496, "step": 98450 }, { "epoch": 0.205125, "grad_norm": 0.8368827700614929, "learning_rate": 0.0002708522680361578, "loss": 3.8706, "step": 98460 }, { "epoch": 0.20514583333333333, "grad_norm": 0.8472090363502502, "learning_rate": 0.00027084642807432364, "loss": 3.8723, "step": 98470 }, { "epoch": 0.20516666666666666, "grad_norm": 0.6975506544113159, "learning_rate": 0.0002708405875904808, "loss": 4.0444, "step": 98480 }, { "epoch": 0.2051875, "grad_norm": 0.7413138747215271, "learning_rate": 0.0002708347465846544, "loss": 3.8107, "step": 98490 }, { "epoch": 0.20520833333333333, "grad_norm": 0.8085603713989258, "learning_rate": 0.00027082890505686976, "loss": 3.8597, "step": 98500 }, { "epoch": 0.20522916666666666, "grad_norm": 0.7990094423294067, "learning_rate": 0.00027082306300715213, "loss": 3.9583, "step": 98510 }, { "epoch": 0.20525, "grad_norm": 0.815497636795044, "learning_rate": 0.0002708172204355266, "loss": 3.8412, "step": 98520 }, { "epoch": 0.20527083333333335, "grad_norm": 0.8414531350135803, "learning_rate": 0.0002708113773420185, "loss": 3.9133, "step": 98530 }, { "epoch": 0.20529166666666668, "grad_norm": 0.7307424545288086, "learning_rate": 0.00027080553372665314, "loss": 3.934, "step": 98540 }, { "epoch": 0.2053125, "grad_norm": 0.7242031097412109, "learning_rate": 0.00027079968958945564, "loss": 3.9665, "step": 98550 }, { "epoch": 0.20533333333333334, "grad_norm": 0.6844214797019958, "learning_rate": 0.00027079384493045136, "loss": 4.0102, "step": 98560 }, { "epoch": 0.20535416666666667, "grad_norm": 0.8357396721839905, "learning_rate": 0.0002707879997496654, "loss": 3.9911, "step": 98570 }, { "epoch": 0.205375, "grad_norm": 0.7856284976005554, "learning_rate": 0.00027078215404712316, "loss": 4.0185, "step": 98580 }, { "epoch": 0.20539583333333333, "grad_norm": 0.7562322616577148, "learning_rate": 0.00027077630782284975, "loss": 4.0263, "step": 98590 }, { "epoch": 0.20541666666666666, "grad_norm": 0.7089793086051941, "learning_rate": 0.00027077046107687057, "loss": 3.9613, "step": 98600 }, { "epoch": 0.2054375, "grad_norm": 0.7472154498100281, "learning_rate": 0.00027076461380921076, "loss": 3.9225, "step": 98610 }, { "epoch": 0.20545833333333333, "grad_norm": 0.7424056529998779, "learning_rate": 0.0002707587660198957, "loss": 3.9592, "step": 98620 }, { "epoch": 0.20547916666666666, "grad_norm": 0.8588979244232178, "learning_rate": 0.00027075291770895047, "loss": 4.0654, "step": 98630 }, { "epoch": 0.2055, "grad_norm": 0.8278164267539978, "learning_rate": 0.0002707470688764004, "loss": 3.868, "step": 98640 }, { "epoch": 0.20552083333333335, "grad_norm": 0.8227831125259399, "learning_rate": 0.00027074121952227093, "loss": 3.8261, "step": 98650 }, { "epoch": 0.20554166666666668, "grad_norm": 0.6942715644836426, "learning_rate": 0.00027073536964658713, "loss": 3.9182, "step": 98660 }, { "epoch": 0.2055625, "grad_norm": 0.7321028113365173, "learning_rate": 0.0002707295192493743, "loss": 3.8486, "step": 98670 }, { "epoch": 0.20558333333333334, "grad_norm": 0.7090244293212891, "learning_rate": 0.0002707236683306577, "loss": 3.9105, "step": 98680 }, { "epoch": 0.20560416666666667, "grad_norm": 0.7848743200302124, "learning_rate": 0.0002707178168904627, "loss": 3.7812, "step": 98690 }, { "epoch": 0.205625, "grad_norm": 0.6596819758415222, "learning_rate": 0.00027071196492881445, "loss": 3.9523, "step": 98700 }, { "epoch": 0.20564583333333333, "grad_norm": 0.7594568133354187, "learning_rate": 0.0002707061124457384, "loss": 4.0017, "step": 98710 }, { "epoch": 0.20566666666666666, "grad_norm": 0.7677954435348511, "learning_rate": 0.0002707002594412596, "loss": 4.0189, "step": 98720 }, { "epoch": 0.2056875, "grad_norm": 0.7099378108978271, "learning_rate": 0.00027069440591540354, "loss": 3.9764, "step": 98730 }, { "epoch": 0.20570833333333333, "grad_norm": 0.7382763028144836, "learning_rate": 0.0002706885518681954, "loss": 4.0356, "step": 98740 }, { "epoch": 0.20572916666666666, "grad_norm": 0.7353635430335999, "learning_rate": 0.00027068269729966046, "loss": 3.9533, "step": 98750 }, { "epoch": 0.20575, "grad_norm": 0.8146982192993164, "learning_rate": 0.00027067684220982404, "loss": 3.8992, "step": 98760 }, { "epoch": 0.20577083333333332, "grad_norm": 0.70722496509552, "learning_rate": 0.00027067098659871146, "loss": 3.9481, "step": 98770 }, { "epoch": 0.20579166666666668, "grad_norm": 0.7846710085868835, "learning_rate": 0.00027066513046634797, "loss": 3.9041, "step": 98780 }, { "epoch": 0.2058125, "grad_norm": 0.772275984287262, "learning_rate": 0.0002706592738127589, "loss": 3.8238, "step": 98790 }, { "epoch": 0.20583333333333334, "grad_norm": 0.7178471088409424, "learning_rate": 0.0002706534166379695, "loss": 4.0251, "step": 98800 }, { "epoch": 0.20585416666666667, "grad_norm": 0.6998826861381531, "learning_rate": 0.0002706475589420051, "loss": 4.0017, "step": 98810 }, { "epoch": 0.205875, "grad_norm": 0.7184035778045654, "learning_rate": 0.000270641700724891, "loss": 3.8719, "step": 98820 }, { "epoch": 0.20589583333333333, "grad_norm": 0.7043710350990295, "learning_rate": 0.0002706358419866525, "loss": 3.9978, "step": 98830 }, { "epoch": 0.20591666666666666, "grad_norm": 0.7312883734703064, "learning_rate": 0.00027062998272731493, "loss": 3.8651, "step": 98840 }, { "epoch": 0.2059375, "grad_norm": 0.7845483422279358, "learning_rate": 0.0002706241229469036, "loss": 4.0236, "step": 98850 }, { "epoch": 0.20595833333333333, "grad_norm": 0.838993489742279, "learning_rate": 0.0002706182626454438, "loss": 3.8165, "step": 98860 }, { "epoch": 0.20597916666666666, "grad_norm": 0.7243244051933289, "learning_rate": 0.0002706124018229608, "loss": 4.0019, "step": 98870 }, { "epoch": 0.206, "grad_norm": 0.7149066925048828, "learning_rate": 0.00027060654047948, "loss": 3.9474, "step": 98880 }, { "epoch": 0.20602083333333332, "grad_norm": 0.8560032248497009, "learning_rate": 0.0002706006786150267, "loss": 3.9406, "step": 98890 }, { "epoch": 0.20604166666666668, "grad_norm": 0.7061344385147095, "learning_rate": 0.0002705948162296262, "loss": 3.8974, "step": 98900 }, { "epoch": 0.2060625, "grad_norm": 0.7748035192489624, "learning_rate": 0.0002705889533233038, "loss": 3.9183, "step": 98910 }, { "epoch": 0.20608333333333334, "grad_norm": 0.7170754075050354, "learning_rate": 0.0002705830898960849, "loss": 3.9709, "step": 98920 }, { "epoch": 0.20610416666666667, "grad_norm": 0.9497849345207214, "learning_rate": 0.0002705772259479947, "loss": 3.854, "step": 98930 }, { "epoch": 0.206125, "grad_norm": 0.7901989817619324, "learning_rate": 0.0002705713614790587, "loss": 3.7728, "step": 98940 }, { "epoch": 0.20614583333333333, "grad_norm": 0.696816086769104, "learning_rate": 0.0002705654964893021, "loss": 3.9173, "step": 98950 }, { "epoch": 0.20616666666666666, "grad_norm": 0.8627177476882935, "learning_rate": 0.0002705596309787503, "loss": 4.1863, "step": 98960 }, { "epoch": 0.2061875, "grad_norm": 0.720314085483551, "learning_rate": 0.00027055376494742857, "loss": 3.9828, "step": 98970 }, { "epoch": 0.20620833333333333, "grad_norm": 0.9319507479667664, "learning_rate": 0.00027054789839536233, "loss": 4.0786, "step": 98980 }, { "epoch": 0.20622916666666666, "grad_norm": 0.7610898613929749, "learning_rate": 0.0002705420313225769, "loss": 4.0303, "step": 98990 }, { "epoch": 0.20625, "grad_norm": 0.7480223178863525, "learning_rate": 0.0002705361637290976, "loss": 3.9511, "step": 99000 }, { "epoch": 0.20625, "eval_loss": 4.256772518157959, "eval_runtime": 10.6841, "eval_samples_per_second": 0.936, "eval_steps_per_second": 0.281, "step": 99000 }, { "epoch": 0.20627083333333332, "grad_norm": 0.7145761251449585, "learning_rate": 0.00027053029561494973, "loss": 3.8698, "step": 99010 }, { "epoch": 0.20629166666666668, "grad_norm": 0.8016746640205383, "learning_rate": 0.00027052442698015876, "loss": 3.9707, "step": 99020 }, { "epoch": 0.2063125, "grad_norm": 0.7398425340652466, "learning_rate": 0.00027051855782474996, "loss": 3.7976, "step": 99030 }, { "epoch": 0.20633333333333334, "grad_norm": 0.8325860500335693, "learning_rate": 0.0002705126881487487, "loss": 3.8547, "step": 99040 }, { "epoch": 0.20635416666666667, "grad_norm": 0.7015655636787415, "learning_rate": 0.0002705068179521803, "loss": 3.9988, "step": 99050 }, { "epoch": 0.206375, "grad_norm": 0.7375438213348389, "learning_rate": 0.00027050094723507013, "loss": 3.887, "step": 99060 }, { "epoch": 0.20639583333333333, "grad_norm": 0.7197336554527283, "learning_rate": 0.0002704950759974436, "loss": 4.0264, "step": 99070 }, { "epoch": 0.20641666666666666, "grad_norm": 0.6974433064460754, "learning_rate": 0.00027048920423932603, "loss": 3.7938, "step": 99080 }, { "epoch": 0.2064375, "grad_norm": 0.727984607219696, "learning_rate": 0.0002704833319607428, "loss": 3.9127, "step": 99090 }, { "epoch": 0.20645833333333333, "grad_norm": 0.6545091867446899, "learning_rate": 0.00027047745916171926, "loss": 3.9321, "step": 99100 }, { "epoch": 0.20647916666666666, "grad_norm": 0.7326334118843079, "learning_rate": 0.00027047158584228077, "loss": 3.9295, "step": 99110 }, { "epoch": 0.2065, "grad_norm": 0.995898425579071, "learning_rate": 0.00027046571200245277, "loss": 3.955, "step": 99120 }, { "epoch": 0.20652083333333332, "grad_norm": 0.7142347097396851, "learning_rate": 0.00027045983764226053, "loss": 3.7772, "step": 99130 }, { "epoch": 0.20654166666666668, "grad_norm": 0.9536827206611633, "learning_rate": 0.0002704539627617295, "loss": 4.0604, "step": 99140 }, { "epoch": 0.2065625, "grad_norm": 0.9706093072891235, "learning_rate": 0.000270448087360885, "loss": 3.897, "step": 99150 }, { "epoch": 0.20658333333333334, "grad_norm": 0.8020411729812622, "learning_rate": 0.0002704422114397524, "loss": 3.924, "step": 99160 }, { "epoch": 0.20660416666666667, "grad_norm": 0.7228273153305054, "learning_rate": 0.0002704363349983572, "loss": 3.9452, "step": 99170 }, { "epoch": 0.206625, "grad_norm": 0.7467770576477051, "learning_rate": 0.00027043045803672465, "loss": 3.8599, "step": 99180 }, { "epoch": 0.20664583333333333, "grad_norm": 0.6662198901176453, "learning_rate": 0.0002704245805548802, "loss": 3.9531, "step": 99190 }, { "epoch": 0.20666666666666667, "grad_norm": 0.7636839151382446, "learning_rate": 0.00027041870255284926, "loss": 3.9873, "step": 99200 }, { "epoch": 0.2066875, "grad_norm": 0.8352934718132019, "learning_rate": 0.00027041282403065717, "loss": 3.9992, "step": 99210 }, { "epoch": 0.20670833333333333, "grad_norm": 0.9625530242919922, "learning_rate": 0.00027040694498832934, "loss": 3.9511, "step": 99220 }, { "epoch": 0.20672916666666666, "grad_norm": 0.8624677062034607, "learning_rate": 0.00027040106542589124, "loss": 3.8357, "step": 99230 }, { "epoch": 0.20675, "grad_norm": 0.7134447693824768, "learning_rate": 0.0002703951853433681, "loss": 3.891, "step": 99240 }, { "epoch": 0.20677083333333332, "grad_norm": 0.7797545194625854, "learning_rate": 0.00027038930474078545, "loss": 3.9734, "step": 99250 }, { "epoch": 0.20679166666666668, "grad_norm": 0.7862750887870789, "learning_rate": 0.00027038342361816866, "loss": 4.0491, "step": 99260 }, { "epoch": 0.2068125, "grad_norm": 0.7302650213241577, "learning_rate": 0.0002703775419755431, "loss": 4.1421, "step": 99270 }, { "epoch": 0.20683333333333334, "grad_norm": 0.7886211276054382, "learning_rate": 0.00027037165981293426, "loss": 3.8874, "step": 99280 }, { "epoch": 0.20685416666666667, "grad_norm": 0.7321017384529114, "learning_rate": 0.00027036577713036744, "loss": 4.0311, "step": 99290 }, { "epoch": 0.206875, "grad_norm": 0.664029061794281, "learning_rate": 0.0002703598939278681, "loss": 3.868, "step": 99300 }, { "epoch": 0.20689583333333333, "grad_norm": 0.6837591528892517, "learning_rate": 0.00027035401020546174, "loss": 4.122, "step": 99310 }, { "epoch": 0.20691666666666667, "grad_norm": 0.7312952876091003, "learning_rate": 0.00027034812596317366, "loss": 3.9522, "step": 99320 }, { "epoch": 0.2069375, "grad_norm": 0.8689932823181152, "learning_rate": 0.0002703422412010293, "loss": 4.1706, "step": 99330 }, { "epoch": 0.20695833333333333, "grad_norm": 0.7996540665626526, "learning_rate": 0.0002703363559190541, "loss": 3.8171, "step": 99340 }, { "epoch": 0.20697916666666666, "grad_norm": 0.864711344242096, "learning_rate": 0.00027033047011727345, "loss": 3.9487, "step": 99350 }, { "epoch": 0.207, "grad_norm": 0.8300389647483826, "learning_rate": 0.0002703245837957128, "loss": 4.0347, "step": 99360 }, { "epoch": 0.20702083333333332, "grad_norm": 0.7777196168899536, "learning_rate": 0.00027031869695439765, "loss": 3.8458, "step": 99370 }, { "epoch": 0.20704166666666668, "grad_norm": 0.8874353170394897, "learning_rate": 0.0002703128095933533, "loss": 3.8151, "step": 99380 }, { "epoch": 0.2070625, "grad_norm": 0.852321207523346, "learning_rate": 0.0002703069217126052, "loss": 3.9535, "step": 99390 }, { "epoch": 0.20708333333333334, "grad_norm": 0.7844010591506958, "learning_rate": 0.0002703010333121789, "loss": 3.9026, "step": 99400 }, { "epoch": 0.20710416666666667, "grad_norm": 0.78663170337677, "learning_rate": 0.0002702951443920996, "loss": 3.8403, "step": 99410 }, { "epoch": 0.207125, "grad_norm": 0.6776803731918335, "learning_rate": 0.000270289254952393, "loss": 3.9337, "step": 99420 }, { "epoch": 0.20714583333333333, "grad_norm": 0.7785733938217163, "learning_rate": 0.0002702833649930845, "loss": 3.9292, "step": 99430 }, { "epoch": 0.20716666666666667, "grad_norm": 0.7961976528167725, "learning_rate": 0.0002702774745141994, "loss": 3.6678, "step": 99440 }, { "epoch": 0.2071875, "grad_norm": 0.7589039206504822, "learning_rate": 0.00027027158351576326, "loss": 3.9324, "step": 99450 }, { "epoch": 0.20720833333333333, "grad_norm": 0.7436046004295349, "learning_rate": 0.0002702656919978014, "loss": 4.034, "step": 99460 }, { "epoch": 0.20722916666666666, "grad_norm": 0.7713046669960022, "learning_rate": 0.0002702597999603394, "loss": 3.9752, "step": 99470 }, { "epoch": 0.20725, "grad_norm": 0.7547160983085632, "learning_rate": 0.0002702539074034027, "loss": 3.8981, "step": 99480 }, { "epoch": 0.20727083333333332, "grad_norm": 0.6990825533866882, "learning_rate": 0.0002702480143270167, "loss": 3.8734, "step": 99490 }, { "epoch": 0.20729166666666668, "grad_norm": 1.0489686727523804, "learning_rate": 0.00027024212073120684, "loss": 3.8486, "step": 99500 }, { "epoch": 0.2073125, "grad_norm": 0.8936699032783508, "learning_rate": 0.0002702362266159987, "loss": 3.9086, "step": 99510 }, { "epoch": 0.20733333333333334, "grad_norm": 0.7443354725837708, "learning_rate": 0.00027023033198141756, "loss": 3.8542, "step": 99520 }, { "epoch": 0.20735416666666667, "grad_norm": 0.7970522046089172, "learning_rate": 0.000270224436827489, "loss": 4.0252, "step": 99530 }, { "epoch": 0.207375, "grad_norm": 0.7859051823616028, "learning_rate": 0.0002702185411542385, "loss": 3.8541, "step": 99540 }, { "epoch": 0.20739583333333333, "grad_norm": 0.7349193692207336, "learning_rate": 0.00027021264496169146, "loss": 3.8772, "step": 99550 }, { "epoch": 0.20741666666666667, "grad_norm": 0.8676632642745972, "learning_rate": 0.00027020674824987335, "loss": 4.0154, "step": 99560 }, { "epoch": 0.2074375, "grad_norm": 0.7305377125740051, "learning_rate": 0.00027020085101880974, "loss": 3.6887, "step": 99570 }, { "epoch": 0.20745833333333333, "grad_norm": 0.8315433859825134, "learning_rate": 0.000270194953268526, "loss": 3.9902, "step": 99580 }, { "epoch": 0.20747916666666666, "grad_norm": 0.7022918462753296, "learning_rate": 0.00027018905499904763, "loss": 3.8534, "step": 99590 }, { "epoch": 0.2075, "grad_norm": 0.8246311545372009, "learning_rate": 0.0002701831562104001, "loss": 3.8297, "step": 99600 }, { "epoch": 0.20752083333333332, "grad_norm": 0.6984212398529053, "learning_rate": 0.0002701772569026089, "loss": 3.8181, "step": 99610 }, { "epoch": 0.20754166666666668, "grad_norm": 1.0341120958328247, "learning_rate": 0.00027017135707569956, "loss": 4.0088, "step": 99620 }, { "epoch": 0.2075625, "grad_norm": 0.6557123064994812, "learning_rate": 0.0002701654567296975, "loss": 3.9247, "step": 99630 }, { "epoch": 0.20758333333333334, "grad_norm": 0.7157204151153564, "learning_rate": 0.00027015955586462827, "loss": 4.0549, "step": 99640 }, { "epoch": 0.20760416666666667, "grad_norm": 0.8681158423423767, "learning_rate": 0.0002701536544805173, "loss": 3.9496, "step": 99650 }, { "epoch": 0.207625, "grad_norm": 0.7297716736793518, "learning_rate": 0.00027014775257739004, "loss": 3.7612, "step": 99660 }, { "epoch": 0.20764583333333334, "grad_norm": 0.7475490570068359, "learning_rate": 0.00027014185015527214, "loss": 3.9153, "step": 99670 }, { "epoch": 0.20766666666666667, "grad_norm": 0.731817364692688, "learning_rate": 0.00027013594721418894, "loss": 3.9172, "step": 99680 }, { "epoch": 0.2076875, "grad_norm": 0.7607062458992004, "learning_rate": 0.000270130043754166, "loss": 3.938, "step": 99690 }, { "epoch": 0.20770833333333333, "grad_norm": 0.6940791010856628, "learning_rate": 0.0002701241397752289, "loss": 3.7932, "step": 99700 }, { "epoch": 0.20772916666666666, "grad_norm": 0.8961820602416992, "learning_rate": 0.00027011823527740294, "loss": 3.9808, "step": 99710 }, { "epoch": 0.20775, "grad_norm": 0.7839245200157166, "learning_rate": 0.0002701123302607139, "loss": 3.9306, "step": 99720 }, { "epoch": 0.20777083333333332, "grad_norm": 0.7979865670204163, "learning_rate": 0.000270106424725187, "loss": 3.9324, "step": 99730 }, { "epoch": 0.20779166666666668, "grad_norm": 0.915101945400238, "learning_rate": 0.0002701005186708479, "loss": 3.9982, "step": 99740 }, { "epoch": 0.2078125, "grad_norm": 0.6369365453720093, "learning_rate": 0.0002700946120977222, "loss": 3.9639, "step": 99750 }, { "epoch": 0.20783333333333334, "grad_norm": 0.9562554359436035, "learning_rate": 0.0002700887050058352, "loss": 3.9891, "step": 99760 }, { "epoch": 0.20785416666666667, "grad_norm": 0.7328503131866455, "learning_rate": 0.0002700827973952126, "loss": 3.8668, "step": 99770 }, { "epoch": 0.207875, "grad_norm": 0.756215512752533, "learning_rate": 0.00027007688926587985, "loss": 3.8251, "step": 99780 }, { "epoch": 0.20789583333333334, "grad_norm": 0.8910409808158875, "learning_rate": 0.00027007098061786243, "loss": 3.8036, "step": 99790 }, { "epoch": 0.20791666666666667, "grad_norm": 0.7314499020576477, "learning_rate": 0.00027006507145118595, "loss": 3.8405, "step": 99800 }, { "epoch": 0.2079375, "grad_norm": 0.8136187195777893, "learning_rate": 0.0002700591617658758, "loss": 3.9835, "step": 99810 }, { "epoch": 0.20795833333333333, "grad_norm": 0.7605281472206116, "learning_rate": 0.0002700532515619577, "loss": 3.9367, "step": 99820 }, { "epoch": 0.20797916666666666, "grad_norm": 0.7892848253250122, "learning_rate": 0.000270047340839457, "loss": 3.9309, "step": 99830 }, { "epoch": 0.208, "grad_norm": 0.9768999218940735, "learning_rate": 0.00027004142959839933, "loss": 3.9541, "step": 99840 }, { "epoch": 0.20802083333333332, "grad_norm": 0.7073710560798645, "learning_rate": 0.0002700355178388102, "loss": 4.0636, "step": 99850 }, { "epoch": 0.20804166666666668, "grad_norm": 0.8323172926902771, "learning_rate": 0.0002700296055607152, "loss": 3.9064, "step": 99860 }, { "epoch": 0.2080625, "grad_norm": 0.7948471307754517, "learning_rate": 0.00027002369276413977, "loss": 3.927, "step": 99870 }, { "epoch": 0.20808333333333334, "grad_norm": 0.9191707968711853, "learning_rate": 0.0002700177794491095, "loss": 4.0282, "step": 99880 }, { "epoch": 0.20810416666666667, "grad_norm": 0.7243791222572327, "learning_rate": 0.00027001186561564987, "loss": 3.9953, "step": 99890 }, { "epoch": 0.208125, "grad_norm": 0.7418065667152405, "learning_rate": 0.0002700059512637865, "loss": 3.8674, "step": 99900 }, { "epoch": 0.20814583333333334, "grad_norm": 0.8340119123458862, "learning_rate": 0.000270000036393545, "loss": 4.0167, "step": 99910 }, { "epoch": 0.20816666666666667, "grad_norm": 0.7639809250831604, "learning_rate": 0.00026999412100495076, "loss": 4.0151, "step": 99920 }, { "epoch": 0.2081875, "grad_norm": 0.6915614008903503, "learning_rate": 0.0002699882050980294, "loss": 4.0189, "step": 99930 }, { "epoch": 0.20820833333333333, "grad_norm": 0.7375022172927856, "learning_rate": 0.00026998228867280657, "loss": 3.8826, "step": 99940 }, { "epoch": 0.20822916666666666, "grad_norm": 0.7793653011322021, "learning_rate": 0.0002699763717293077, "loss": 3.9433, "step": 99950 }, { "epoch": 0.20825, "grad_norm": 0.7699088454246521, "learning_rate": 0.00026997045426755843, "loss": 3.9484, "step": 99960 }, { "epoch": 0.20827083333333332, "grad_norm": 0.7179043889045715, "learning_rate": 0.00026996453628758425, "loss": 3.8454, "step": 99970 }, { "epoch": 0.20829166666666668, "grad_norm": 0.9166111946105957, "learning_rate": 0.00026995861778941077, "loss": 3.9953, "step": 99980 }, { "epoch": 0.2083125, "grad_norm": 0.7917600274085999, "learning_rate": 0.00026995269877306356, "loss": 3.9487, "step": 99990 }, { "epoch": 0.20833333333333334, "grad_norm": 0.6542020440101624, "learning_rate": 0.0002699467792385681, "loss": 3.9057, "step": 100000 }, { "epoch": 0.20833333333333334, "eval_loss": 4.271517276763916, "eval_runtime": 10.24, "eval_samples_per_second": 0.977, "eval_steps_per_second": 0.293, "step": 100000 }, { "epoch": 0.20835416666666667, "grad_norm": 1.0828955173492432, "learning_rate": 0.0002699408591859501, "loss": 4.0128, "step": 100010 }, { "epoch": 0.208375, "grad_norm": 0.7887589931488037, "learning_rate": 0.0002699349386152351, "loss": 3.9277, "step": 100020 }, { "epoch": 0.20839583333333334, "grad_norm": 0.8306854367256165, "learning_rate": 0.0002699290175264486, "loss": 3.8462, "step": 100030 }, { "epoch": 0.20841666666666667, "grad_norm": 0.7744120359420776, "learning_rate": 0.0002699230959196162, "loss": 3.7912, "step": 100040 }, { "epoch": 0.2084375, "grad_norm": 0.8196149468421936, "learning_rate": 0.00026991717379476346, "loss": 3.9621, "step": 100050 }, { "epoch": 0.20845833333333333, "grad_norm": 0.9614679217338562, "learning_rate": 0.00026991125115191606, "loss": 3.9956, "step": 100060 }, { "epoch": 0.20847916666666666, "grad_norm": 0.7675607204437256, "learning_rate": 0.00026990532799109953, "loss": 3.8525, "step": 100070 }, { "epoch": 0.2085, "grad_norm": 0.6666399240493774, "learning_rate": 0.00026989940431233934, "loss": 3.9395, "step": 100080 }, { "epoch": 0.20852083333333332, "grad_norm": 0.7078964710235596, "learning_rate": 0.0002698934801156613, "loss": 4.0353, "step": 100090 }, { "epoch": 0.20854166666666665, "grad_norm": 0.7129538059234619, "learning_rate": 0.00026988755540109085, "loss": 3.9099, "step": 100100 }, { "epoch": 0.2085625, "grad_norm": 0.7828505039215088, "learning_rate": 0.00026988163016865356, "loss": 3.9194, "step": 100110 }, { "epoch": 0.20858333333333334, "grad_norm": 0.7264589071273804, "learning_rate": 0.0002698757044183752, "loss": 3.7734, "step": 100120 }, { "epoch": 0.20860416666666667, "grad_norm": 0.7864357829093933, "learning_rate": 0.0002698697781502811, "loss": 3.9147, "step": 100130 }, { "epoch": 0.208625, "grad_norm": 0.7802590727806091, "learning_rate": 0.0002698638513643971, "loss": 3.8665, "step": 100140 }, { "epoch": 0.20864583333333334, "grad_norm": 0.7286370396614075, "learning_rate": 0.0002698579240607487, "loss": 3.9713, "step": 100150 }, { "epoch": 0.20866666666666667, "grad_norm": 0.7840452194213867, "learning_rate": 0.00026985199623936145, "loss": 4.0005, "step": 100160 }, { "epoch": 0.2086875, "grad_norm": 0.7470037937164307, "learning_rate": 0.00026984606790026106, "loss": 4.0358, "step": 100170 }, { "epoch": 0.20870833333333333, "grad_norm": 0.7604383230209351, "learning_rate": 0.0002698401390434731, "loss": 3.9874, "step": 100180 }, { "epoch": 0.20872916666666666, "grad_norm": 0.9223660230636597, "learning_rate": 0.0002698342096690232, "loss": 3.9044, "step": 100190 }, { "epoch": 0.20875, "grad_norm": 0.7254631519317627, "learning_rate": 0.0002698282797769369, "loss": 4.0262, "step": 100200 }, { "epoch": 0.20877083333333332, "grad_norm": 0.7557848691940308, "learning_rate": 0.0002698223493672399, "loss": 3.8807, "step": 100210 }, { "epoch": 0.20879166666666665, "grad_norm": 0.8035601377487183, "learning_rate": 0.00026981641843995774, "loss": 3.8338, "step": 100220 }, { "epoch": 0.2088125, "grad_norm": 0.690593957901001, "learning_rate": 0.0002698104869951161, "loss": 3.7943, "step": 100230 }, { "epoch": 0.20883333333333334, "grad_norm": 0.7185525894165039, "learning_rate": 0.0002698045550327406, "loss": 3.7232, "step": 100240 }, { "epoch": 0.20885416666666667, "grad_norm": 0.7602024078369141, "learning_rate": 0.00026979862255285684, "loss": 3.8471, "step": 100250 }, { "epoch": 0.208875, "grad_norm": 0.8257759809494019, "learning_rate": 0.0002697926895554904, "loss": 3.9443, "step": 100260 }, { "epoch": 0.20889583333333334, "grad_norm": 0.6884680986404419, "learning_rate": 0.00026978675604066697, "loss": 3.7723, "step": 100270 }, { "epoch": 0.20891666666666667, "grad_norm": 0.7183137536048889, "learning_rate": 0.0002697808220084122, "loss": 4.1249, "step": 100280 }, { "epoch": 0.2089375, "grad_norm": 0.7529290914535522, "learning_rate": 0.0002697748874587517, "loss": 3.7536, "step": 100290 }, { "epoch": 0.20895833333333333, "grad_norm": 0.7425618171691895, "learning_rate": 0.00026976895239171105, "loss": 3.9431, "step": 100300 }, { "epoch": 0.20897916666666666, "grad_norm": 0.8318856954574585, "learning_rate": 0.000269763016807316, "loss": 4.0213, "step": 100310 }, { "epoch": 0.209, "grad_norm": 0.8090575933456421, "learning_rate": 0.0002697570807055921, "loss": 3.8451, "step": 100320 }, { "epoch": 0.20902083333333332, "grad_norm": 0.906082034111023, "learning_rate": 0.000269751144086565, "loss": 3.9551, "step": 100330 }, { "epoch": 0.20904166666666665, "grad_norm": 0.7665221691131592, "learning_rate": 0.0002697452069502603, "loss": 3.9767, "step": 100340 }, { "epoch": 0.2090625, "grad_norm": 0.6740334630012512, "learning_rate": 0.00026973926929670377, "loss": 3.9988, "step": 100350 }, { "epoch": 0.20908333333333334, "grad_norm": 0.7616051435470581, "learning_rate": 0.00026973333112592104, "loss": 3.8608, "step": 100360 }, { "epoch": 0.20910416666666667, "grad_norm": 0.7959082722663879, "learning_rate": 0.00026972739243793766, "loss": 3.6754, "step": 100370 }, { "epoch": 0.209125, "grad_norm": 0.7682712078094482, "learning_rate": 0.00026972145323277927, "loss": 4.0071, "step": 100380 }, { "epoch": 0.20914583333333334, "grad_norm": 0.7272965312004089, "learning_rate": 0.0002697155135104717, "loss": 3.8289, "step": 100390 }, { "epoch": 0.20916666666666667, "grad_norm": 0.7779249548912048, "learning_rate": 0.0002697095732710404, "loss": 3.8347, "step": 100400 }, { "epoch": 0.2091875, "grad_norm": 0.8291679620742798, "learning_rate": 0.00026970363251451124, "loss": 3.9626, "step": 100410 }, { "epoch": 0.20920833333333333, "grad_norm": 0.7357811331748962, "learning_rate": 0.00026969769124090973, "loss": 3.7216, "step": 100420 }, { "epoch": 0.20922916666666666, "grad_norm": 0.734731912612915, "learning_rate": 0.0002696917494502615, "loss": 3.8712, "step": 100430 }, { "epoch": 0.20925, "grad_norm": 0.7748503088951111, "learning_rate": 0.0002696858071425924, "loss": 3.9399, "step": 100440 }, { "epoch": 0.20927083333333332, "grad_norm": 0.7709073424339294, "learning_rate": 0.00026967986431792793, "loss": 3.9281, "step": 100450 }, { "epoch": 0.20929166666666665, "grad_norm": 0.7457091212272644, "learning_rate": 0.0002696739209762938, "loss": 3.9381, "step": 100460 }, { "epoch": 0.2093125, "grad_norm": 0.7326961755752563, "learning_rate": 0.00026966797711771575, "loss": 3.9665, "step": 100470 }, { "epoch": 0.20933333333333334, "grad_norm": 0.7713673710823059, "learning_rate": 0.00026966203274221936, "loss": 4.0613, "step": 100480 }, { "epoch": 0.20935416666666667, "grad_norm": 0.7172417640686035, "learning_rate": 0.0002696560878498304, "loss": 3.8364, "step": 100490 }, { "epoch": 0.209375, "grad_norm": 0.6862996220588684, "learning_rate": 0.00026965014244057444, "loss": 3.9679, "step": 100500 }, { "epoch": 0.20939583333333334, "grad_norm": 0.7821856737136841, "learning_rate": 0.00026964419651447725, "loss": 3.9259, "step": 100510 }, { "epoch": 0.20941666666666667, "grad_norm": 0.6646330952644348, "learning_rate": 0.0002696382500715645, "loss": 3.897, "step": 100520 }, { "epoch": 0.2094375, "grad_norm": 0.906822144985199, "learning_rate": 0.0002696323031118619, "loss": 3.8748, "step": 100530 }, { "epoch": 0.20945833333333333, "grad_norm": 1.0426373481750488, "learning_rate": 0.00026962635563539507, "loss": 3.9749, "step": 100540 }, { "epoch": 0.20947916666666666, "grad_norm": 0.754717230796814, "learning_rate": 0.00026962040764218974, "loss": 3.79, "step": 100550 }, { "epoch": 0.2095, "grad_norm": 0.6997254490852356, "learning_rate": 0.00026961445913227164, "loss": 4.051, "step": 100560 }, { "epoch": 0.20952083333333332, "grad_norm": 0.8067952394485474, "learning_rate": 0.0002696085101056664, "loss": 3.9121, "step": 100570 }, { "epoch": 0.20954166666666665, "grad_norm": 0.7852560877799988, "learning_rate": 0.00026960256056239964, "loss": 3.8683, "step": 100580 }, { "epoch": 0.2095625, "grad_norm": 0.8277136087417603, "learning_rate": 0.0002695966105024973, "loss": 4.0107, "step": 100590 }, { "epoch": 0.20958333333333334, "grad_norm": 0.8291253447532654, "learning_rate": 0.00026959065992598484, "loss": 4.0464, "step": 100600 }, { "epoch": 0.20960416666666667, "grad_norm": 0.7416697144508362, "learning_rate": 0.0002695847088328881, "loss": 3.8658, "step": 100610 }, { "epoch": 0.209625, "grad_norm": 0.7298949360847473, "learning_rate": 0.00026957875722323277, "loss": 3.9691, "step": 100620 }, { "epoch": 0.20964583333333334, "grad_norm": 0.7824665904045105, "learning_rate": 0.0002695728050970445, "loss": 3.9395, "step": 100630 }, { "epoch": 0.20966666666666667, "grad_norm": 0.7905336022377014, "learning_rate": 0.00026956685245434913, "loss": 3.9125, "step": 100640 }, { "epoch": 0.2096875, "grad_norm": 0.7508228421211243, "learning_rate": 0.0002695608992951722, "loss": 4.1603, "step": 100650 }, { "epoch": 0.20970833333333333, "grad_norm": 0.7187749743461609, "learning_rate": 0.00026955494561953957, "loss": 4.0474, "step": 100660 }, { "epoch": 0.20972916666666666, "grad_norm": 0.8792694807052612, "learning_rate": 0.00026954899142747683, "loss": 3.9919, "step": 100670 }, { "epoch": 0.20975, "grad_norm": 0.7819789052009583, "learning_rate": 0.00026954303671900985, "loss": 3.8618, "step": 100680 }, { "epoch": 0.20977083333333332, "grad_norm": 0.9502438902854919, "learning_rate": 0.0002695370814941642, "loss": 4.0189, "step": 100690 }, { "epoch": 0.20979166666666665, "grad_norm": 0.691494882106781, "learning_rate": 0.0002695311257529657, "loss": 4.2064, "step": 100700 }, { "epoch": 0.2098125, "grad_norm": 0.7997622489929199, "learning_rate": 0.00026952516949544004, "loss": 4.0938, "step": 100710 }, { "epoch": 0.20983333333333334, "grad_norm": 0.794265627861023, "learning_rate": 0.00026951921272161297, "loss": 3.9638, "step": 100720 }, { "epoch": 0.20985416666666667, "grad_norm": 0.72667396068573, "learning_rate": 0.00026951325543151023, "loss": 3.9497, "step": 100730 }, { "epoch": 0.209875, "grad_norm": 0.8311936259269714, "learning_rate": 0.0002695072976251575, "loss": 3.922, "step": 100740 }, { "epoch": 0.20989583333333334, "grad_norm": 1.1751930713653564, "learning_rate": 0.00026950133930258056, "loss": 4.0144, "step": 100750 }, { "epoch": 0.20991666666666667, "grad_norm": 0.7665546536445618, "learning_rate": 0.0002694953804638052, "loss": 3.9702, "step": 100760 }, { "epoch": 0.2099375, "grad_norm": 0.7720737457275391, "learning_rate": 0.00026948942110885697, "loss": 3.886, "step": 100770 }, { "epoch": 0.20995833333333333, "grad_norm": 0.8131123781204224, "learning_rate": 0.0002694834612377618, "loss": 3.7739, "step": 100780 }, { "epoch": 0.20997916666666666, "grad_norm": 0.7736006379127502, "learning_rate": 0.0002694775008505454, "loss": 3.9595, "step": 100790 }, { "epoch": 0.21, "grad_norm": 0.7683284878730774, "learning_rate": 0.0002694715399472335, "loss": 3.937, "step": 100800 }, { "epoch": 0.21002083333333332, "grad_norm": 0.7940028309822083, "learning_rate": 0.00026946557852785175, "loss": 3.7637, "step": 100810 }, { "epoch": 0.21004166666666665, "grad_norm": 0.7502275705337524, "learning_rate": 0.00026945961659242604, "loss": 4.0259, "step": 100820 }, { "epoch": 0.2100625, "grad_norm": 0.8072684407234192, "learning_rate": 0.00026945365414098206, "loss": 3.8897, "step": 100830 }, { "epoch": 0.21008333333333334, "grad_norm": 0.8077104091644287, "learning_rate": 0.0002694476911735456, "loss": 4.2664, "step": 100840 }, { "epoch": 0.21010416666666668, "grad_norm": 0.7347311973571777, "learning_rate": 0.0002694417276901424, "loss": 3.9618, "step": 100850 }, { "epoch": 0.210125, "grad_norm": 0.7142252326011658, "learning_rate": 0.00026943576369079815, "loss": 3.7406, "step": 100860 }, { "epoch": 0.21014583333333334, "grad_norm": 1.0674288272857666, "learning_rate": 0.00026942979917553875, "loss": 3.8193, "step": 100870 }, { "epoch": 0.21016666666666667, "grad_norm": 1.098987102508545, "learning_rate": 0.00026942383414438987, "loss": 3.923, "step": 100880 }, { "epoch": 0.2101875, "grad_norm": 0.7651236653327942, "learning_rate": 0.00026941786859737733, "loss": 4.0019, "step": 100890 }, { "epoch": 0.21020833333333333, "grad_norm": 0.727094292640686, "learning_rate": 0.0002694119025345268, "loss": 3.9892, "step": 100900 }, { "epoch": 0.21022916666666666, "grad_norm": 0.7321663498878479, "learning_rate": 0.00026940593595586415, "loss": 3.9087, "step": 100910 }, { "epoch": 0.21025, "grad_norm": 0.7765200138092041, "learning_rate": 0.0002693999688614151, "loss": 3.9409, "step": 100920 }, { "epoch": 0.21027083333333332, "grad_norm": 0.8324688673019409, "learning_rate": 0.00026939400125120547, "loss": 3.9192, "step": 100930 }, { "epoch": 0.21029166666666665, "grad_norm": 0.7404791712760925, "learning_rate": 0.000269388033125261, "loss": 3.8032, "step": 100940 }, { "epoch": 0.2103125, "grad_norm": 0.7649177312850952, "learning_rate": 0.0002693820644836075, "loss": 3.7753, "step": 100950 }, { "epoch": 0.21033333333333334, "grad_norm": 0.6972590088844299, "learning_rate": 0.00026937609532627074, "loss": 3.8639, "step": 100960 }, { "epoch": 0.21035416666666668, "grad_norm": 0.8903745412826538, "learning_rate": 0.00026937012565327647, "loss": 3.8775, "step": 100970 }, { "epoch": 0.210375, "grad_norm": 0.7859228849411011, "learning_rate": 0.00026936415546465056, "loss": 3.8872, "step": 100980 }, { "epoch": 0.21039583333333334, "grad_norm": 0.6667293310165405, "learning_rate": 0.0002693581847604187, "loss": 3.7461, "step": 100990 }, { "epoch": 0.21041666666666667, "grad_norm": 0.7079753875732422, "learning_rate": 0.00026935221354060674, "loss": 3.9731, "step": 101000 }, { "epoch": 0.21041666666666667, "eval_loss": 4.2596330642700195, "eval_runtime": 9.2584, "eval_samples_per_second": 1.08, "eval_steps_per_second": 0.324, "step": 101000 }, { "epoch": 0.2104375, "grad_norm": 0.7572210431098938, "learning_rate": 0.0002693462418052405, "loss": 3.8059, "step": 101010 }, { "epoch": 0.21045833333333333, "grad_norm": 0.6829994916915894, "learning_rate": 0.00026934026955434566, "loss": 3.9567, "step": 101020 }, { "epoch": 0.21047916666666666, "grad_norm": 0.7596521973609924, "learning_rate": 0.00026933429678794815, "loss": 3.9586, "step": 101030 }, { "epoch": 0.2105, "grad_norm": 0.965099036693573, "learning_rate": 0.00026932832350607365, "loss": 4.0766, "step": 101040 }, { "epoch": 0.21052083333333332, "grad_norm": 0.7780905961990356, "learning_rate": 0.0002693223497087481, "loss": 4.0123, "step": 101050 }, { "epoch": 0.21054166666666665, "grad_norm": 0.7070611715316772, "learning_rate": 0.00026931637539599724, "loss": 3.868, "step": 101060 }, { "epoch": 0.2105625, "grad_norm": 0.7427692413330078, "learning_rate": 0.0002693104005678468, "loss": 3.8343, "step": 101070 }, { "epoch": 0.21058333333333334, "grad_norm": 0.9417982697486877, "learning_rate": 0.00026930442522432265, "loss": 4.0149, "step": 101080 }, { "epoch": 0.21060416666666668, "grad_norm": 0.8123637437820435, "learning_rate": 0.0002692984493654507, "loss": 3.9279, "step": 101090 }, { "epoch": 0.210625, "grad_norm": 0.7978792190551758, "learning_rate": 0.0002692924729912566, "loss": 3.996, "step": 101100 }, { "epoch": 0.21064583333333334, "grad_norm": 0.7046129107475281, "learning_rate": 0.0002692864961017662, "loss": 3.8943, "step": 101110 }, { "epoch": 0.21066666666666667, "grad_norm": 0.9492311477661133, "learning_rate": 0.00026928051869700543, "loss": 3.9427, "step": 101120 }, { "epoch": 0.2106875, "grad_norm": 0.7446462512016296, "learning_rate": 0.00026927454077699996, "loss": 3.987, "step": 101130 }, { "epoch": 0.21070833333333333, "grad_norm": 0.7630727291107178, "learning_rate": 0.00026926856234177576, "loss": 3.9315, "step": 101140 }, { "epoch": 0.21072916666666666, "grad_norm": 0.7730732560157776, "learning_rate": 0.00026926258339135854, "loss": 3.8829, "step": 101150 }, { "epoch": 0.21075, "grad_norm": 0.7772974371910095, "learning_rate": 0.0002692566039257742, "loss": 3.8147, "step": 101160 }, { "epoch": 0.21077083333333332, "grad_norm": 0.8188722133636475, "learning_rate": 0.00026925062394504847, "loss": 3.833, "step": 101170 }, { "epoch": 0.21079166666666665, "grad_norm": 0.7402281165122986, "learning_rate": 0.0002692446434492073, "loss": 3.8346, "step": 101180 }, { "epoch": 0.2108125, "grad_norm": 0.8557885885238647, "learning_rate": 0.0002692386624382765, "loss": 3.9747, "step": 101190 }, { "epoch": 0.21083333333333334, "grad_norm": 0.8117541670799255, "learning_rate": 0.0002692326809122818, "loss": 3.8675, "step": 101200 }, { "epoch": 0.21085416666666668, "grad_norm": 0.7949894070625305, "learning_rate": 0.00026922669887124913, "loss": 3.8146, "step": 101210 }, { "epoch": 0.210875, "grad_norm": 0.7698141932487488, "learning_rate": 0.0002692207163152044, "loss": 3.9943, "step": 101220 }, { "epoch": 0.21089583333333334, "grad_norm": 0.8617931604385376, "learning_rate": 0.00026921473324417327, "loss": 3.9423, "step": 101230 }, { "epoch": 0.21091666666666667, "grad_norm": 0.7801691293716431, "learning_rate": 0.0002692087496581817, "loss": 3.9933, "step": 101240 }, { "epoch": 0.2109375, "grad_norm": 0.7268981337547302, "learning_rate": 0.0002692027655572555, "loss": 3.9493, "step": 101250 }, { "epoch": 0.21095833333333333, "grad_norm": 0.8417555093765259, "learning_rate": 0.0002691967809414206, "loss": 3.9974, "step": 101260 }, { "epoch": 0.21097916666666666, "grad_norm": 0.7841132283210754, "learning_rate": 0.00026919079581070275, "loss": 4.0388, "step": 101270 }, { "epoch": 0.211, "grad_norm": 0.7825107574462891, "learning_rate": 0.00026918481016512786, "loss": 3.8295, "step": 101280 }, { "epoch": 0.21102083333333332, "grad_norm": 0.9452253580093384, "learning_rate": 0.00026917882400472173, "loss": 4.0078, "step": 101290 }, { "epoch": 0.21104166666666666, "grad_norm": 0.773239016532898, "learning_rate": 0.00026917283732951034, "loss": 3.8739, "step": 101300 }, { "epoch": 0.2110625, "grad_norm": 0.7082853317260742, "learning_rate": 0.0002691668501395194, "loss": 3.8803, "step": 101310 }, { "epoch": 0.21108333333333335, "grad_norm": 0.8155280947685242, "learning_rate": 0.00026916086243477475, "loss": 4.1947, "step": 101320 }, { "epoch": 0.21110416666666668, "grad_norm": 0.6907743811607361, "learning_rate": 0.0002691548742153025, "loss": 3.8008, "step": 101330 }, { "epoch": 0.211125, "grad_norm": 0.8461233377456665, "learning_rate": 0.00026914888548112823, "loss": 4.0174, "step": 101340 }, { "epoch": 0.21114583333333334, "grad_norm": 0.9016892910003662, "learning_rate": 0.000269142896232278, "loss": 4.026, "step": 101350 }, { "epoch": 0.21116666666666667, "grad_norm": 0.736811101436615, "learning_rate": 0.00026913690646877765, "loss": 3.9046, "step": 101360 }, { "epoch": 0.2111875, "grad_norm": 0.8122937083244324, "learning_rate": 0.000269130916190653, "loss": 3.9382, "step": 101370 }, { "epoch": 0.21120833333333333, "grad_norm": 0.7200863361358643, "learning_rate": 0.00026912492539792987, "loss": 3.7608, "step": 101380 }, { "epoch": 0.21122916666666666, "grad_norm": 0.6763854026794434, "learning_rate": 0.0002691189340906343, "loss": 3.9085, "step": 101390 }, { "epoch": 0.21125, "grad_norm": 0.6256564855575562, "learning_rate": 0.0002691129422687921, "loss": 3.8341, "step": 101400 }, { "epoch": 0.21127083333333332, "grad_norm": 0.7168192863464355, "learning_rate": 0.00026910694993242907, "loss": 3.7341, "step": 101410 }, { "epoch": 0.21129166666666666, "grad_norm": 0.773725688457489, "learning_rate": 0.0002691009570815712, "loss": 3.9621, "step": 101420 }, { "epoch": 0.2113125, "grad_norm": 0.7964165806770325, "learning_rate": 0.00026909496371624433, "loss": 3.7952, "step": 101430 }, { "epoch": 0.21133333333333335, "grad_norm": 0.7489926815032959, "learning_rate": 0.0002690889698364744, "loss": 4.0362, "step": 101440 }, { "epoch": 0.21135416666666668, "grad_norm": 0.6828926205635071, "learning_rate": 0.0002690829754422872, "loss": 3.98, "step": 101450 }, { "epoch": 0.211375, "grad_norm": 0.7501125335693359, "learning_rate": 0.0002690769805337086, "loss": 3.8035, "step": 101460 }, { "epoch": 0.21139583333333334, "grad_norm": 0.7287818789482117, "learning_rate": 0.00026907098511076477, "loss": 3.9405, "step": 101470 }, { "epoch": 0.21141666666666667, "grad_norm": 0.8872655630111694, "learning_rate": 0.0002690649891734813, "loss": 3.9516, "step": 101480 }, { "epoch": 0.2114375, "grad_norm": 0.8197237849235535, "learning_rate": 0.0002690589927218842, "loss": 3.8783, "step": 101490 }, { "epoch": 0.21145833333333333, "grad_norm": 0.727516233921051, "learning_rate": 0.00026905299575599945, "loss": 3.7657, "step": 101500 }, { "epoch": 0.21147916666666666, "grad_norm": 0.7150389552116394, "learning_rate": 0.0002690469982758528, "loss": 4.0368, "step": 101510 }, { "epoch": 0.2115, "grad_norm": 0.7241448163986206, "learning_rate": 0.0002690410002814703, "loss": 4.0007, "step": 101520 }, { "epoch": 0.21152083333333332, "grad_norm": 0.7516583800315857, "learning_rate": 0.0002690350017728778, "loss": 3.7458, "step": 101530 }, { "epoch": 0.21154166666666666, "grad_norm": 0.6799235939979553, "learning_rate": 0.0002690290027501012, "loss": 4.0149, "step": 101540 }, { "epoch": 0.2115625, "grad_norm": 0.8281518220901489, "learning_rate": 0.0002690230032131664, "loss": 4.0347, "step": 101550 }, { "epoch": 0.21158333333333335, "grad_norm": 0.7532950043678284, "learning_rate": 0.00026901700316209936, "loss": 4.0255, "step": 101560 }, { "epoch": 0.21160416666666668, "grad_norm": 0.87919020652771, "learning_rate": 0.0002690110025969259, "loss": 3.9045, "step": 101570 }, { "epoch": 0.211625, "grad_norm": 0.7727704644203186, "learning_rate": 0.00026900500151767217, "loss": 3.8065, "step": 101580 }, { "epoch": 0.21164583333333334, "grad_norm": 0.7319427728652954, "learning_rate": 0.0002689989999243638, "loss": 3.9018, "step": 101590 }, { "epoch": 0.21166666666666667, "grad_norm": 0.8042263984680176, "learning_rate": 0.00026899299781702694, "loss": 3.9037, "step": 101600 }, { "epoch": 0.2116875, "grad_norm": 0.785496711730957, "learning_rate": 0.0002689869951956874, "loss": 3.9505, "step": 101610 }, { "epoch": 0.21170833333333333, "grad_norm": 0.7060412764549255, "learning_rate": 0.0002689809920603711, "loss": 3.8536, "step": 101620 }, { "epoch": 0.21172916666666666, "grad_norm": 0.8036321997642517, "learning_rate": 0.00026897498841110405, "loss": 3.8078, "step": 101630 }, { "epoch": 0.21175, "grad_norm": 0.7490014433860779, "learning_rate": 0.00026896898424791214, "loss": 3.8779, "step": 101640 }, { "epoch": 0.21177083333333332, "grad_norm": 0.7449133992195129, "learning_rate": 0.00026896297957082135, "loss": 4.0354, "step": 101650 }, { "epoch": 0.21179166666666666, "grad_norm": 0.7575647830963135, "learning_rate": 0.0002689569743798575, "loss": 3.8706, "step": 101660 }, { "epoch": 0.2118125, "grad_norm": 0.6808041334152222, "learning_rate": 0.00026895096867504665, "loss": 3.776, "step": 101670 }, { "epoch": 0.21183333333333335, "grad_norm": 0.705390214920044, "learning_rate": 0.0002689449624564147, "loss": 3.8117, "step": 101680 }, { "epoch": 0.21185416666666668, "grad_norm": 0.7704113125801086, "learning_rate": 0.0002689389557239876, "loss": 3.7795, "step": 101690 }, { "epoch": 0.211875, "grad_norm": 0.8617448806762695, "learning_rate": 0.00026893294847779125, "loss": 3.8507, "step": 101700 }, { "epoch": 0.21189583333333334, "grad_norm": 0.9044981002807617, "learning_rate": 0.00026892694071785166, "loss": 4.0114, "step": 101710 }, { "epoch": 0.21191666666666667, "grad_norm": 0.8212941288948059, "learning_rate": 0.0002689209324441948, "loss": 4.0032, "step": 101720 }, { "epoch": 0.2119375, "grad_norm": 0.917941153049469, "learning_rate": 0.0002689149236568465, "loss": 3.9251, "step": 101730 }, { "epoch": 0.21195833333333333, "grad_norm": 0.7857261896133423, "learning_rate": 0.00026890891435583285, "loss": 3.8619, "step": 101740 }, { "epoch": 0.21197916666666666, "grad_norm": 1.1743850708007812, "learning_rate": 0.00026890290454117976, "loss": 3.992, "step": 101750 }, { "epoch": 0.212, "grad_norm": 0.8144389390945435, "learning_rate": 0.0002688968942129132, "loss": 4.0246, "step": 101760 }, { "epoch": 0.21202083333333333, "grad_norm": 0.827150821685791, "learning_rate": 0.0002688908833710591, "loss": 4.0306, "step": 101770 }, { "epoch": 0.21204166666666666, "grad_norm": 0.7052580118179321, "learning_rate": 0.00026888487201564345, "loss": 3.9917, "step": 101780 }, { "epoch": 0.2120625, "grad_norm": 0.8677448630332947, "learning_rate": 0.0002688788601466922, "loss": 3.9206, "step": 101790 }, { "epoch": 0.21208333333333335, "grad_norm": 0.6731429696083069, "learning_rate": 0.00026887284776423134, "loss": 3.8156, "step": 101800 }, { "epoch": 0.21210416666666668, "grad_norm": 0.8419640064239502, "learning_rate": 0.00026886683486828685, "loss": 3.755, "step": 101810 }, { "epoch": 0.212125, "grad_norm": 0.8198195099830627, "learning_rate": 0.00026886082145888464, "loss": 3.8881, "step": 101820 }, { "epoch": 0.21214583333333334, "grad_norm": 0.8400870561599731, "learning_rate": 0.0002688548075360508, "loss": 3.9401, "step": 101830 }, { "epoch": 0.21216666666666667, "grad_norm": 0.7324418425559998, "learning_rate": 0.00026884879309981116, "loss": 4.0222, "step": 101840 }, { "epoch": 0.2121875, "grad_norm": 0.7792113423347473, "learning_rate": 0.00026884277815019184, "loss": 4.0837, "step": 101850 }, { "epoch": 0.21220833333333333, "grad_norm": 0.8094585537910461, "learning_rate": 0.0002688367626872187, "loss": 3.8978, "step": 101860 }, { "epoch": 0.21222916666666666, "grad_norm": 0.6523857712745667, "learning_rate": 0.00026883074671091783, "loss": 3.9772, "step": 101870 }, { "epoch": 0.21225, "grad_norm": 0.7404894232749939, "learning_rate": 0.00026882473022131514, "loss": 3.9345, "step": 101880 }, { "epoch": 0.21227083333333333, "grad_norm": 0.7448127269744873, "learning_rate": 0.00026881871321843666, "loss": 3.9813, "step": 101890 }, { "epoch": 0.21229166666666666, "grad_norm": 0.8063109517097473, "learning_rate": 0.00026881269570230837, "loss": 3.8895, "step": 101900 }, { "epoch": 0.2123125, "grad_norm": 0.7606075406074524, "learning_rate": 0.0002688066776729563, "loss": 3.9711, "step": 101910 }, { "epoch": 0.21233333333333335, "grad_norm": 0.7763221263885498, "learning_rate": 0.0002688006591304063, "loss": 3.7966, "step": 101920 }, { "epoch": 0.21235416666666668, "grad_norm": 0.9131444692611694, "learning_rate": 0.00026879464007468465, "loss": 3.9333, "step": 101930 }, { "epoch": 0.212375, "grad_norm": 0.7246547937393188, "learning_rate": 0.00026878862050581703, "loss": 3.6485, "step": 101940 }, { "epoch": 0.21239583333333334, "grad_norm": 0.8146539926528931, "learning_rate": 0.00026878260042382965, "loss": 4.0253, "step": 101950 }, { "epoch": 0.21241666666666667, "grad_norm": 0.7101246118545532, "learning_rate": 0.0002687765798287484, "loss": 3.8005, "step": 101960 }, { "epoch": 0.2124375, "grad_norm": 0.7135463953018188, "learning_rate": 0.0002687705587205994, "loss": 3.9231, "step": 101970 }, { "epoch": 0.21245833333333333, "grad_norm": 0.7801119089126587, "learning_rate": 0.00026876453709940857, "loss": 3.8731, "step": 101980 }, { "epoch": 0.21247916666666666, "grad_norm": 0.7425222992897034, "learning_rate": 0.000268758514965202, "loss": 4.0029, "step": 101990 }, { "epoch": 0.2125, "grad_norm": 0.7243941426277161, "learning_rate": 0.0002687524923180056, "loss": 3.9541, "step": 102000 }, { "epoch": 0.2125, "eval_loss": 4.257933139801025, "eval_runtime": 10.5741, "eval_samples_per_second": 0.946, "eval_steps_per_second": 0.284, "step": 102000 }, { "epoch": 0.21252083333333333, "grad_norm": 0.7978315949440002, "learning_rate": 0.0002687464691578455, "loss": 3.92, "step": 102010 }, { "epoch": 0.21254166666666666, "grad_norm": 0.681343138217926, "learning_rate": 0.00026874044548474757, "loss": 4.0246, "step": 102020 }, { "epoch": 0.2125625, "grad_norm": 0.7588603496551514, "learning_rate": 0.000268734421298738, "loss": 3.916, "step": 102030 }, { "epoch": 0.21258333333333335, "grad_norm": 0.8589641451835632, "learning_rate": 0.0002687283965998426, "loss": 4.0735, "step": 102040 }, { "epoch": 0.21260416666666668, "grad_norm": 0.7631565928459167, "learning_rate": 0.00026872237138808765, "loss": 4.1029, "step": 102050 }, { "epoch": 0.212625, "grad_norm": 0.8590434789657593, "learning_rate": 0.000268716345663499, "loss": 3.9569, "step": 102060 }, { "epoch": 0.21264583333333334, "grad_norm": 0.838293731212616, "learning_rate": 0.0002687103194261028, "loss": 4.0072, "step": 102070 }, { "epoch": 0.21266666666666667, "grad_norm": 0.7529684901237488, "learning_rate": 0.00026870429267592487, "loss": 3.817, "step": 102080 }, { "epoch": 0.2126875, "grad_norm": 0.7946373224258423, "learning_rate": 0.00026869826541299144, "loss": 3.8726, "step": 102090 }, { "epoch": 0.21270833333333333, "grad_norm": 0.9467531442642212, "learning_rate": 0.00026869223763732855, "loss": 3.9858, "step": 102100 }, { "epoch": 0.21272916666666666, "grad_norm": 0.7930809855461121, "learning_rate": 0.0002686862093489621, "loss": 3.9987, "step": 102110 }, { "epoch": 0.21275, "grad_norm": 0.761275589466095, "learning_rate": 0.00026868018054791823, "loss": 4.1218, "step": 102120 }, { "epoch": 0.21277083333333333, "grad_norm": 0.7149988412857056, "learning_rate": 0.000268674151234223, "loss": 4.0132, "step": 102130 }, { "epoch": 0.21279166666666666, "grad_norm": 0.8866239190101624, "learning_rate": 0.00026866812140790235, "loss": 4.0156, "step": 102140 }, { "epoch": 0.2128125, "grad_norm": 0.7645127773284912, "learning_rate": 0.00026866209106898246, "loss": 3.8962, "step": 102150 }, { "epoch": 0.21283333333333335, "grad_norm": 0.7490736246109009, "learning_rate": 0.0002686560602174892, "loss": 3.9405, "step": 102160 }, { "epoch": 0.21285416666666668, "grad_norm": 0.7333042621612549, "learning_rate": 0.0002686500288534488, "loss": 3.8867, "step": 102170 }, { "epoch": 0.212875, "grad_norm": 0.7217627167701721, "learning_rate": 0.0002686439969768872, "loss": 3.927, "step": 102180 }, { "epoch": 0.21289583333333334, "grad_norm": 0.7511118054389954, "learning_rate": 0.00026863796458783057, "loss": 3.8395, "step": 102190 }, { "epoch": 0.21291666666666667, "grad_norm": 0.76315838098526, "learning_rate": 0.0002686319316863048, "loss": 4.1199, "step": 102200 }, { "epoch": 0.2129375, "grad_norm": 0.873668909072876, "learning_rate": 0.0002686258982723361, "loss": 3.9224, "step": 102210 }, { "epoch": 0.21295833333333333, "grad_norm": 0.6979446411132812, "learning_rate": 0.00026861986434595044, "loss": 3.9083, "step": 102220 }, { "epoch": 0.21297916666666666, "grad_norm": 0.7413837909698486, "learning_rate": 0.00026861382990717397, "loss": 3.8842, "step": 102230 }, { "epoch": 0.213, "grad_norm": 0.7603200674057007, "learning_rate": 0.00026860779495603267, "loss": 3.8725, "step": 102240 }, { "epoch": 0.21302083333333333, "grad_norm": 0.8010658025741577, "learning_rate": 0.0002686017594925526, "loss": 3.8885, "step": 102250 }, { "epoch": 0.21304166666666666, "grad_norm": 0.8114608526229858, "learning_rate": 0.00026859572351675996, "loss": 4.0786, "step": 102260 }, { "epoch": 0.2130625, "grad_norm": 0.7454273104667664, "learning_rate": 0.0002685896870286807, "loss": 3.8122, "step": 102270 }, { "epoch": 0.21308333333333335, "grad_norm": 0.7505452632904053, "learning_rate": 0.00026858365002834097, "loss": 3.8651, "step": 102280 }, { "epoch": 0.21310416666666668, "grad_norm": 0.6873261332511902, "learning_rate": 0.0002685776125157667, "loss": 3.869, "step": 102290 }, { "epoch": 0.213125, "grad_norm": 0.7360709309577942, "learning_rate": 0.0002685715744909842, "loss": 3.8295, "step": 102300 }, { "epoch": 0.21314583333333334, "grad_norm": 0.7566107511520386, "learning_rate": 0.00026856553595401935, "loss": 3.956, "step": 102310 }, { "epoch": 0.21316666666666667, "grad_norm": 0.7553548216819763, "learning_rate": 0.0002685594969048984, "loss": 3.989, "step": 102320 }, { "epoch": 0.2131875, "grad_norm": 0.7375275492668152, "learning_rate": 0.00026855345734364726, "loss": 3.9449, "step": 102330 }, { "epoch": 0.21320833333333333, "grad_norm": 0.9017612338066101, "learning_rate": 0.0002685474172702922, "loss": 3.8942, "step": 102340 }, { "epoch": 0.21322916666666666, "grad_norm": 0.764139711856842, "learning_rate": 0.00026854137668485916, "loss": 3.8897, "step": 102350 }, { "epoch": 0.21325, "grad_norm": 0.7723730206489563, "learning_rate": 0.0002685353355873743, "loss": 3.9012, "step": 102360 }, { "epoch": 0.21327083333333333, "grad_norm": 0.6823552846908569, "learning_rate": 0.00026852929397786374, "loss": 3.9441, "step": 102370 }, { "epoch": 0.21329166666666666, "grad_norm": 0.7374151349067688, "learning_rate": 0.00026852325185635354, "loss": 3.8815, "step": 102380 }, { "epoch": 0.2133125, "grad_norm": 0.7097358107566833, "learning_rate": 0.0002685172092228698, "loss": 3.9217, "step": 102390 }, { "epoch": 0.21333333333333335, "grad_norm": 0.9499896764755249, "learning_rate": 0.0002685111660774386, "loss": 3.9072, "step": 102400 }, { "epoch": 0.21335416666666668, "grad_norm": 0.7470501661300659, "learning_rate": 0.0002685051224200861, "loss": 3.8578, "step": 102410 }, { "epoch": 0.213375, "grad_norm": 0.7761180996894836, "learning_rate": 0.0002684990782508384, "loss": 4.0244, "step": 102420 }, { "epoch": 0.21339583333333334, "grad_norm": 0.8002363443374634, "learning_rate": 0.0002684930335697215, "loss": 3.873, "step": 102430 }, { "epoch": 0.21341666666666667, "grad_norm": 0.8261585235595703, "learning_rate": 0.00026848698837676175, "loss": 4.1082, "step": 102440 }, { "epoch": 0.2134375, "grad_norm": 0.79581618309021, "learning_rate": 0.000268480942671985, "loss": 3.9881, "step": 102450 }, { "epoch": 0.21345833333333333, "grad_norm": 1.0859493017196655, "learning_rate": 0.0002684748964554175, "loss": 3.9886, "step": 102460 }, { "epoch": 0.21347916666666666, "grad_norm": 0.8346890211105347, "learning_rate": 0.00026846884972708536, "loss": 4.0271, "step": 102470 }, { "epoch": 0.2135, "grad_norm": 0.6516628265380859, "learning_rate": 0.00026846280248701463, "loss": 3.9529, "step": 102480 }, { "epoch": 0.21352083333333333, "grad_norm": 0.8331006765365601, "learning_rate": 0.00026845675473523154, "loss": 3.9675, "step": 102490 }, { "epoch": 0.21354166666666666, "grad_norm": 0.7599084973335266, "learning_rate": 0.0002684507064717621, "loss": 3.9758, "step": 102500 }, { "epoch": 0.2135625, "grad_norm": 0.7038829326629639, "learning_rate": 0.0002684446576966325, "loss": 3.898, "step": 102510 }, { "epoch": 0.21358333333333332, "grad_norm": 0.7360091209411621, "learning_rate": 0.00026843860840986895, "loss": 3.8368, "step": 102520 }, { "epoch": 0.21360416666666668, "grad_norm": 0.7361437678337097, "learning_rate": 0.00026843255861149737, "loss": 4.0167, "step": 102530 }, { "epoch": 0.213625, "grad_norm": 0.9330411553382874, "learning_rate": 0.00026842650830154413, "loss": 4.0012, "step": 102540 }, { "epoch": 0.21364583333333334, "grad_norm": 0.8259146213531494, "learning_rate": 0.0002684204574800352, "loss": 3.9611, "step": 102550 }, { "epoch": 0.21366666666666667, "grad_norm": 0.6997962594032288, "learning_rate": 0.0002684144061469968, "loss": 3.9073, "step": 102560 }, { "epoch": 0.2136875, "grad_norm": 0.9808492064476013, "learning_rate": 0.000268408354302455, "loss": 3.8694, "step": 102570 }, { "epoch": 0.21370833333333333, "grad_norm": 0.8506420850753784, "learning_rate": 0.00026840230194643595, "loss": 3.8944, "step": 102580 }, { "epoch": 0.21372916666666666, "grad_norm": 0.7658294439315796, "learning_rate": 0.00026839624907896585, "loss": 3.7559, "step": 102590 }, { "epoch": 0.21375, "grad_norm": 0.7188820242881775, "learning_rate": 0.0002683901957000708, "loss": 3.9622, "step": 102600 }, { "epoch": 0.21377083333333333, "grad_norm": 0.6906453371047974, "learning_rate": 0.000268384141809777, "loss": 3.721, "step": 102610 }, { "epoch": 0.21379166666666666, "grad_norm": 0.7976897358894348, "learning_rate": 0.0002683780874081106, "loss": 3.8533, "step": 102620 }, { "epoch": 0.2138125, "grad_norm": 0.821456789970398, "learning_rate": 0.00026837203249509766, "loss": 4.0668, "step": 102630 }, { "epoch": 0.21383333333333332, "grad_norm": 0.7323678135871887, "learning_rate": 0.00026836597707076437, "loss": 3.8987, "step": 102640 }, { "epoch": 0.21385416666666668, "grad_norm": 0.846759557723999, "learning_rate": 0.00026835992113513705, "loss": 4.096, "step": 102650 }, { "epoch": 0.213875, "grad_norm": 0.7387557625770569, "learning_rate": 0.00026835386468824156, "loss": 3.9384, "step": 102660 }, { "epoch": 0.21389583333333334, "grad_norm": 0.8009338974952698, "learning_rate": 0.0002683478077301043, "loss": 3.7237, "step": 102670 }, { "epoch": 0.21391666666666667, "grad_norm": 0.7991369962692261, "learning_rate": 0.0002683417502607513, "loss": 4.1183, "step": 102680 }, { "epoch": 0.2139375, "grad_norm": 0.7126520276069641, "learning_rate": 0.0002683356922802089, "loss": 3.7857, "step": 102690 }, { "epoch": 0.21395833333333333, "grad_norm": 0.689676821231842, "learning_rate": 0.00026832963378850306, "loss": 3.8488, "step": 102700 }, { "epoch": 0.21397916666666666, "grad_norm": 0.8616625666618347, "learning_rate": 0.00026832357478566004, "loss": 3.9005, "step": 102710 }, { "epoch": 0.214, "grad_norm": 0.8223869800567627, "learning_rate": 0.000268317515271706, "loss": 3.9147, "step": 102720 }, { "epoch": 0.21402083333333333, "grad_norm": 0.7108721733093262, "learning_rate": 0.00026831145524666716, "loss": 3.7697, "step": 102730 }, { "epoch": 0.21404166666666666, "grad_norm": 0.7605945467948914, "learning_rate": 0.00026830539471056966, "loss": 3.8239, "step": 102740 }, { "epoch": 0.2140625, "grad_norm": 0.776104211807251, "learning_rate": 0.0002682993336634397, "loss": 3.9029, "step": 102750 }, { "epoch": 0.21408333333333332, "grad_norm": 0.9401202201843262, "learning_rate": 0.0002682932721053035, "loss": 3.9727, "step": 102760 }, { "epoch": 0.21410416666666668, "grad_norm": 0.7934325933456421, "learning_rate": 0.00026828721003618704, "loss": 4.1223, "step": 102770 }, { "epoch": 0.214125, "grad_norm": 0.6608116626739502, "learning_rate": 0.00026828114745611675, "loss": 3.7889, "step": 102780 }, { "epoch": 0.21414583333333334, "grad_norm": 0.714304506778717, "learning_rate": 0.0002682750843651187, "loss": 3.9216, "step": 102790 }, { "epoch": 0.21416666666666667, "grad_norm": 0.8999590277671814, "learning_rate": 0.00026826902076321907, "loss": 4.0489, "step": 102800 }, { "epoch": 0.2141875, "grad_norm": 0.7042125463485718, "learning_rate": 0.00026826295665044415, "loss": 3.9472, "step": 102810 }, { "epoch": 0.21420833333333333, "grad_norm": 0.698754608631134, "learning_rate": 0.00026825689202682, "loss": 3.7831, "step": 102820 }, { "epoch": 0.21422916666666666, "grad_norm": 0.7814480066299438, "learning_rate": 0.000268250826892373, "loss": 4.0915, "step": 102830 }, { "epoch": 0.21425, "grad_norm": 0.7854883074760437, "learning_rate": 0.0002682447612471291, "loss": 4.0275, "step": 102840 }, { "epoch": 0.21427083333333333, "grad_norm": 0.6874034404754639, "learning_rate": 0.00026823869509111473, "loss": 3.886, "step": 102850 }, { "epoch": 0.21429166666666666, "grad_norm": 0.6771194338798523, "learning_rate": 0.00026823262842435593, "loss": 3.7821, "step": 102860 }, { "epoch": 0.2143125, "grad_norm": 0.8384600281715393, "learning_rate": 0.00026822656124687904, "loss": 3.972, "step": 102870 }, { "epoch": 0.21433333333333332, "grad_norm": 0.6740886569023132, "learning_rate": 0.00026822049355871013, "loss": 3.9947, "step": 102880 }, { "epoch": 0.21435416666666668, "grad_norm": 0.884361207485199, "learning_rate": 0.00026821442535987554, "loss": 3.7558, "step": 102890 }, { "epoch": 0.214375, "grad_norm": 0.7294917106628418, "learning_rate": 0.0002682083566504014, "loss": 4.0087, "step": 102900 }, { "epoch": 0.21439583333333334, "grad_norm": 0.7637292146682739, "learning_rate": 0.00026820228743031397, "loss": 3.9769, "step": 102910 }, { "epoch": 0.21441666666666667, "grad_norm": 0.74226975440979, "learning_rate": 0.00026819621769963946, "loss": 3.975, "step": 102920 }, { "epoch": 0.2144375, "grad_norm": 0.6588453054428101, "learning_rate": 0.000268190147458404, "loss": 4.0354, "step": 102930 }, { "epoch": 0.21445833333333333, "grad_norm": 0.8250126242637634, "learning_rate": 0.00026818407670663397, "loss": 3.9471, "step": 102940 }, { "epoch": 0.21447916666666667, "grad_norm": 0.8836731314659119, "learning_rate": 0.00026817800544435546, "loss": 3.966, "step": 102950 }, { "epoch": 0.2145, "grad_norm": 0.6795853972434998, "learning_rate": 0.0002681719336715948, "loss": 3.9269, "step": 102960 }, { "epoch": 0.21452083333333333, "grad_norm": 0.9713950157165527, "learning_rate": 0.00026816586138837806, "loss": 3.8463, "step": 102970 }, { "epoch": 0.21454166666666666, "grad_norm": 0.7444133758544922, "learning_rate": 0.00026815978859473164, "loss": 3.8646, "step": 102980 }, { "epoch": 0.2145625, "grad_norm": 0.7613767385482788, "learning_rate": 0.0002681537152906817, "loss": 4.0952, "step": 102990 }, { "epoch": 0.21458333333333332, "grad_norm": 0.7502779364585876, "learning_rate": 0.0002681476414762545, "loss": 3.838, "step": 103000 }, { "epoch": 0.21458333333333332, "eval_loss": 4.260862827301025, "eval_runtime": 10.4569, "eval_samples_per_second": 0.956, "eval_steps_per_second": 0.287, "step": 103000 }, { "epoch": 0.21460416666666668, "grad_norm": 0.6982792615890503, "learning_rate": 0.00026814156715147623, "loss": 3.9598, "step": 103010 }, { "epoch": 0.214625, "grad_norm": 0.7814749479293823, "learning_rate": 0.00026813549231637313, "loss": 3.7586, "step": 103020 }, { "epoch": 0.21464583333333334, "grad_norm": 0.8365145921707153, "learning_rate": 0.0002681294169709715, "loss": 3.8582, "step": 103030 }, { "epoch": 0.21466666666666667, "grad_norm": 0.8170823454856873, "learning_rate": 0.0002681233411152975, "loss": 3.9467, "step": 103040 }, { "epoch": 0.2146875, "grad_norm": 0.8920000791549683, "learning_rate": 0.0002681172647493775, "loss": 3.7777, "step": 103050 }, { "epoch": 0.21470833333333333, "grad_norm": 0.85231614112854, "learning_rate": 0.0002681111878732376, "loss": 3.8396, "step": 103060 }, { "epoch": 0.21472916666666667, "grad_norm": 0.717993438243866, "learning_rate": 0.00026810511048690417, "loss": 3.9329, "step": 103070 }, { "epoch": 0.21475, "grad_norm": 0.7576789855957031, "learning_rate": 0.0002680990325904034, "loss": 3.8043, "step": 103080 }, { "epoch": 0.21477083333333333, "grad_norm": 0.8052340149879456, "learning_rate": 0.0002680929541837615, "loss": 3.8089, "step": 103090 }, { "epoch": 0.21479166666666666, "grad_norm": 0.6904061436653137, "learning_rate": 0.0002680868752670049, "loss": 3.8332, "step": 103100 }, { "epoch": 0.2148125, "grad_norm": 0.7217944264411926, "learning_rate": 0.00026808079584015964, "loss": 3.8662, "step": 103110 }, { "epoch": 0.21483333333333332, "grad_norm": 0.8178644180297852, "learning_rate": 0.0002680747159032521, "loss": 3.8935, "step": 103120 }, { "epoch": 0.21485416666666668, "grad_norm": 0.6505054831504822, "learning_rate": 0.0002680686354563085, "loss": 3.9768, "step": 103130 }, { "epoch": 0.214875, "grad_norm": 0.8037826418876648, "learning_rate": 0.0002680625544993552, "loss": 3.9203, "step": 103140 }, { "epoch": 0.21489583333333334, "grad_norm": 0.7412013411521912, "learning_rate": 0.0002680564730324184, "loss": 3.948, "step": 103150 }, { "epoch": 0.21491666666666667, "grad_norm": 0.7569954991340637, "learning_rate": 0.0002680503910555243, "loss": 3.9984, "step": 103160 }, { "epoch": 0.2149375, "grad_norm": 0.7454707622528076, "learning_rate": 0.00026804430856869924, "loss": 3.7551, "step": 103170 }, { "epoch": 0.21495833333333333, "grad_norm": 0.7634373903274536, "learning_rate": 0.00026803822557196953, "loss": 3.9429, "step": 103180 }, { "epoch": 0.21497916666666667, "grad_norm": 0.7058666944503784, "learning_rate": 0.0002680321420653614, "loss": 4.0497, "step": 103190 }, { "epoch": 0.215, "grad_norm": 0.7659200429916382, "learning_rate": 0.0002680260580489012, "loss": 3.9494, "step": 103200 }, { "epoch": 0.21502083333333333, "grad_norm": 0.8120572566986084, "learning_rate": 0.000268019973522615, "loss": 3.7899, "step": 103210 }, { "epoch": 0.21504166666666666, "grad_norm": 0.8189850449562073, "learning_rate": 0.00026801388848652935, "loss": 3.8968, "step": 103220 }, { "epoch": 0.2150625, "grad_norm": 0.7041645646095276, "learning_rate": 0.00026800780294067034, "loss": 3.8132, "step": 103230 }, { "epoch": 0.21508333333333332, "grad_norm": 0.7610019445419312, "learning_rate": 0.0002680017168850644, "loss": 4.0651, "step": 103240 }, { "epoch": 0.21510416666666668, "grad_norm": 0.8385465741157532, "learning_rate": 0.00026799563031973774, "loss": 4.0106, "step": 103250 }, { "epoch": 0.215125, "grad_norm": 0.754497766494751, "learning_rate": 0.0002679895432447166, "loss": 3.9309, "step": 103260 }, { "epoch": 0.21514583333333334, "grad_norm": 0.7783034443855286, "learning_rate": 0.0002679834556600274, "loss": 3.9577, "step": 103270 }, { "epoch": 0.21516666666666667, "grad_norm": 0.7606397271156311, "learning_rate": 0.0002679773675656964, "loss": 3.9848, "step": 103280 }, { "epoch": 0.2151875, "grad_norm": 0.77164226770401, "learning_rate": 0.0002679712789617498, "loss": 3.8466, "step": 103290 }, { "epoch": 0.21520833333333333, "grad_norm": 0.801077127456665, "learning_rate": 0.00026796518984821397, "loss": 3.8626, "step": 103300 }, { "epoch": 0.21522916666666667, "grad_norm": 0.8006694316864014, "learning_rate": 0.0002679591002251152, "loss": 3.8977, "step": 103310 }, { "epoch": 0.21525, "grad_norm": 0.7246871590614319, "learning_rate": 0.0002679530100924799, "loss": 3.8405, "step": 103320 }, { "epoch": 0.21527083333333333, "grad_norm": 0.7989106178283691, "learning_rate": 0.0002679469194503342, "loss": 3.8341, "step": 103330 }, { "epoch": 0.21529166666666666, "grad_norm": 1.6239168643951416, "learning_rate": 0.0002679408282987045, "loss": 4.0622, "step": 103340 }, { "epoch": 0.2153125, "grad_norm": 0.9158325791358948, "learning_rate": 0.00026793473663761717, "loss": 3.9563, "step": 103350 }, { "epoch": 0.21533333333333332, "grad_norm": 0.6992232799530029, "learning_rate": 0.0002679286444670984, "loss": 3.7751, "step": 103360 }, { "epoch": 0.21535416666666668, "grad_norm": 0.7879667282104492, "learning_rate": 0.00026792255178717463, "loss": 3.9625, "step": 103370 }, { "epoch": 0.215375, "grad_norm": 0.7148048281669617, "learning_rate": 0.00026791645859787207, "loss": 3.9527, "step": 103380 }, { "epoch": 0.21539583333333334, "grad_norm": 0.7951317429542542, "learning_rate": 0.00026791036489921707, "loss": 3.921, "step": 103390 }, { "epoch": 0.21541666666666667, "grad_norm": 0.7236343622207642, "learning_rate": 0.000267904270691236, "loss": 3.9359, "step": 103400 }, { "epoch": 0.2154375, "grad_norm": 0.7318707704544067, "learning_rate": 0.0002678981759739551, "loss": 3.8841, "step": 103410 }, { "epoch": 0.21545833333333334, "grad_norm": 0.774462103843689, "learning_rate": 0.0002678920807474008, "loss": 3.9174, "step": 103420 }, { "epoch": 0.21547916666666667, "grad_norm": 0.8632633090019226, "learning_rate": 0.00026788598501159935, "loss": 3.8909, "step": 103430 }, { "epoch": 0.2155, "grad_norm": 0.7106120586395264, "learning_rate": 0.0002678798887665771, "loss": 3.9104, "step": 103440 }, { "epoch": 0.21552083333333333, "grad_norm": 0.7379701137542725, "learning_rate": 0.00026787379201236044, "loss": 3.9152, "step": 103450 }, { "epoch": 0.21554166666666666, "grad_norm": 0.7571840882301331, "learning_rate": 0.00026786769474897556, "loss": 3.9346, "step": 103460 }, { "epoch": 0.2155625, "grad_norm": 0.6822111010551453, "learning_rate": 0.000267861596976449, "loss": 3.8323, "step": 103470 }, { "epoch": 0.21558333333333332, "grad_norm": 0.7523879408836365, "learning_rate": 0.0002678554986948069, "loss": 3.8893, "step": 103480 }, { "epoch": 0.21560416666666668, "grad_norm": 0.7549329996109009, "learning_rate": 0.00026784939990407575, "loss": 3.8454, "step": 103490 }, { "epoch": 0.215625, "grad_norm": 0.6732136011123657, "learning_rate": 0.00026784330060428184, "loss": 3.92, "step": 103500 }, { "epoch": 0.21564583333333334, "grad_norm": 0.7138423323631287, "learning_rate": 0.0002678372007954515, "loss": 3.766, "step": 103510 }, { "epoch": 0.21566666666666667, "grad_norm": 0.653668224811554, "learning_rate": 0.0002678311004776111, "loss": 4.0385, "step": 103520 }, { "epoch": 0.2156875, "grad_norm": 0.8782212138175964, "learning_rate": 0.000267824999650787, "loss": 3.8297, "step": 103530 }, { "epoch": 0.21570833333333334, "grad_norm": 0.7806443572044373, "learning_rate": 0.00026781889831500557, "loss": 3.7766, "step": 103540 }, { "epoch": 0.21572916666666667, "grad_norm": 0.7511743307113647, "learning_rate": 0.00026781279647029307, "loss": 3.9426, "step": 103550 }, { "epoch": 0.21575, "grad_norm": 0.7026357054710388, "learning_rate": 0.00026780669411667596, "loss": 3.8873, "step": 103560 }, { "epoch": 0.21577083333333333, "grad_norm": 0.8051574230194092, "learning_rate": 0.00026780059125418055, "loss": 3.8866, "step": 103570 }, { "epoch": 0.21579166666666666, "grad_norm": 0.8536532521247864, "learning_rate": 0.0002677944878828332, "loss": 3.9817, "step": 103580 }, { "epoch": 0.2158125, "grad_norm": 0.7482403516769409, "learning_rate": 0.0002677883840026603, "loss": 3.9137, "step": 103590 }, { "epoch": 0.21583333333333332, "grad_norm": 0.948333203792572, "learning_rate": 0.0002677822796136882, "loss": 3.9617, "step": 103600 }, { "epoch": 0.21585416666666668, "grad_norm": 0.7991553544998169, "learning_rate": 0.00026777617471594327, "loss": 3.7469, "step": 103610 }, { "epoch": 0.215875, "grad_norm": 0.8696415424346924, "learning_rate": 0.0002677700693094519, "loss": 3.8768, "step": 103620 }, { "epoch": 0.21589583333333334, "grad_norm": 0.8170913457870483, "learning_rate": 0.0002677639633942405, "loss": 3.8417, "step": 103630 }, { "epoch": 0.21591666666666667, "grad_norm": 0.7533899545669556, "learning_rate": 0.00026775785697033533, "loss": 3.8518, "step": 103640 }, { "epoch": 0.2159375, "grad_norm": 0.773405909538269, "learning_rate": 0.00026775175003776285, "loss": 3.8078, "step": 103650 }, { "epoch": 0.21595833333333334, "grad_norm": 0.7714802026748657, "learning_rate": 0.0002677456425965494, "loss": 3.8635, "step": 103660 }, { "epoch": 0.21597916666666667, "grad_norm": 0.7386381030082703, "learning_rate": 0.00026773953464672134, "loss": 3.9024, "step": 103670 }, { "epoch": 0.216, "grad_norm": 0.7434378266334534, "learning_rate": 0.00026773342618830517, "loss": 3.9514, "step": 103680 }, { "epoch": 0.21602083333333333, "grad_norm": 0.7749361991882324, "learning_rate": 0.00026772731722132716, "loss": 3.891, "step": 103690 }, { "epoch": 0.21604166666666666, "grad_norm": 0.7133052349090576, "learning_rate": 0.0002677212077458138, "loss": 3.8808, "step": 103700 }, { "epoch": 0.2160625, "grad_norm": 0.7226802110671997, "learning_rate": 0.0002677150977617913, "loss": 4.0399, "step": 103710 }, { "epoch": 0.21608333333333332, "grad_norm": 0.7969832420349121, "learning_rate": 0.0002677089872692863, "loss": 3.8664, "step": 103720 }, { "epoch": 0.21610416666666668, "grad_norm": 0.7299691438674927, "learning_rate": 0.00026770287626832497, "loss": 3.8752, "step": 103730 }, { "epoch": 0.216125, "grad_norm": 0.8858870267868042, "learning_rate": 0.0002676967647589339, "loss": 4.0339, "step": 103740 }, { "epoch": 0.21614583333333334, "grad_norm": 0.711050271987915, "learning_rate": 0.0002676906527411393, "loss": 3.8653, "step": 103750 }, { "epoch": 0.21616666666666667, "grad_norm": 0.7966354489326477, "learning_rate": 0.0002676845402149677, "loss": 3.9269, "step": 103760 }, { "epoch": 0.2161875, "grad_norm": 0.6632649898529053, "learning_rate": 0.00026767842718044546, "loss": 3.9883, "step": 103770 }, { "epoch": 0.21620833333333334, "grad_norm": 0.7212406396865845, "learning_rate": 0.00026767231363759907, "loss": 3.8808, "step": 103780 }, { "epoch": 0.21622916666666667, "grad_norm": 0.754252016544342, "learning_rate": 0.0002676661995864548, "loss": 3.9677, "step": 103790 }, { "epoch": 0.21625, "grad_norm": 0.7198277711868286, "learning_rate": 0.00026766008502703914, "loss": 3.9638, "step": 103800 }, { "epoch": 0.21627083333333333, "grad_norm": 0.7945812940597534, "learning_rate": 0.00026765396995937846, "loss": 3.9757, "step": 103810 }, { "epoch": 0.21629166666666666, "grad_norm": 0.7051178216934204, "learning_rate": 0.0002676478543834992, "loss": 3.8648, "step": 103820 }, { "epoch": 0.2163125, "grad_norm": 0.8302850127220154, "learning_rate": 0.0002676417382994278, "loss": 3.8902, "step": 103830 }, { "epoch": 0.21633333333333332, "grad_norm": 1.052733302116394, "learning_rate": 0.0002676356217071906, "loss": 3.9098, "step": 103840 }, { "epoch": 0.21635416666666665, "grad_norm": 0.8028723001480103, "learning_rate": 0.00026762950460681415, "loss": 3.9258, "step": 103850 }, { "epoch": 0.216375, "grad_norm": 0.7772068977355957, "learning_rate": 0.00026762338699832475, "loss": 3.7869, "step": 103860 }, { "epoch": 0.21639583333333334, "grad_norm": 0.781239926815033, "learning_rate": 0.00026761726888174895, "loss": 3.9336, "step": 103870 }, { "epoch": 0.21641666666666667, "grad_norm": 0.8122050762176514, "learning_rate": 0.000267611150257113, "loss": 3.9407, "step": 103880 }, { "epoch": 0.2164375, "grad_norm": 0.7631456851959229, "learning_rate": 0.00026760503112444354, "loss": 4.1303, "step": 103890 }, { "epoch": 0.21645833333333334, "grad_norm": 0.7108595967292786, "learning_rate": 0.00026759891148376685, "loss": 4.0887, "step": 103900 }, { "epoch": 0.21647916666666667, "grad_norm": 0.6934673190116882, "learning_rate": 0.0002675927913351094, "loss": 3.7694, "step": 103910 }, { "epoch": 0.2165, "grad_norm": 0.7208923697471619, "learning_rate": 0.00026758667067849765, "loss": 3.8423, "step": 103920 }, { "epoch": 0.21652083333333333, "grad_norm": 0.7249716520309448, "learning_rate": 0.000267580549513958, "loss": 3.882, "step": 103930 }, { "epoch": 0.21654166666666666, "grad_norm": 0.7159674167633057, "learning_rate": 0.00026757442784151696, "loss": 3.8892, "step": 103940 }, { "epoch": 0.2165625, "grad_norm": 0.7205800414085388, "learning_rate": 0.00026756830566120087, "loss": 3.7883, "step": 103950 }, { "epoch": 0.21658333333333332, "grad_norm": 0.7518658638000488, "learning_rate": 0.0002675621829730363, "loss": 4.0217, "step": 103960 }, { "epoch": 0.21660416666666665, "grad_norm": 0.7917511463165283, "learning_rate": 0.00026755605977704964, "loss": 3.8776, "step": 103970 }, { "epoch": 0.216625, "grad_norm": 0.8439042568206787, "learning_rate": 0.0002675499360732673, "loss": 3.942, "step": 103980 }, { "epoch": 0.21664583333333334, "grad_norm": 0.8198758363723755, "learning_rate": 0.00026754381186171574, "loss": 3.8107, "step": 103990 }, { "epoch": 0.21666666666666667, "grad_norm": 0.7065703272819519, "learning_rate": 0.0002675376871424215, "loss": 3.8423, "step": 104000 }, { "epoch": 0.21666666666666667, "eval_loss": 4.274416923522949, "eval_runtime": 12.4571, "eval_samples_per_second": 0.803, "eval_steps_per_second": 0.241, "step": 104000 }, { "epoch": 0.2166875, "grad_norm": 0.7423152327537537, "learning_rate": 0.00026753156191541095, "loss": 3.9345, "step": 104010 }, { "epoch": 0.21670833333333334, "grad_norm": 0.7986307740211487, "learning_rate": 0.0002675254361807106, "loss": 3.9252, "step": 104020 }, { "epoch": 0.21672916666666667, "grad_norm": 0.9137560129165649, "learning_rate": 0.0002675193099383468, "loss": 3.9921, "step": 104030 }, { "epoch": 0.21675, "grad_norm": 0.8167948722839355, "learning_rate": 0.0002675131831883462, "loss": 3.9545, "step": 104040 }, { "epoch": 0.21677083333333333, "grad_norm": 0.791115403175354, "learning_rate": 0.00026750705593073514, "loss": 3.8376, "step": 104050 }, { "epoch": 0.21679166666666666, "grad_norm": 0.8448063731193542, "learning_rate": 0.00026750092816554003, "loss": 4.0255, "step": 104060 }, { "epoch": 0.2168125, "grad_norm": 0.7388009428977966, "learning_rate": 0.00026749479989278754, "loss": 4.0163, "step": 104070 }, { "epoch": 0.21683333333333332, "grad_norm": 0.782379150390625, "learning_rate": 0.0002674886711125039, "loss": 3.9002, "step": 104080 }, { "epoch": 0.21685416666666665, "grad_norm": 0.697393536567688, "learning_rate": 0.0002674825418247158, "loss": 3.8552, "step": 104090 }, { "epoch": 0.216875, "grad_norm": 0.7120442986488342, "learning_rate": 0.0002674764120294496, "loss": 4.0263, "step": 104100 }, { "epoch": 0.21689583333333334, "grad_norm": 0.8131166100502014, "learning_rate": 0.00026747028172673175, "loss": 3.8023, "step": 104110 }, { "epoch": 0.21691666666666667, "grad_norm": 0.7342423796653748, "learning_rate": 0.0002674641509165889, "loss": 4.049, "step": 104120 }, { "epoch": 0.2169375, "grad_norm": 0.806699275970459, "learning_rate": 0.00026745801959904725, "loss": 3.7946, "step": 104130 }, { "epoch": 0.21695833333333334, "grad_norm": 0.7331568002700806, "learning_rate": 0.0002674518877741336, "loss": 3.8278, "step": 104140 }, { "epoch": 0.21697916666666667, "grad_norm": 0.7831412553787231, "learning_rate": 0.0002674457554418742, "loss": 4.0529, "step": 104150 }, { "epoch": 0.217, "grad_norm": 0.7117398977279663, "learning_rate": 0.00026743962260229563, "loss": 3.9099, "step": 104160 }, { "epoch": 0.21702083333333333, "grad_norm": 0.6962454915046692, "learning_rate": 0.00026743348925542445, "loss": 4.0312, "step": 104170 }, { "epoch": 0.21704166666666666, "grad_norm": 0.6746824383735657, "learning_rate": 0.000267427355401287, "loss": 3.925, "step": 104180 }, { "epoch": 0.2170625, "grad_norm": 0.9637673497200012, "learning_rate": 0.00026742122103990985, "loss": 3.9378, "step": 104190 }, { "epoch": 0.21708333333333332, "grad_norm": 0.8229334950447083, "learning_rate": 0.00026741508617131955, "loss": 4.0395, "step": 104200 }, { "epoch": 0.21710416666666665, "grad_norm": 0.7581438422203064, "learning_rate": 0.0002674089507955425, "loss": 3.8309, "step": 104210 }, { "epoch": 0.217125, "grad_norm": 0.849983274936676, "learning_rate": 0.0002674028149126053, "loss": 3.8995, "step": 104220 }, { "epoch": 0.21714583333333334, "grad_norm": 0.6840772032737732, "learning_rate": 0.0002673966785225344, "loss": 4.0081, "step": 104230 }, { "epoch": 0.21716666666666667, "grad_norm": 0.8355234861373901, "learning_rate": 0.0002673905416253563, "loss": 3.9356, "step": 104240 }, { "epoch": 0.2171875, "grad_norm": 0.7818974852561951, "learning_rate": 0.0002673844042210976, "loss": 4.0173, "step": 104250 }, { "epoch": 0.21720833333333334, "grad_norm": 0.7823631167411804, "learning_rate": 0.00026737826630978464, "loss": 3.9927, "step": 104260 }, { "epoch": 0.21722916666666667, "grad_norm": 0.8428428769111633, "learning_rate": 0.0002673721278914441, "loss": 3.8545, "step": 104270 }, { "epoch": 0.21725, "grad_norm": 0.7690878510475159, "learning_rate": 0.0002673659889661024, "loss": 4.0338, "step": 104280 }, { "epoch": 0.21727083333333333, "grad_norm": 0.7697757482528687, "learning_rate": 0.0002673598495337861, "loss": 4.1381, "step": 104290 }, { "epoch": 0.21729166666666666, "grad_norm": 0.7954941391944885, "learning_rate": 0.00026735370959452166, "loss": 3.7662, "step": 104300 }, { "epoch": 0.2173125, "grad_norm": 0.8215659856796265, "learning_rate": 0.0002673475691483357, "loss": 3.8771, "step": 104310 }, { "epoch": 0.21733333333333332, "grad_norm": 0.8557404279708862, "learning_rate": 0.00026734142819525463, "loss": 3.9002, "step": 104320 }, { "epoch": 0.21735416666666665, "grad_norm": 0.8209974765777588, "learning_rate": 0.0002673352867353051, "loss": 3.9765, "step": 104330 }, { "epoch": 0.217375, "grad_norm": 0.8450025320053101, "learning_rate": 0.00026732914476851354, "loss": 3.8594, "step": 104340 }, { "epoch": 0.21739583333333334, "grad_norm": 0.9227427840232849, "learning_rate": 0.00026732300229490654, "loss": 4.0199, "step": 104350 }, { "epoch": 0.21741666666666667, "grad_norm": 0.7749657034873962, "learning_rate": 0.0002673168593145106, "loss": 3.8585, "step": 104360 }, { "epoch": 0.2174375, "grad_norm": 0.7021118402481079, "learning_rate": 0.00026731071582735224, "loss": 3.773, "step": 104370 }, { "epoch": 0.21745833333333334, "grad_norm": 0.8828438520431519, "learning_rate": 0.0002673045718334581, "loss": 3.8008, "step": 104380 }, { "epoch": 0.21747916666666667, "grad_norm": 0.7635529041290283, "learning_rate": 0.00026729842733285456, "loss": 4.0125, "step": 104390 }, { "epoch": 0.2175, "grad_norm": 0.7537969350814819, "learning_rate": 0.0002672922823255682, "loss": 4.0364, "step": 104400 }, { "epoch": 0.21752083333333333, "grad_norm": 0.826253354549408, "learning_rate": 0.0002672861368116257, "loss": 3.8463, "step": 104410 }, { "epoch": 0.21754166666666666, "grad_norm": 0.761141836643219, "learning_rate": 0.0002672799907910535, "loss": 4.0086, "step": 104420 }, { "epoch": 0.2175625, "grad_norm": 0.7776395082473755, "learning_rate": 0.00026727384426387816, "loss": 4.0605, "step": 104430 }, { "epoch": 0.21758333333333332, "grad_norm": 0.7577017545700073, "learning_rate": 0.00026726769723012624, "loss": 3.9474, "step": 104440 }, { "epoch": 0.21760416666666665, "grad_norm": 0.6962851285934448, "learning_rate": 0.00026726154968982423, "loss": 3.8337, "step": 104450 }, { "epoch": 0.217625, "grad_norm": 0.7821736931800842, "learning_rate": 0.0002672554016429988, "loss": 3.8815, "step": 104460 }, { "epoch": 0.21764583333333334, "grad_norm": 0.7570845484733582, "learning_rate": 0.00026724925308967644, "loss": 3.9793, "step": 104470 }, { "epoch": 0.21766666666666667, "grad_norm": 0.7696646451950073, "learning_rate": 0.00026724310402988374, "loss": 3.9362, "step": 104480 }, { "epoch": 0.2176875, "grad_norm": 1.0080870389938354, "learning_rate": 0.00026723695446364724, "loss": 3.9891, "step": 104490 }, { "epoch": 0.21770833333333334, "grad_norm": 0.7530809640884399, "learning_rate": 0.00026723080439099346, "loss": 3.8873, "step": 104500 }, { "epoch": 0.21772916666666667, "grad_norm": 0.9744793772697449, "learning_rate": 0.000267224653811949, "loss": 4.0277, "step": 104510 }, { "epoch": 0.21775, "grad_norm": 0.7277044653892517, "learning_rate": 0.00026721850272654047, "loss": 3.9071, "step": 104520 }, { "epoch": 0.21777083333333333, "grad_norm": 0.778976559638977, "learning_rate": 0.0002672123511347944, "loss": 3.9885, "step": 104530 }, { "epoch": 0.21779166666666666, "grad_norm": 0.7113878130912781, "learning_rate": 0.0002672061990367373, "loss": 3.8071, "step": 104540 }, { "epoch": 0.2178125, "grad_norm": 0.7919794321060181, "learning_rate": 0.0002672000464323959, "loss": 3.9251, "step": 104550 }, { "epoch": 0.21783333333333332, "grad_norm": 0.7412070631980896, "learning_rate": 0.0002671938933217966, "loss": 3.8941, "step": 104560 }, { "epoch": 0.21785416666666665, "grad_norm": 0.7718671560287476, "learning_rate": 0.00026718773970496617, "loss": 4.0387, "step": 104570 }, { "epoch": 0.217875, "grad_norm": 0.7874016165733337, "learning_rate": 0.0002671815855819311, "loss": 3.8588, "step": 104580 }, { "epoch": 0.21789583333333334, "grad_norm": 0.7471857070922852, "learning_rate": 0.0002671754309527179, "loss": 3.8398, "step": 104590 }, { "epoch": 0.21791666666666668, "grad_norm": 0.809622049331665, "learning_rate": 0.0002671692758173532, "loss": 3.8368, "step": 104600 }, { "epoch": 0.2179375, "grad_norm": 0.7267488837242126, "learning_rate": 0.0002671631201758637, "loss": 3.974, "step": 104610 }, { "epoch": 0.21795833333333334, "grad_norm": 0.9010500907897949, "learning_rate": 0.00026715696402827583, "loss": 3.7927, "step": 104620 }, { "epoch": 0.21797916666666667, "grad_norm": 0.696721076965332, "learning_rate": 0.00026715080737461623, "loss": 3.855, "step": 104630 }, { "epoch": 0.218, "grad_norm": 0.8063490390777588, "learning_rate": 0.0002671446502149115, "loss": 3.892, "step": 104640 }, { "epoch": 0.21802083333333333, "grad_norm": 0.8231057524681091, "learning_rate": 0.00026713849254918833, "loss": 3.6312, "step": 104650 }, { "epoch": 0.21804166666666666, "grad_norm": 0.7074212431907654, "learning_rate": 0.0002671323343774732, "loss": 3.8466, "step": 104660 }, { "epoch": 0.2180625, "grad_norm": 0.6711615324020386, "learning_rate": 0.00026712617569979273, "loss": 3.8507, "step": 104670 }, { "epoch": 0.21808333333333332, "grad_norm": 0.7008763551712036, "learning_rate": 0.0002671200165161736, "loss": 3.8425, "step": 104680 }, { "epoch": 0.21810416666666665, "grad_norm": 0.81549471616745, "learning_rate": 0.0002671138568266423, "loss": 3.7309, "step": 104690 }, { "epoch": 0.218125, "grad_norm": 0.7578418254852295, "learning_rate": 0.00026710769663122557, "loss": 3.9151, "step": 104700 }, { "epoch": 0.21814583333333334, "grad_norm": 0.7082387208938599, "learning_rate": 0.0002671015359299499, "loss": 3.9013, "step": 104710 }, { "epoch": 0.21816666666666668, "grad_norm": 0.9113315939903259, "learning_rate": 0.0002670953747228419, "loss": 3.8836, "step": 104720 }, { "epoch": 0.2181875, "grad_norm": 0.8651805520057678, "learning_rate": 0.0002670892130099283, "loss": 4.0695, "step": 104730 }, { "epoch": 0.21820833333333334, "grad_norm": 0.8003982901573181, "learning_rate": 0.00026708305079123563, "loss": 3.8118, "step": 104740 }, { "epoch": 0.21822916666666667, "grad_norm": 0.9467316269874573, "learning_rate": 0.0002670768880667905, "loss": 4.0595, "step": 104750 }, { "epoch": 0.21825, "grad_norm": 0.7686951756477356, "learning_rate": 0.00026707072483661955, "loss": 4.0011, "step": 104760 }, { "epoch": 0.21827083333333333, "grad_norm": 0.7373315095901489, "learning_rate": 0.00026706456110074943, "loss": 3.7876, "step": 104770 }, { "epoch": 0.21829166666666666, "grad_norm": 0.7608977556228638, "learning_rate": 0.00026705839685920677, "loss": 4.0293, "step": 104780 }, { "epoch": 0.2183125, "grad_norm": 0.7952674031257629, "learning_rate": 0.0002670522321120181, "loss": 3.9461, "step": 104790 }, { "epoch": 0.21833333333333332, "grad_norm": 0.656443178653717, "learning_rate": 0.0002670460668592102, "loss": 4.0416, "step": 104800 }, { "epoch": 0.21835416666666665, "grad_norm": 0.8711400032043457, "learning_rate": 0.0002670399011008096, "loss": 4.0224, "step": 104810 }, { "epoch": 0.218375, "grad_norm": 0.8473699688911438, "learning_rate": 0.0002670337348368429, "loss": 3.9552, "step": 104820 }, { "epoch": 0.21839583333333334, "grad_norm": 0.8371500968933105, "learning_rate": 0.00026702756806733685, "loss": 3.8966, "step": 104830 }, { "epoch": 0.21841666666666668, "grad_norm": 0.7243757843971252, "learning_rate": 0.000267021400792318, "loss": 3.9566, "step": 104840 }, { "epoch": 0.2184375, "grad_norm": 0.7674323916435242, "learning_rate": 0.00026701523301181303, "loss": 4.0358, "step": 104850 }, { "epoch": 0.21845833333333334, "grad_norm": 0.7585069537162781, "learning_rate": 0.00026700906472584856, "loss": 3.792, "step": 104860 }, { "epoch": 0.21847916666666667, "grad_norm": 0.8280012011528015, "learning_rate": 0.00026700289593445126, "loss": 3.9146, "step": 104870 }, { "epoch": 0.2185, "grad_norm": 0.8288918137550354, "learning_rate": 0.00026699672663764776, "loss": 3.7976, "step": 104880 }, { "epoch": 0.21852083333333333, "grad_norm": 0.7592902779579163, "learning_rate": 0.00026699055683546466, "loss": 3.958, "step": 104890 }, { "epoch": 0.21854166666666666, "grad_norm": 0.6763870716094971, "learning_rate": 0.00026698438652792875, "loss": 3.9607, "step": 104900 }, { "epoch": 0.2185625, "grad_norm": 0.7556689977645874, "learning_rate": 0.00026697821571506654, "loss": 3.9862, "step": 104910 }, { "epoch": 0.21858333333333332, "grad_norm": 0.856159508228302, "learning_rate": 0.0002669720443969048, "loss": 3.9369, "step": 104920 }, { "epoch": 0.21860416666666665, "grad_norm": 0.7842695116996765, "learning_rate": 0.00026696587257347005, "loss": 3.8061, "step": 104930 }, { "epoch": 0.218625, "grad_norm": 0.762103796005249, "learning_rate": 0.00026695970024478906, "loss": 3.959, "step": 104940 }, { "epoch": 0.21864583333333334, "grad_norm": 0.7334314584732056, "learning_rate": 0.00026695352741088846, "loss": 3.9698, "step": 104950 }, { "epoch": 0.21866666666666668, "grad_norm": 0.7618116736412048, "learning_rate": 0.0002669473540717949, "loss": 3.7954, "step": 104960 }, { "epoch": 0.2186875, "grad_norm": 0.7822664380073547, "learning_rate": 0.00026694118022753513, "loss": 3.8656, "step": 104970 }, { "epoch": 0.21870833333333334, "grad_norm": 0.7530372738838196, "learning_rate": 0.0002669350058781357, "loss": 4.1112, "step": 104980 }, { "epoch": 0.21872916666666667, "grad_norm": 0.9639653563499451, "learning_rate": 0.00026692883102362333, "loss": 3.8474, "step": 104990 }, { "epoch": 0.21875, "grad_norm": 1.0002776384353638, "learning_rate": 0.00026692265566402465, "loss": 3.7543, "step": 105000 }, { "epoch": 0.21875, "eval_loss": 4.2600297927856445, "eval_runtime": 11.4193, "eval_samples_per_second": 0.876, "eval_steps_per_second": 0.263, "step": 105000 }, { "epoch": 0.21877083333333333, "grad_norm": 0.8150566816329956, "learning_rate": 0.00026691647979936643, "loss": 3.9516, "step": 105010 }, { "epoch": 0.21879166666666666, "grad_norm": 0.8290562033653259, "learning_rate": 0.00026691030342967535, "loss": 3.845, "step": 105020 }, { "epoch": 0.2188125, "grad_norm": 0.8604964017868042, "learning_rate": 0.00026690412655497797, "loss": 3.805, "step": 105030 }, { "epoch": 0.21883333333333332, "grad_norm": 0.7329251170158386, "learning_rate": 0.000266897949175301, "loss": 3.6805, "step": 105040 }, { "epoch": 0.21885416666666666, "grad_norm": 0.6748791933059692, "learning_rate": 0.00026689177129067125, "loss": 3.8343, "step": 105050 }, { "epoch": 0.218875, "grad_norm": 0.8582395911216736, "learning_rate": 0.00026688559290111527, "loss": 3.7663, "step": 105060 }, { "epoch": 0.21889583333333335, "grad_norm": 0.7886938452720642, "learning_rate": 0.00026687941400665977, "loss": 3.9143, "step": 105070 }, { "epoch": 0.21891666666666668, "grad_norm": 0.759994626045227, "learning_rate": 0.0002668732346073315, "loss": 3.8949, "step": 105080 }, { "epoch": 0.2189375, "grad_norm": 0.728993833065033, "learning_rate": 0.0002668670547031571, "loss": 3.8713, "step": 105090 }, { "epoch": 0.21895833333333334, "grad_norm": 0.9658108949661255, "learning_rate": 0.0002668608742941633, "loss": 3.9185, "step": 105100 }, { "epoch": 0.21897916666666667, "grad_norm": 0.8262014985084534, "learning_rate": 0.0002668546933803768, "loss": 3.9789, "step": 105110 }, { "epoch": 0.219, "grad_norm": 0.7392993569374084, "learning_rate": 0.0002668485119618242, "loss": 3.8367, "step": 105120 }, { "epoch": 0.21902083333333333, "grad_norm": 0.7432605624198914, "learning_rate": 0.00026684233003853236, "loss": 3.882, "step": 105130 }, { "epoch": 0.21904166666666666, "grad_norm": 0.7666639685630798, "learning_rate": 0.00026683614761052786, "loss": 3.9536, "step": 105140 }, { "epoch": 0.2190625, "grad_norm": 0.7497982978820801, "learning_rate": 0.00026682996467783745, "loss": 3.9303, "step": 105150 }, { "epoch": 0.21908333333333332, "grad_norm": 0.7865482568740845, "learning_rate": 0.0002668237812404879, "loss": 3.8498, "step": 105160 }, { "epoch": 0.21910416666666666, "grad_norm": 0.7616860270500183, "learning_rate": 0.0002668175972985058, "loss": 4.0287, "step": 105170 }, { "epoch": 0.219125, "grad_norm": 0.71839439868927, "learning_rate": 0.0002668114128519179, "loss": 3.9839, "step": 105180 }, { "epoch": 0.21914583333333335, "grad_norm": 0.7999733090400696, "learning_rate": 0.000266805227900751, "loss": 3.9214, "step": 105190 }, { "epoch": 0.21916666666666668, "grad_norm": 0.7660910487174988, "learning_rate": 0.00026679904244503167, "loss": 3.9398, "step": 105200 }, { "epoch": 0.2191875, "grad_norm": 0.7827932238578796, "learning_rate": 0.00026679285648478676, "loss": 3.9862, "step": 105210 }, { "epoch": 0.21920833333333334, "grad_norm": 0.7547827959060669, "learning_rate": 0.00026678667002004295, "loss": 4.0437, "step": 105220 }, { "epoch": 0.21922916666666667, "grad_norm": 0.9763752818107605, "learning_rate": 0.0002667804830508269, "loss": 3.773, "step": 105230 }, { "epoch": 0.21925, "grad_norm": 0.7883580327033997, "learning_rate": 0.00026677429557716545, "loss": 3.8381, "step": 105240 }, { "epoch": 0.21927083333333333, "grad_norm": 0.8377566337585449, "learning_rate": 0.00026676810759908526, "loss": 3.7737, "step": 105250 }, { "epoch": 0.21929166666666666, "grad_norm": 0.719329297542572, "learning_rate": 0.000266761919116613, "loss": 3.953, "step": 105260 }, { "epoch": 0.2193125, "grad_norm": 0.859813392162323, "learning_rate": 0.0002667557301297755, "loss": 4.0518, "step": 105270 }, { "epoch": 0.21933333333333332, "grad_norm": 0.6758179068565369, "learning_rate": 0.00026674954063859947, "loss": 4.0481, "step": 105280 }, { "epoch": 0.21935416666666666, "grad_norm": 0.7060511708259583, "learning_rate": 0.00026674335064311166, "loss": 3.8006, "step": 105290 }, { "epoch": 0.219375, "grad_norm": 0.7398645877838135, "learning_rate": 0.00026673716014333877, "loss": 3.8796, "step": 105300 }, { "epoch": 0.21939583333333335, "grad_norm": 0.724229097366333, "learning_rate": 0.00026673096913930756, "loss": 3.9223, "step": 105310 }, { "epoch": 0.21941666666666668, "grad_norm": 0.6884937286376953, "learning_rate": 0.00026672477763104477, "loss": 3.886, "step": 105320 }, { "epoch": 0.2194375, "grad_norm": 0.7349305748939514, "learning_rate": 0.0002667185856185771, "loss": 3.9454, "step": 105330 }, { "epoch": 0.21945833333333334, "grad_norm": 0.7666019201278687, "learning_rate": 0.0002667123931019314, "loss": 3.7856, "step": 105340 }, { "epoch": 0.21947916666666667, "grad_norm": 0.6945618987083435, "learning_rate": 0.0002667062000811343, "loss": 4.0033, "step": 105350 }, { "epoch": 0.2195, "grad_norm": 0.7147140502929688, "learning_rate": 0.00026670000655621264, "loss": 4.1642, "step": 105360 }, { "epoch": 0.21952083333333333, "grad_norm": 0.8542624115943909, "learning_rate": 0.0002666938125271932, "loss": 3.8872, "step": 105370 }, { "epoch": 0.21954166666666666, "grad_norm": 0.7031590342521667, "learning_rate": 0.0002666876179941026, "loss": 4.0464, "step": 105380 }, { "epoch": 0.2195625, "grad_norm": 0.771092414855957, "learning_rate": 0.0002666814229569677, "loss": 3.8151, "step": 105390 }, { "epoch": 0.21958333333333332, "grad_norm": 0.712288498878479, "learning_rate": 0.00026667522741581525, "loss": 4.0759, "step": 105400 }, { "epoch": 0.21960416666666666, "grad_norm": 0.7369149923324585, "learning_rate": 0.000266669031370672, "loss": 3.9501, "step": 105410 }, { "epoch": 0.219625, "grad_norm": 0.7684122323989868, "learning_rate": 0.0002666628348215647, "loss": 4.0854, "step": 105420 }, { "epoch": 0.21964583333333335, "grad_norm": 0.7138094305992126, "learning_rate": 0.00026665663776852017, "loss": 3.9972, "step": 105430 }, { "epoch": 0.21966666666666668, "grad_norm": 0.7374135851860046, "learning_rate": 0.0002666504402115651, "loss": 3.7908, "step": 105440 }, { "epoch": 0.2196875, "grad_norm": 0.8267068266868591, "learning_rate": 0.0002666442421507263, "loss": 3.8005, "step": 105450 }, { "epoch": 0.21970833333333334, "grad_norm": 1.0193334817886353, "learning_rate": 0.00026663804358603054, "loss": 3.7568, "step": 105460 }, { "epoch": 0.21972916666666667, "grad_norm": 0.8747304677963257, "learning_rate": 0.0002666318445175047, "loss": 3.9957, "step": 105470 }, { "epoch": 0.21975, "grad_norm": 0.9369239807128906, "learning_rate": 0.0002666256449451753, "loss": 3.8707, "step": 105480 }, { "epoch": 0.21977083333333333, "grad_norm": 0.700725793838501, "learning_rate": 0.0002666194448690694, "loss": 3.8802, "step": 105490 }, { "epoch": 0.21979166666666666, "grad_norm": 0.726491391658783, "learning_rate": 0.0002666132442892136, "loss": 4.0617, "step": 105500 }, { "epoch": 0.2198125, "grad_norm": 0.746843159198761, "learning_rate": 0.0002666070432056348, "loss": 3.8178, "step": 105510 }, { "epoch": 0.21983333333333333, "grad_norm": 0.7673795223236084, "learning_rate": 0.00026660084161835967, "loss": 3.797, "step": 105520 }, { "epoch": 0.21985416666666666, "grad_norm": 0.7605812549591064, "learning_rate": 0.00026659463952741506, "loss": 3.9315, "step": 105530 }, { "epoch": 0.219875, "grad_norm": 0.763658344745636, "learning_rate": 0.00026658843693282776, "loss": 4.0043, "step": 105540 }, { "epoch": 0.21989583333333335, "grad_norm": 0.8275021910667419, "learning_rate": 0.0002665822338346246, "loss": 3.8891, "step": 105550 }, { "epoch": 0.21991666666666668, "grad_norm": 0.7398106455802917, "learning_rate": 0.0002665760302328323, "loss": 3.8445, "step": 105560 }, { "epoch": 0.2199375, "grad_norm": 0.8677472472190857, "learning_rate": 0.0002665698261274777, "loss": 3.9601, "step": 105570 }, { "epoch": 0.21995833333333334, "grad_norm": 0.8173753619194031, "learning_rate": 0.0002665636215185876, "loss": 3.9152, "step": 105580 }, { "epoch": 0.21997916666666667, "grad_norm": 0.7400959730148315, "learning_rate": 0.0002665574164061888, "loss": 4.0748, "step": 105590 }, { "epoch": 0.22, "grad_norm": 0.9690905809402466, "learning_rate": 0.0002665512107903081, "loss": 3.938, "step": 105600 }, { "epoch": 0.22002083333333333, "grad_norm": 0.8001475930213928, "learning_rate": 0.0002665450046709723, "loss": 3.9462, "step": 105610 }, { "epoch": 0.22004166666666666, "grad_norm": 0.7573313117027283, "learning_rate": 0.00026653879804820817, "loss": 3.8258, "step": 105620 }, { "epoch": 0.2200625, "grad_norm": 0.8333478569984436, "learning_rate": 0.0002665325909220426, "loss": 3.9399, "step": 105630 }, { "epoch": 0.22008333333333333, "grad_norm": 0.6649231910705566, "learning_rate": 0.0002665263832925024, "loss": 4.0425, "step": 105640 }, { "epoch": 0.22010416666666666, "grad_norm": 0.7845414876937866, "learning_rate": 0.00026652017515961426, "loss": 3.9934, "step": 105650 }, { "epoch": 0.220125, "grad_norm": 0.7115461826324463, "learning_rate": 0.00026651396652340516, "loss": 3.6655, "step": 105660 }, { "epoch": 0.22014583333333335, "grad_norm": 0.7441027760505676, "learning_rate": 0.0002665077573839018, "loss": 3.906, "step": 105670 }, { "epoch": 0.22016666666666668, "grad_norm": 0.8220618963241577, "learning_rate": 0.0002665015477411311, "loss": 3.8488, "step": 105680 }, { "epoch": 0.2201875, "grad_norm": 0.726945161819458, "learning_rate": 0.0002664953375951198, "loss": 3.8297, "step": 105690 }, { "epoch": 0.22020833333333334, "grad_norm": 0.7362468838691711, "learning_rate": 0.00026648912694589473, "loss": 3.746, "step": 105700 }, { "epoch": 0.22022916666666667, "grad_norm": 0.7386288642883301, "learning_rate": 0.00026648291579348273, "loss": 3.7976, "step": 105710 }, { "epoch": 0.22025, "grad_norm": 0.7297850251197815, "learning_rate": 0.0002664767041379107, "loss": 4.0067, "step": 105720 }, { "epoch": 0.22027083333333333, "grad_norm": 0.7793077230453491, "learning_rate": 0.00026647049197920536, "loss": 3.9055, "step": 105730 }, { "epoch": 0.22029166666666666, "grad_norm": 0.7442745566368103, "learning_rate": 0.00026646427931739365, "loss": 3.8418, "step": 105740 }, { "epoch": 0.2203125, "grad_norm": 0.8482430577278137, "learning_rate": 0.00026645806615250233, "loss": 3.8892, "step": 105750 }, { "epoch": 0.22033333333333333, "grad_norm": 0.85197913646698, "learning_rate": 0.0002664518524845582, "loss": 3.9189, "step": 105760 }, { "epoch": 0.22035416666666666, "grad_norm": 0.853791356086731, "learning_rate": 0.0002664456383135882, "loss": 3.913, "step": 105770 }, { "epoch": 0.220375, "grad_norm": 0.719450056552887, "learning_rate": 0.0002664394236396192, "loss": 3.8338, "step": 105780 }, { "epoch": 0.22039583333333335, "grad_norm": 0.768027663230896, "learning_rate": 0.0002664332084626779, "loss": 4.0376, "step": 105790 }, { "epoch": 0.22041666666666668, "grad_norm": 0.7706342339515686, "learning_rate": 0.00026642699278279125, "loss": 3.8771, "step": 105800 }, { "epoch": 0.2204375, "grad_norm": 0.8393242955207825, "learning_rate": 0.0002664207765999861, "loss": 3.9024, "step": 105810 }, { "epoch": 0.22045833333333334, "grad_norm": 0.839827835559845, "learning_rate": 0.0002664145599142893, "loss": 3.7915, "step": 105820 }, { "epoch": 0.22047916666666667, "grad_norm": 0.8493495583534241, "learning_rate": 0.0002664083427257276, "loss": 4.0486, "step": 105830 }, { "epoch": 0.2205, "grad_norm": 0.7559679746627808, "learning_rate": 0.000266402125034328, "loss": 3.7525, "step": 105840 }, { "epoch": 0.22052083333333333, "grad_norm": 0.785567045211792, "learning_rate": 0.00026639590684011727, "loss": 3.8833, "step": 105850 }, { "epoch": 0.22054166666666666, "grad_norm": 0.8014571070671082, "learning_rate": 0.0002663896881431223, "loss": 3.9134, "step": 105860 }, { "epoch": 0.2205625, "grad_norm": 0.7504716515541077, "learning_rate": 0.0002663834689433699, "loss": 3.8839, "step": 105870 }, { "epoch": 0.22058333333333333, "grad_norm": 0.7571702003479004, "learning_rate": 0.0002663772492408871, "loss": 3.8229, "step": 105880 }, { "epoch": 0.22060416666666666, "grad_norm": 0.7657384276390076, "learning_rate": 0.00026637102903570055, "loss": 3.6461, "step": 105890 }, { "epoch": 0.220625, "grad_norm": 0.7977587580680847, "learning_rate": 0.00026636480832783723, "loss": 3.6772, "step": 105900 }, { "epoch": 0.22064583333333335, "grad_norm": 0.7607811093330383, "learning_rate": 0.000266358587117324, "loss": 3.7536, "step": 105910 }, { "epoch": 0.22066666666666668, "grad_norm": 0.7685151696205139, "learning_rate": 0.00026635236540418773, "loss": 3.9102, "step": 105920 }, { "epoch": 0.2206875, "grad_norm": 0.9433813691139221, "learning_rate": 0.00026634614318845533, "loss": 3.9243, "step": 105930 }, { "epoch": 0.22070833333333334, "grad_norm": 0.8997839689254761, "learning_rate": 0.00026633992047015364, "loss": 3.7783, "step": 105940 }, { "epoch": 0.22072916666666667, "grad_norm": 0.7003724575042725, "learning_rate": 0.0002663336972493095, "loss": 3.772, "step": 105950 }, { "epoch": 0.22075, "grad_norm": 0.7610173225402832, "learning_rate": 0.0002663274735259499, "loss": 3.894, "step": 105960 }, { "epoch": 0.22077083333333333, "grad_norm": 0.7154001593589783, "learning_rate": 0.0002663212493001016, "loss": 3.7608, "step": 105970 }, { "epoch": 0.22079166666666666, "grad_norm": 0.751069188117981, "learning_rate": 0.0002663150245717916, "loss": 3.9089, "step": 105980 }, { "epoch": 0.2208125, "grad_norm": 0.7022091150283813, "learning_rate": 0.0002663087993410467, "loss": 3.7608, "step": 105990 }, { "epoch": 0.22083333333333333, "grad_norm": 0.6944957971572876, "learning_rate": 0.0002663025736078938, "loss": 3.897, "step": 106000 }, { "epoch": 0.22083333333333333, "eval_loss": 4.263007164001465, "eval_runtime": 11.5851, "eval_samples_per_second": 0.863, "eval_steps_per_second": 0.259, "step": 106000 }, { "epoch": 0.22085416666666666, "grad_norm": 0.7495271563529968, "learning_rate": 0.0002662963473723599, "loss": 3.9281, "step": 106010 }, { "epoch": 0.220875, "grad_norm": 0.9212570190429688, "learning_rate": 0.00026629012063447173, "loss": 3.8094, "step": 106020 }, { "epoch": 0.22089583333333335, "grad_norm": 0.7677696943283081, "learning_rate": 0.0002662838933942563, "loss": 3.9096, "step": 106030 }, { "epoch": 0.22091666666666668, "grad_norm": 0.8192338943481445, "learning_rate": 0.0002662776656517405, "loss": 3.7621, "step": 106040 }, { "epoch": 0.2209375, "grad_norm": 0.767661452293396, "learning_rate": 0.00026627143740695115, "loss": 4.0155, "step": 106050 }, { "epoch": 0.22095833333333334, "grad_norm": 0.782114565372467, "learning_rate": 0.00026626520865991526, "loss": 3.927, "step": 106060 }, { "epoch": 0.22097916666666667, "grad_norm": 0.7513480186462402, "learning_rate": 0.00026625897941065974, "loss": 3.8428, "step": 106070 }, { "epoch": 0.221, "grad_norm": 0.7380729913711548, "learning_rate": 0.00026625274965921136, "loss": 4.0565, "step": 106080 }, { "epoch": 0.22102083333333333, "grad_norm": 0.7644425630569458, "learning_rate": 0.00026624651940559713, "loss": 3.8958, "step": 106090 }, { "epoch": 0.22104166666666666, "grad_norm": 0.7268819808959961, "learning_rate": 0.000266240288649844, "loss": 3.8689, "step": 106100 }, { "epoch": 0.2210625, "grad_norm": 0.9829049110412598, "learning_rate": 0.00026623405739197877, "loss": 3.8698, "step": 106110 }, { "epoch": 0.22108333333333333, "grad_norm": 0.7404220700263977, "learning_rate": 0.00026622782563202847, "loss": 3.9373, "step": 106120 }, { "epoch": 0.22110416666666666, "grad_norm": 0.6607434749603271, "learning_rate": 0.00026622159337002, "loss": 3.9529, "step": 106130 }, { "epoch": 0.221125, "grad_norm": 0.7616944909095764, "learning_rate": 0.0002662153606059801, "loss": 3.827, "step": 106140 }, { "epoch": 0.22114583333333335, "grad_norm": 0.7866303324699402, "learning_rate": 0.000266209127339936, "loss": 3.9808, "step": 106150 }, { "epoch": 0.22116666666666668, "grad_norm": 0.8451835513114929, "learning_rate": 0.00026620289357191443, "loss": 4.1705, "step": 106160 }, { "epoch": 0.2211875, "grad_norm": 0.7590757608413696, "learning_rate": 0.0002661966593019423, "loss": 3.7789, "step": 106170 }, { "epoch": 0.22120833333333334, "grad_norm": 0.7942466139793396, "learning_rate": 0.00026619042453004667, "loss": 3.8496, "step": 106180 }, { "epoch": 0.22122916666666667, "grad_norm": 0.7167297005653381, "learning_rate": 0.00026618418925625437, "loss": 3.9271, "step": 106190 }, { "epoch": 0.22125, "grad_norm": 0.8119813203811646, "learning_rate": 0.00026617795348059237, "loss": 4.1465, "step": 106200 }, { "epoch": 0.22127083333333333, "grad_norm": 0.7014748454093933, "learning_rate": 0.00026617171720308755, "loss": 3.8074, "step": 106210 }, { "epoch": 0.22129166666666666, "grad_norm": 0.7355243563652039, "learning_rate": 0.00026616548042376697, "loss": 4.0249, "step": 106220 }, { "epoch": 0.2213125, "grad_norm": 0.8808769583702087, "learning_rate": 0.00026615924314265745, "loss": 4.0511, "step": 106230 }, { "epoch": 0.22133333333333333, "grad_norm": 0.7928478717803955, "learning_rate": 0.00026615300535978595, "loss": 3.8143, "step": 106240 }, { "epoch": 0.22135416666666666, "grad_norm": 0.6332072615623474, "learning_rate": 0.00026614676707517945, "loss": 4.0583, "step": 106250 }, { "epoch": 0.221375, "grad_norm": 0.8525303602218628, "learning_rate": 0.00026614052828886496, "loss": 3.954, "step": 106260 }, { "epoch": 0.22139583333333332, "grad_norm": 0.7928577065467834, "learning_rate": 0.0002661342890008693, "loss": 3.7744, "step": 106270 }, { "epoch": 0.22141666666666668, "grad_norm": 0.7467909455299377, "learning_rate": 0.0002661280492112195, "loss": 3.7889, "step": 106280 }, { "epoch": 0.2214375, "grad_norm": 0.743579626083374, "learning_rate": 0.0002661218089199425, "loss": 3.9343, "step": 106290 }, { "epoch": 0.22145833333333334, "grad_norm": 0.7375714182853699, "learning_rate": 0.00026611556812706523, "loss": 3.9651, "step": 106300 }, { "epoch": 0.22147916666666667, "grad_norm": 0.9413690567016602, "learning_rate": 0.0002661093268326147, "loss": 3.7796, "step": 106310 }, { "epoch": 0.2215, "grad_norm": 0.7928476929664612, "learning_rate": 0.00026610308503661784, "loss": 3.9487, "step": 106320 }, { "epoch": 0.22152083333333333, "grad_norm": 0.8981952667236328, "learning_rate": 0.00026609684273910155, "loss": 3.9585, "step": 106330 }, { "epoch": 0.22154166666666666, "grad_norm": 0.6752199530601501, "learning_rate": 0.0002660905999400929, "loss": 3.7719, "step": 106340 }, { "epoch": 0.2215625, "grad_norm": 0.8216575980186462, "learning_rate": 0.00026608435663961875, "loss": 3.9238, "step": 106350 }, { "epoch": 0.22158333333333333, "grad_norm": 0.7550071477890015, "learning_rate": 0.0002660781128377062, "loss": 3.7972, "step": 106360 }, { "epoch": 0.22160416666666666, "grad_norm": 0.698108971118927, "learning_rate": 0.00026607186853438216, "loss": 3.8589, "step": 106370 }, { "epoch": 0.221625, "grad_norm": 0.804286539554596, "learning_rate": 0.00026606562372967355, "loss": 3.8882, "step": 106380 }, { "epoch": 0.22164583333333332, "grad_norm": 0.884022057056427, "learning_rate": 0.00026605937842360736, "loss": 4.0031, "step": 106390 }, { "epoch": 0.22166666666666668, "grad_norm": 0.7534272074699402, "learning_rate": 0.00026605313261621064, "loss": 3.9992, "step": 106400 }, { "epoch": 0.2216875, "grad_norm": 0.6922098398208618, "learning_rate": 0.00026604688630751033, "loss": 3.764, "step": 106410 }, { "epoch": 0.22170833333333334, "grad_norm": 0.8696918487548828, "learning_rate": 0.00026604063949753337, "loss": 3.9052, "step": 106420 }, { "epoch": 0.22172916666666667, "grad_norm": 0.8363291025161743, "learning_rate": 0.0002660343921863068, "loss": 3.9409, "step": 106430 }, { "epoch": 0.22175, "grad_norm": 0.8817480206489563, "learning_rate": 0.0002660281443738576, "loss": 3.9565, "step": 106440 }, { "epoch": 0.22177083333333333, "grad_norm": 0.7801922559738159, "learning_rate": 0.0002660218960602127, "loss": 3.9034, "step": 106450 }, { "epoch": 0.22179166666666666, "grad_norm": 0.7722594141960144, "learning_rate": 0.0002660156472453992, "loss": 3.9085, "step": 106460 }, { "epoch": 0.2218125, "grad_norm": 0.8719643950462341, "learning_rate": 0.000266009397929444, "loss": 4.0434, "step": 106470 }, { "epoch": 0.22183333333333333, "grad_norm": 0.7910572290420532, "learning_rate": 0.0002660031481123741, "loss": 4.0634, "step": 106480 }, { "epoch": 0.22185416666666666, "grad_norm": 1.0808076858520508, "learning_rate": 0.0002659968977942165, "loss": 4.0856, "step": 106490 }, { "epoch": 0.221875, "grad_norm": 0.8004506826400757, "learning_rate": 0.0002659906469749983, "loss": 3.8287, "step": 106500 }, { "epoch": 0.22189583333333332, "grad_norm": 0.8332095742225647, "learning_rate": 0.0002659843956547463, "loss": 3.859, "step": 106510 }, { "epoch": 0.22191666666666668, "grad_norm": 0.7841601967811584, "learning_rate": 0.0002659781438334877, "loss": 3.8558, "step": 106520 }, { "epoch": 0.2219375, "grad_norm": 0.7245835661888123, "learning_rate": 0.0002659718915112494, "loss": 3.8181, "step": 106530 }, { "epoch": 0.22195833333333334, "grad_norm": 0.7690312266349792, "learning_rate": 0.00026596563868805845, "loss": 3.8979, "step": 106540 }, { "epoch": 0.22197916666666667, "grad_norm": 0.7009631395339966, "learning_rate": 0.00026595938536394184, "loss": 3.9225, "step": 106550 }, { "epoch": 0.222, "grad_norm": 0.674130916595459, "learning_rate": 0.00026595313153892654, "loss": 3.9704, "step": 106560 }, { "epoch": 0.22202083333333333, "grad_norm": 0.9195488095283508, "learning_rate": 0.0002659468772130397, "loss": 3.7929, "step": 106570 }, { "epoch": 0.22204166666666666, "grad_norm": 0.7544596791267395, "learning_rate": 0.00026594062238630817, "loss": 3.8474, "step": 106580 }, { "epoch": 0.2220625, "grad_norm": 0.9778372645378113, "learning_rate": 0.0002659343670587591, "loss": 3.6234, "step": 106590 }, { "epoch": 0.22208333333333333, "grad_norm": 0.8703648447990417, "learning_rate": 0.00026592811123041937, "loss": 3.8989, "step": 106600 }, { "epoch": 0.22210416666666666, "grad_norm": 0.8328741192817688, "learning_rate": 0.00026592185490131615, "loss": 3.8533, "step": 106610 }, { "epoch": 0.222125, "grad_norm": 0.6787323355674744, "learning_rate": 0.00026591559807147643, "loss": 3.9707, "step": 106620 }, { "epoch": 0.22214583333333332, "grad_norm": 0.7863646745681763, "learning_rate": 0.00026590934074092716, "loss": 3.966, "step": 106630 }, { "epoch": 0.22216666666666668, "grad_norm": 0.7725445628166199, "learning_rate": 0.00026590308290969544, "loss": 3.9065, "step": 106640 }, { "epoch": 0.2221875, "grad_norm": 0.7791009545326233, "learning_rate": 0.00026589682457780827, "loss": 4.0331, "step": 106650 }, { "epoch": 0.22220833333333334, "grad_norm": 0.7611457705497742, "learning_rate": 0.0002658905657452927, "loss": 3.9234, "step": 106660 }, { "epoch": 0.22222916666666667, "grad_norm": 0.8106477856636047, "learning_rate": 0.0002658843064121757, "loss": 4.0255, "step": 106670 }, { "epoch": 0.22225, "grad_norm": 0.7849729657173157, "learning_rate": 0.00026587804657848444, "loss": 4.0635, "step": 106680 }, { "epoch": 0.22227083333333333, "grad_norm": 0.6616964936256409, "learning_rate": 0.00026587178624424586, "loss": 3.8768, "step": 106690 }, { "epoch": 0.22229166666666667, "grad_norm": 0.7264218330383301, "learning_rate": 0.000265865525409487, "loss": 4.1401, "step": 106700 }, { "epoch": 0.2223125, "grad_norm": 0.8588873147964478, "learning_rate": 0.000265859264074235, "loss": 3.8622, "step": 106710 }, { "epoch": 0.22233333333333333, "grad_norm": 0.712618350982666, "learning_rate": 0.0002658530022385168, "loss": 3.9907, "step": 106720 }, { "epoch": 0.22235416666666666, "grad_norm": 0.7516477108001709, "learning_rate": 0.0002658467399023595, "loss": 3.9207, "step": 106730 }, { "epoch": 0.222375, "grad_norm": 0.758374035358429, "learning_rate": 0.00026584047706579013, "loss": 4.0066, "step": 106740 }, { "epoch": 0.22239583333333332, "grad_norm": 0.8018149137496948, "learning_rate": 0.00026583421372883574, "loss": 3.9142, "step": 106750 }, { "epoch": 0.22241666666666668, "grad_norm": 0.7033915519714355, "learning_rate": 0.0002658279498915234, "loss": 3.9871, "step": 106760 }, { "epoch": 0.2224375, "grad_norm": 0.7712659239768982, "learning_rate": 0.00026582168555388017, "loss": 3.7746, "step": 106770 }, { "epoch": 0.22245833333333334, "grad_norm": 1.012284755706787, "learning_rate": 0.00026581542071593315, "loss": 3.9335, "step": 106780 }, { "epoch": 0.22247916666666667, "grad_norm": 0.8726108074188232, "learning_rate": 0.0002658091553777093, "loss": 3.8852, "step": 106790 }, { "epoch": 0.2225, "grad_norm": 0.6966093182563782, "learning_rate": 0.0002658028895392357, "loss": 3.9296, "step": 106800 }, { "epoch": 0.22252083333333333, "grad_norm": 0.7011997103691101, "learning_rate": 0.00026579662320053957, "loss": 4.0139, "step": 106810 }, { "epoch": 0.22254166666666667, "grad_norm": 0.6668365001678467, "learning_rate": 0.0002657903563616478, "loss": 3.9151, "step": 106820 }, { "epoch": 0.2225625, "grad_norm": 0.7497164607048035, "learning_rate": 0.0002657840890225875, "loss": 3.9849, "step": 106830 }, { "epoch": 0.22258333333333333, "grad_norm": 1.9956046342849731, "learning_rate": 0.0002657778211833858, "loss": 3.8486, "step": 106840 }, { "epoch": 0.22260416666666666, "grad_norm": 0.7006537318229675, "learning_rate": 0.00026577155284406977, "loss": 4.0221, "step": 106850 }, { "epoch": 0.222625, "grad_norm": 0.6869621276855469, "learning_rate": 0.00026576528400466636, "loss": 4.1174, "step": 106860 }, { "epoch": 0.22264583333333332, "grad_norm": 0.7424688339233398, "learning_rate": 0.0002657590146652028, "loss": 3.8777, "step": 106870 }, { "epoch": 0.22266666666666668, "grad_norm": 0.6974683403968811, "learning_rate": 0.00026575274482570617, "loss": 3.9291, "step": 106880 }, { "epoch": 0.2226875, "grad_norm": 0.8646669387817383, "learning_rate": 0.00026574647448620345, "loss": 4.0359, "step": 106890 }, { "epoch": 0.22270833333333334, "grad_norm": 0.7763456702232361, "learning_rate": 0.00026574020364672176, "loss": 3.9785, "step": 106900 }, { "epoch": 0.22272916666666667, "grad_norm": 0.7240476608276367, "learning_rate": 0.0002657339323072882, "loss": 3.7879, "step": 106910 }, { "epoch": 0.22275, "grad_norm": 0.8518239259719849, "learning_rate": 0.00026572766046792986, "loss": 3.8854, "step": 106920 }, { "epoch": 0.22277083333333333, "grad_norm": 0.7275566458702087, "learning_rate": 0.0002657213881286739, "loss": 3.9473, "step": 106930 }, { "epoch": 0.22279166666666667, "grad_norm": 0.7805466055870056, "learning_rate": 0.0002657151152895473, "loss": 3.8436, "step": 106940 }, { "epoch": 0.2228125, "grad_norm": 0.8923725485801697, "learning_rate": 0.0002657088419505772, "loss": 3.9055, "step": 106950 }, { "epoch": 0.22283333333333333, "grad_norm": 0.7302841544151306, "learning_rate": 0.0002657025681117907, "loss": 3.9748, "step": 106960 }, { "epoch": 0.22285416666666666, "grad_norm": 0.7336488962173462, "learning_rate": 0.00026569629377321495, "loss": 4.061, "step": 106970 }, { "epoch": 0.222875, "grad_norm": 0.7312243580818176, "learning_rate": 0.00026569001893487695, "loss": 3.8757, "step": 106980 }, { "epoch": 0.22289583333333332, "grad_norm": 0.7413064241409302, "learning_rate": 0.00026568374359680393, "loss": 4.0734, "step": 106990 }, { "epoch": 0.22291666666666668, "grad_norm": 0.7719700336456299, "learning_rate": 0.00026567746775902284, "loss": 4.0565, "step": 107000 }, { "epoch": 0.22291666666666668, "eval_loss": 4.259228706359863, "eval_runtime": 10.7727, "eval_samples_per_second": 0.928, "eval_steps_per_second": 0.278, "step": 107000 }, { "epoch": 0.2229375, "grad_norm": 0.7677245140075684, "learning_rate": 0.000265671191421561, "loss": 3.9025, "step": 107010 }, { "epoch": 0.22295833333333334, "grad_norm": 1.0918828248977661, "learning_rate": 0.0002656649145844453, "loss": 4.0099, "step": 107020 }, { "epoch": 0.22297916666666667, "grad_norm": 0.7574662566184998, "learning_rate": 0.00026565863724770295, "loss": 3.8251, "step": 107030 }, { "epoch": 0.223, "grad_norm": 0.8037267923355103, "learning_rate": 0.0002656523594113611, "loss": 3.8877, "step": 107040 }, { "epoch": 0.22302083333333333, "grad_norm": 0.8779398202896118, "learning_rate": 0.00026564608107544684, "loss": 3.8325, "step": 107050 }, { "epoch": 0.22304166666666667, "grad_norm": 0.8288348913192749, "learning_rate": 0.00026563980223998725, "loss": 3.9819, "step": 107060 }, { "epoch": 0.2230625, "grad_norm": 0.8896586298942566, "learning_rate": 0.00026563352290500953, "loss": 4.0356, "step": 107070 }, { "epoch": 0.22308333333333333, "grad_norm": 0.8191094994544983, "learning_rate": 0.0002656272430705408, "loss": 3.913, "step": 107080 }, { "epoch": 0.22310416666666666, "grad_norm": 0.6436986923217773, "learning_rate": 0.0002656209627366081, "loss": 3.9173, "step": 107090 }, { "epoch": 0.223125, "grad_norm": 0.7644083499908447, "learning_rate": 0.00026561468190323853, "loss": 3.804, "step": 107100 }, { "epoch": 0.22314583333333332, "grad_norm": 0.6941161155700684, "learning_rate": 0.00026560840057045937, "loss": 3.9998, "step": 107110 }, { "epoch": 0.22316666666666668, "grad_norm": 0.7605928182601929, "learning_rate": 0.0002656021187382977, "loss": 4.1159, "step": 107120 }, { "epoch": 0.2231875, "grad_norm": 0.8727775812149048, "learning_rate": 0.0002655958364067806, "loss": 4.0363, "step": 107130 }, { "epoch": 0.22320833333333334, "grad_norm": 0.7707823514938354, "learning_rate": 0.00026558955357593525, "loss": 3.9256, "step": 107140 }, { "epoch": 0.22322916666666667, "grad_norm": 0.760208249092102, "learning_rate": 0.0002655832702457888, "loss": 3.8698, "step": 107150 }, { "epoch": 0.22325, "grad_norm": 0.7524341344833374, "learning_rate": 0.00026557698641636835, "loss": 3.8695, "step": 107160 }, { "epoch": 0.22327083333333334, "grad_norm": 0.7939009666442871, "learning_rate": 0.0002655707020877011, "loss": 4.0827, "step": 107170 }, { "epoch": 0.22329166666666667, "grad_norm": 0.7592851519584656, "learning_rate": 0.00026556441725981414, "loss": 3.9316, "step": 107180 }, { "epoch": 0.2233125, "grad_norm": 0.7610192894935608, "learning_rate": 0.00026555813193273464, "loss": 3.9483, "step": 107190 }, { "epoch": 0.22333333333333333, "grad_norm": 0.8078341484069824, "learning_rate": 0.00026555184610648977, "loss": 3.8478, "step": 107200 }, { "epoch": 0.22335416666666666, "grad_norm": 0.750744104385376, "learning_rate": 0.0002655455597811066, "loss": 3.9728, "step": 107210 }, { "epoch": 0.223375, "grad_norm": 0.7998350262641907, "learning_rate": 0.0002655392729566124, "loss": 4.1324, "step": 107220 }, { "epoch": 0.22339583333333332, "grad_norm": 0.8170853853225708, "learning_rate": 0.0002655329856330343, "loss": 4.1032, "step": 107230 }, { "epoch": 0.22341666666666668, "grad_norm": 0.7446580529212952, "learning_rate": 0.0002655266978103994, "loss": 3.7184, "step": 107240 }, { "epoch": 0.2234375, "grad_norm": 0.6860045790672302, "learning_rate": 0.0002655204094887349, "loss": 4.0353, "step": 107250 }, { "epoch": 0.22345833333333334, "grad_norm": 0.8715390563011169, "learning_rate": 0.00026551412066806794, "loss": 3.9282, "step": 107260 }, { "epoch": 0.22347916666666667, "grad_norm": 0.7032885551452637, "learning_rate": 0.0002655078313484257, "loss": 3.8907, "step": 107270 }, { "epoch": 0.2235, "grad_norm": 0.7164519429206848, "learning_rate": 0.0002655015415298354, "loss": 3.7976, "step": 107280 }, { "epoch": 0.22352083333333334, "grad_norm": 0.7490293979644775, "learning_rate": 0.00026549525121232414, "loss": 3.9742, "step": 107290 }, { "epoch": 0.22354166666666667, "grad_norm": 0.7898446321487427, "learning_rate": 0.00026548896039591907, "loss": 3.9779, "step": 107300 }, { "epoch": 0.2235625, "grad_norm": 0.9759935736656189, "learning_rate": 0.0002654826690806475, "loss": 4.0217, "step": 107310 }, { "epoch": 0.22358333333333333, "grad_norm": 0.8574326038360596, "learning_rate": 0.0002654763772665364, "loss": 3.795, "step": 107320 }, { "epoch": 0.22360416666666666, "grad_norm": 0.6761444807052612, "learning_rate": 0.0002654700849536131, "loss": 3.9371, "step": 107330 }, { "epoch": 0.223625, "grad_norm": 0.745129406452179, "learning_rate": 0.00026546379214190477, "loss": 4.0349, "step": 107340 }, { "epoch": 0.22364583333333332, "grad_norm": 0.7850171327590942, "learning_rate": 0.00026545749883143853, "loss": 3.7608, "step": 107350 }, { "epoch": 0.22366666666666668, "grad_norm": 0.8618757128715515, "learning_rate": 0.0002654512050222416, "loss": 3.8327, "step": 107360 }, { "epoch": 0.2236875, "grad_norm": 0.739352822303772, "learning_rate": 0.00026544491071434117, "loss": 4.068, "step": 107370 }, { "epoch": 0.22370833333333334, "grad_norm": 0.7913686037063599, "learning_rate": 0.00026543861590776435, "loss": 4.0086, "step": 107380 }, { "epoch": 0.22372916666666667, "grad_norm": 0.7705641984939575, "learning_rate": 0.0002654323206025385, "loss": 3.915, "step": 107390 }, { "epoch": 0.22375, "grad_norm": 0.7584271430969238, "learning_rate": 0.00026542602479869064, "loss": 3.8358, "step": 107400 }, { "epoch": 0.22377083333333334, "grad_norm": 0.7203395366668701, "learning_rate": 0.0002654197284962481, "loss": 3.7604, "step": 107410 }, { "epoch": 0.22379166666666667, "grad_norm": 0.7428842782974243, "learning_rate": 0.00026541343169523803, "loss": 3.9863, "step": 107420 }, { "epoch": 0.2238125, "grad_norm": 0.7380913496017456, "learning_rate": 0.0002654071343956876, "loss": 3.96, "step": 107430 }, { "epoch": 0.22383333333333333, "grad_norm": 0.8246150016784668, "learning_rate": 0.000265400836597624, "loss": 3.7616, "step": 107440 }, { "epoch": 0.22385416666666666, "grad_norm": 1.0532253980636597, "learning_rate": 0.0002653945383010745, "loss": 3.9266, "step": 107450 }, { "epoch": 0.223875, "grad_norm": 0.6825015544891357, "learning_rate": 0.00026538823950606627, "loss": 3.8685, "step": 107460 }, { "epoch": 0.22389583333333332, "grad_norm": 0.7266039252281189, "learning_rate": 0.0002653819402126265, "loss": 3.7001, "step": 107470 }, { "epoch": 0.22391666666666668, "grad_norm": 0.9822700023651123, "learning_rate": 0.0002653756404207824, "loss": 4.0703, "step": 107480 }, { "epoch": 0.2239375, "grad_norm": 0.7079208493232727, "learning_rate": 0.00026536934013056125, "loss": 3.9164, "step": 107490 }, { "epoch": 0.22395833333333334, "grad_norm": 0.841139554977417, "learning_rate": 0.00026536303934199024, "loss": 4.0352, "step": 107500 }, { "epoch": 0.22397916666666667, "grad_norm": 0.6773451566696167, "learning_rate": 0.0002653567380550965, "loss": 3.8395, "step": 107510 }, { "epoch": 0.224, "grad_norm": 0.8557222485542297, "learning_rate": 0.0002653504362699073, "loss": 3.8345, "step": 107520 }, { "epoch": 0.22402083333333334, "grad_norm": 0.7836664319038391, "learning_rate": 0.00026534413398644996, "loss": 3.818, "step": 107530 }, { "epoch": 0.22404166666666667, "grad_norm": 0.6668901443481445, "learning_rate": 0.00026533783120475155, "loss": 3.8794, "step": 107540 }, { "epoch": 0.2240625, "grad_norm": 0.7809096574783325, "learning_rate": 0.00026533152792483937, "loss": 3.9028, "step": 107550 }, { "epoch": 0.22408333333333333, "grad_norm": 0.9078205823898315, "learning_rate": 0.0002653252241467407, "loss": 3.9512, "step": 107560 }, { "epoch": 0.22410416666666666, "grad_norm": 0.8058987259864807, "learning_rate": 0.0002653189198704826, "loss": 4.0778, "step": 107570 }, { "epoch": 0.224125, "grad_norm": 0.9055424928665161, "learning_rate": 0.00026531261509609247, "loss": 3.8216, "step": 107580 }, { "epoch": 0.22414583333333332, "grad_norm": 0.9539164900779724, "learning_rate": 0.00026530630982359753, "loss": 3.9549, "step": 107590 }, { "epoch": 0.22416666666666665, "grad_norm": 0.7007455825805664, "learning_rate": 0.0002653000040530249, "loss": 3.9578, "step": 107600 }, { "epoch": 0.2241875, "grad_norm": 0.8495174050331116, "learning_rate": 0.0002652936977844019, "loss": 3.9749, "step": 107610 }, { "epoch": 0.22420833333333334, "grad_norm": 0.9904433488845825, "learning_rate": 0.00026528739101775584, "loss": 3.9216, "step": 107620 }, { "epoch": 0.22422916666666667, "grad_norm": 0.8151664137840271, "learning_rate": 0.00026528108375311384, "loss": 3.8695, "step": 107630 }, { "epoch": 0.22425, "grad_norm": 0.8081353306770325, "learning_rate": 0.00026527477599050316, "loss": 3.7737, "step": 107640 }, { "epoch": 0.22427083333333334, "grad_norm": 0.9427882432937622, "learning_rate": 0.0002652684677299511, "loss": 3.6688, "step": 107650 }, { "epoch": 0.22429166666666667, "grad_norm": 0.8764473795890808, "learning_rate": 0.00026526215897148484, "loss": 3.97, "step": 107660 }, { "epoch": 0.2243125, "grad_norm": 0.7579878568649292, "learning_rate": 0.00026525584971513175, "loss": 3.9794, "step": 107670 }, { "epoch": 0.22433333333333333, "grad_norm": 0.8373045921325684, "learning_rate": 0.000265249539960919, "loss": 3.9304, "step": 107680 }, { "epoch": 0.22435416666666666, "grad_norm": 0.7085008025169373, "learning_rate": 0.0002652432297088738, "loss": 3.9066, "step": 107690 }, { "epoch": 0.224375, "grad_norm": 0.6876103281974792, "learning_rate": 0.00026523691895902353, "loss": 3.8296, "step": 107700 }, { "epoch": 0.22439583333333332, "grad_norm": 0.8115256428718567, "learning_rate": 0.00026523060771139535, "loss": 3.9444, "step": 107710 }, { "epoch": 0.22441666666666665, "grad_norm": 0.6655845046043396, "learning_rate": 0.00026522429596601655, "loss": 3.9822, "step": 107720 }, { "epoch": 0.2244375, "grad_norm": 0.7063350677490234, "learning_rate": 0.0002652179837229144, "loss": 4.0137, "step": 107730 }, { "epoch": 0.22445833333333334, "grad_norm": 0.8975074887275696, "learning_rate": 0.00026521167098211623, "loss": 3.9922, "step": 107740 }, { "epoch": 0.22447916666666667, "grad_norm": 0.6861363053321838, "learning_rate": 0.0002652053577436491, "loss": 3.9582, "step": 107750 }, { "epoch": 0.2245, "grad_norm": 0.7187337875366211, "learning_rate": 0.0002651990440075406, "loss": 3.9205, "step": 107760 }, { "epoch": 0.22452083333333334, "grad_norm": 0.9012169241905212, "learning_rate": 0.00026519272977381774, "loss": 3.9932, "step": 107770 }, { "epoch": 0.22454166666666667, "grad_norm": 0.8746116161346436, "learning_rate": 0.0002651864150425079, "loss": 3.7856, "step": 107780 }, { "epoch": 0.2245625, "grad_norm": 0.8028250336647034, "learning_rate": 0.0002651800998136383, "loss": 3.8111, "step": 107790 }, { "epoch": 0.22458333333333333, "grad_norm": 0.8137475252151489, "learning_rate": 0.00026517378408723633, "loss": 3.832, "step": 107800 }, { "epoch": 0.22460416666666666, "grad_norm": 0.7160421013832092, "learning_rate": 0.00026516746786332915, "loss": 3.9565, "step": 107810 }, { "epoch": 0.224625, "grad_norm": 0.7053418159484863, "learning_rate": 0.0002651611511419441, "loss": 3.9425, "step": 107820 }, { "epoch": 0.22464583333333332, "grad_norm": 0.6934900283813477, "learning_rate": 0.0002651548339231085, "loss": 4.0303, "step": 107830 }, { "epoch": 0.22466666666666665, "grad_norm": 0.7565485239028931, "learning_rate": 0.00026514851620684955, "loss": 3.9256, "step": 107840 }, { "epoch": 0.2246875, "grad_norm": 0.700203001499176, "learning_rate": 0.0002651421979931946, "loss": 3.9349, "step": 107850 }, { "epoch": 0.22470833333333334, "grad_norm": 0.8127493262290955, "learning_rate": 0.00026513587928217095, "loss": 3.9847, "step": 107860 }, { "epoch": 0.22472916666666667, "grad_norm": 0.7424354553222656, "learning_rate": 0.00026512956007380587, "loss": 4.0018, "step": 107870 }, { "epoch": 0.22475, "grad_norm": 0.7245036363601685, "learning_rate": 0.00026512324036812664, "loss": 3.66, "step": 107880 }, { "epoch": 0.22477083333333334, "grad_norm": 0.7188828587532043, "learning_rate": 0.0002651169201651606, "loss": 3.7991, "step": 107890 }, { "epoch": 0.22479166666666667, "grad_norm": 0.7548100352287292, "learning_rate": 0.00026511059946493504, "loss": 4.0621, "step": 107900 }, { "epoch": 0.2248125, "grad_norm": 0.7032444477081299, "learning_rate": 0.00026510427826747726, "loss": 4.0631, "step": 107910 }, { "epoch": 0.22483333333333333, "grad_norm": 0.7910984754562378, "learning_rate": 0.0002650979565728145, "loss": 4.0126, "step": 107920 }, { "epoch": 0.22485416666666666, "grad_norm": 0.8080632090568542, "learning_rate": 0.0002650916343809742, "loss": 3.8145, "step": 107930 }, { "epoch": 0.224875, "grad_norm": 0.7022880911827087, "learning_rate": 0.00026508531169198356, "loss": 4.0366, "step": 107940 }, { "epoch": 0.22489583333333332, "grad_norm": 1.0428080558776855, "learning_rate": 0.00026507898850586996, "loss": 3.8148, "step": 107950 }, { "epoch": 0.22491666666666665, "grad_norm": 0.8246618509292603, "learning_rate": 0.0002650726648226606, "loss": 3.854, "step": 107960 }, { "epoch": 0.2249375, "grad_norm": 0.8671993017196655, "learning_rate": 0.00026506634064238295, "loss": 3.8819, "step": 107970 }, { "epoch": 0.22495833333333334, "grad_norm": 0.7429173588752747, "learning_rate": 0.00026506001596506425, "loss": 4.1048, "step": 107980 }, { "epoch": 0.22497916666666667, "grad_norm": 0.7929667234420776, "learning_rate": 0.0002650536907907318, "loss": 3.8898, "step": 107990 }, { "epoch": 0.225, "grad_norm": 0.7828166484832764, "learning_rate": 0.000265047365119413, "loss": 3.9413, "step": 108000 }, { "epoch": 0.225, "eval_loss": 4.2701826095581055, "eval_runtime": 9.5578, "eval_samples_per_second": 1.046, "eval_steps_per_second": 0.314, "step": 108000 }, { "epoch": 0.22502083333333334, "grad_norm": 0.6855906248092651, "learning_rate": 0.0002650410389511351, "loss": 4.0664, "step": 108010 }, { "epoch": 0.22504166666666667, "grad_norm": 0.7390345931053162, "learning_rate": 0.0002650347122859254, "loss": 3.9795, "step": 108020 }, { "epoch": 0.2250625, "grad_norm": 0.7705675363540649, "learning_rate": 0.0002650283851238113, "loss": 3.8993, "step": 108030 }, { "epoch": 0.22508333333333333, "grad_norm": 0.9260096549987793, "learning_rate": 0.00026502205746482013, "loss": 4.0351, "step": 108040 }, { "epoch": 0.22510416666666666, "grad_norm": 0.9677886962890625, "learning_rate": 0.00026501572930897916, "loss": 3.8891, "step": 108050 }, { "epoch": 0.225125, "grad_norm": 0.6848931312561035, "learning_rate": 0.0002650094006563158, "loss": 3.8525, "step": 108060 }, { "epoch": 0.22514583333333332, "grad_norm": 0.7515177130699158, "learning_rate": 0.00026500307150685733, "loss": 3.81, "step": 108070 }, { "epoch": 0.22516666666666665, "grad_norm": 0.7472609281539917, "learning_rate": 0.0002649967418606311, "loss": 4.043, "step": 108080 }, { "epoch": 0.2251875, "grad_norm": 0.7035729289054871, "learning_rate": 0.0002649904117176645, "loss": 3.7697, "step": 108090 }, { "epoch": 0.22520833333333334, "grad_norm": 0.8153097033500671, "learning_rate": 0.00026498408107798483, "loss": 3.8596, "step": 108100 }, { "epoch": 0.22522916666666667, "grad_norm": 0.7727575302124023, "learning_rate": 0.00026497774994161945, "loss": 3.7768, "step": 108110 }, { "epoch": 0.22525, "grad_norm": 0.9080545902252197, "learning_rate": 0.0002649714183085957, "loss": 3.9655, "step": 108120 }, { "epoch": 0.22527083333333334, "grad_norm": 0.7253996133804321, "learning_rate": 0.0002649650861789409, "loss": 4.0605, "step": 108130 }, { "epoch": 0.22529166666666667, "grad_norm": 0.6984232068061829, "learning_rate": 0.00026495875355268247, "loss": 3.9623, "step": 108140 }, { "epoch": 0.2253125, "grad_norm": 0.7518556714057922, "learning_rate": 0.0002649524204298477, "loss": 3.9034, "step": 108150 }, { "epoch": 0.22533333333333333, "grad_norm": 1.0172518491744995, "learning_rate": 0.00026494608681046404, "loss": 3.8013, "step": 108160 }, { "epoch": 0.22535416666666666, "grad_norm": 0.8406162261962891, "learning_rate": 0.0002649397526945587, "loss": 3.8911, "step": 108170 }, { "epoch": 0.225375, "grad_norm": 0.8054888248443604, "learning_rate": 0.00026493341808215914, "loss": 3.9592, "step": 108180 }, { "epoch": 0.22539583333333332, "grad_norm": 0.7733594179153442, "learning_rate": 0.00026492708297329277, "loss": 3.7242, "step": 108190 }, { "epoch": 0.22541666666666665, "grad_norm": 0.9566751718521118, "learning_rate": 0.00026492074736798687, "loss": 3.812, "step": 108200 }, { "epoch": 0.2254375, "grad_norm": 0.7568111419677734, "learning_rate": 0.00026491441126626875, "loss": 3.8475, "step": 108210 }, { "epoch": 0.22545833333333334, "grad_norm": 0.9721013903617859, "learning_rate": 0.00026490807466816597, "loss": 3.8514, "step": 108220 }, { "epoch": 0.22547916666666667, "grad_norm": 0.7420798540115356, "learning_rate": 0.0002649017375737057, "loss": 3.952, "step": 108230 }, { "epoch": 0.2255, "grad_norm": 0.7340584993362427, "learning_rate": 0.00026489539998291546, "loss": 4.0204, "step": 108240 }, { "epoch": 0.22552083333333334, "grad_norm": 0.8068675398826599, "learning_rate": 0.0002648890618958226, "loss": 3.8098, "step": 108250 }, { "epoch": 0.22554166666666667, "grad_norm": 0.9337735772132874, "learning_rate": 0.0002648827233124544, "loss": 4.1307, "step": 108260 }, { "epoch": 0.2255625, "grad_norm": 0.769917368888855, "learning_rate": 0.0002648763842328383, "loss": 3.7521, "step": 108270 }, { "epoch": 0.22558333333333333, "grad_norm": 0.8258672952651978, "learning_rate": 0.00026487004465700173, "loss": 4.1334, "step": 108280 }, { "epoch": 0.22560416666666666, "grad_norm": 0.6714640259742737, "learning_rate": 0.000264863704584972, "loss": 3.9538, "step": 108290 }, { "epoch": 0.225625, "grad_norm": 0.8542248606681824, "learning_rate": 0.00026485736401677664, "loss": 3.983, "step": 108300 }, { "epoch": 0.22564583333333332, "grad_norm": 0.8766009211540222, "learning_rate": 0.0002648510229524428, "loss": 3.8602, "step": 108310 }, { "epoch": 0.22566666666666665, "grad_norm": 0.7024014592170715, "learning_rate": 0.0002648446813919981, "loss": 3.8481, "step": 108320 }, { "epoch": 0.2256875, "grad_norm": 0.9006258249282837, "learning_rate": 0.00026483833933546976, "loss": 4.0391, "step": 108330 }, { "epoch": 0.22570833333333334, "grad_norm": 0.7353135347366333, "learning_rate": 0.0002648319967828853, "loss": 3.8486, "step": 108340 }, { "epoch": 0.22572916666666668, "grad_norm": 0.7824783325195312, "learning_rate": 0.00026482565373427206, "loss": 4.0668, "step": 108350 }, { "epoch": 0.22575, "grad_norm": 0.7513824105262756, "learning_rate": 0.0002648193101896574, "loss": 3.952, "step": 108360 }, { "epoch": 0.22577083333333334, "grad_norm": 0.8437369465827942, "learning_rate": 0.0002648129661490688, "loss": 3.8093, "step": 108370 }, { "epoch": 0.22579166666666667, "grad_norm": 1.0553442239761353, "learning_rate": 0.00026480662161253366, "loss": 3.9647, "step": 108380 }, { "epoch": 0.2258125, "grad_norm": 0.7749742269515991, "learning_rate": 0.00026480027658007935, "loss": 4.1088, "step": 108390 }, { "epoch": 0.22583333333333333, "grad_norm": 0.8228604793548584, "learning_rate": 0.00026479393105173325, "loss": 3.9304, "step": 108400 }, { "epoch": 0.22585416666666666, "grad_norm": 0.9030579328536987, "learning_rate": 0.00026478758502752284, "loss": 3.7751, "step": 108410 }, { "epoch": 0.225875, "grad_norm": 0.8912897109985352, "learning_rate": 0.0002647812385074755, "loss": 3.7719, "step": 108420 }, { "epoch": 0.22589583333333332, "grad_norm": 0.8149330019950867, "learning_rate": 0.0002647748914916186, "loss": 3.9286, "step": 108430 }, { "epoch": 0.22591666666666665, "grad_norm": 0.7595223784446716, "learning_rate": 0.00026476854397997963, "loss": 3.8379, "step": 108440 }, { "epoch": 0.2259375, "grad_norm": 0.755595326423645, "learning_rate": 0.000264762195972586, "loss": 4.0013, "step": 108450 }, { "epoch": 0.22595833333333334, "grad_norm": 0.780499279499054, "learning_rate": 0.0002647558474694651, "loss": 3.8853, "step": 108460 }, { "epoch": 0.22597916666666668, "grad_norm": 0.775527834892273, "learning_rate": 0.00026474949847064437, "loss": 3.9691, "step": 108470 }, { "epoch": 0.226, "grad_norm": 0.718939483165741, "learning_rate": 0.0002647431489761512, "loss": 3.7946, "step": 108480 }, { "epoch": 0.22602083333333334, "grad_norm": 0.9269850254058838, "learning_rate": 0.00026473679898601305, "loss": 3.9013, "step": 108490 }, { "epoch": 0.22604166666666667, "grad_norm": 0.7547590136528015, "learning_rate": 0.00026473044850025735, "loss": 3.8128, "step": 108500 }, { "epoch": 0.2260625, "grad_norm": 0.7387957572937012, "learning_rate": 0.0002647240975189115, "loss": 3.9923, "step": 108510 }, { "epoch": 0.22608333333333333, "grad_norm": 0.893765926361084, "learning_rate": 0.000264717746042003, "loss": 4.0459, "step": 108520 }, { "epoch": 0.22610416666666666, "grad_norm": 0.8834101557731628, "learning_rate": 0.00026471139406955926, "loss": 3.9557, "step": 108530 }, { "epoch": 0.226125, "grad_norm": 0.7173231244087219, "learning_rate": 0.00026470504160160764, "loss": 4.1095, "step": 108540 }, { "epoch": 0.22614583333333332, "grad_norm": 0.7746885418891907, "learning_rate": 0.0002646986886381757, "loss": 3.8995, "step": 108550 }, { "epoch": 0.22616666666666665, "grad_norm": 0.8607303500175476, "learning_rate": 0.0002646923351792908, "loss": 3.9218, "step": 108560 }, { "epoch": 0.2261875, "grad_norm": 0.7040896415710449, "learning_rate": 0.0002646859812249804, "loss": 3.8774, "step": 108570 }, { "epoch": 0.22620833333333334, "grad_norm": 0.7985808849334717, "learning_rate": 0.00026467962677527196, "loss": 3.8572, "step": 108580 }, { "epoch": 0.22622916666666668, "grad_norm": 0.8430532217025757, "learning_rate": 0.00026467327183019295, "loss": 3.7673, "step": 108590 }, { "epoch": 0.22625, "grad_norm": 0.8355246782302856, "learning_rate": 0.00026466691638977075, "loss": 3.9548, "step": 108600 }, { "epoch": 0.22627083333333334, "grad_norm": 0.8682499527931213, "learning_rate": 0.0002646605604540329, "loss": 3.8205, "step": 108610 }, { "epoch": 0.22629166666666667, "grad_norm": 0.6535966992378235, "learning_rate": 0.00026465420402300684, "loss": 3.7764, "step": 108620 }, { "epoch": 0.2263125, "grad_norm": 0.7928372025489807, "learning_rate": 0.00026464784709671993, "loss": 4.0335, "step": 108630 }, { "epoch": 0.22633333333333333, "grad_norm": 0.7565931081771851, "learning_rate": 0.0002646414896751997, "loss": 3.8317, "step": 108640 }, { "epoch": 0.22635416666666666, "grad_norm": 0.8574429750442505, "learning_rate": 0.0002646351317584737, "loss": 3.957, "step": 108650 }, { "epoch": 0.226375, "grad_norm": 0.7410995364189148, "learning_rate": 0.0002646287733465693, "loss": 3.7798, "step": 108660 }, { "epoch": 0.22639583333333332, "grad_norm": 0.653450608253479, "learning_rate": 0.0002646224144395139, "loss": 3.9486, "step": 108670 }, { "epoch": 0.22641666666666665, "grad_norm": 0.9384242296218872, "learning_rate": 0.00026461605503733506, "loss": 3.9158, "step": 108680 }, { "epoch": 0.2264375, "grad_norm": 0.7668075561523438, "learning_rate": 0.0002646096951400603, "loss": 3.9525, "step": 108690 }, { "epoch": 0.22645833333333334, "grad_norm": 0.7403702139854431, "learning_rate": 0.00026460333474771693, "loss": 3.8136, "step": 108700 }, { "epoch": 0.22647916666666668, "grad_norm": 0.7225868105888367, "learning_rate": 0.00026459697386033257, "loss": 3.8819, "step": 108710 }, { "epoch": 0.2265, "grad_norm": 0.6888270378112793, "learning_rate": 0.00026459061247793457, "loss": 4.0308, "step": 108720 }, { "epoch": 0.22652083333333334, "grad_norm": 0.872168779373169, "learning_rate": 0.00026458425060055056, "loss": 4.0748, "step": 108730 }, { "epoch": 0.22654166666666667, "grad_norm": 0.678532600402832, "learning_rate": 0.0002645778882282079, "loss": 4.1489, "step": 108740 }, { "epoch": 0.2265625, "grad_norm": 0.7982475757598877, "learning_rate": 0.0002645715253609342, "loss": 4.0493, "step": 108750 }, { "epoch": 0.22658333333333333, "grad_norm": 0.7670603394508362, "learning_rate": 0.0002645651619987568, "loss": 3.9351, "step": 108760 }, { "epoch": 0.22660416666666666, "grad_norm": 0.7278753519058228, "learning_rate": 0.0002645587981417032, "loss": 3.9232, "step": 108770 }, { "epoch": 0.226625, "grad_norm": 0.7164149880409241, "learning_rate": 0.000264552433789801, "loss": 3.9732, "step": 108780 }, { "epoch": 0.22664583333333332, "grad_norm": 0.7963036298751831, "learning_rate": 0.0002645460689430776, "loss": 4.0386, "step": 108790 }, { "epoch": 0.22666666666666666, "grad_norm": 0.7459926605224609, "learning_rate": 0.0002645397036015606, "loss": 3.942, "step": 108800 }, { "epoch": 0.2266875, "grad_norm": 0.701884925365448, "learning_rate": 0.00026453333776527735, "loss": 3.745, "step": 108810 }, { "epoch": 0.22670833333333335, "grad_norm": 0.7518672943115234, "learning_rate": 0.00026452697143425536, "loss": 3.8424, "step": 108820 }, { "epoch": 0.22672916666666668, "grad_norm": 0.6924442648887634, "learning_rate": 0.0002645206046085223, "loss": 3.9889, "step": 108830 }, { "epoch": 0.22675, "grad_norm": 0.795567512512207, "learning_rate": 0.0002645142372881055, "loss": 3.8982, "step": 108840 }, { "epoch": 0.22677083333333334, "grad_norm": 0.7239937782287598, "learning_rate": 0.0002645078694730325, "loss": 3.8779, "step": 108850 }, { "epoch": 0.22679166666666667, "grad_norm": 0.7635540962219238, "learning_rate": 0.0002645015011633309, "loss": 3.7136, "step": 108860 }, { "epoch": 0.2268125, "grad_norm": 0.7305667400360107, "learning_rate": 0.00026449513235902804, "loss": 3.9036, "step": 108870 }, { "epoch": 0.22683333333333333, "grad_norm": 0.761264443397522, "learning_rate": 0.0002644887630601516, "loss": 3.9273, "step": 108880 }, { "epoch": 0.22685416666666666, "grad_norm": 0.7146025896072388, "learning_rate": 0.000264482393266729, "loss": 4.0215, "step": 108890 }, { "epoch": 0.226875, "grad_norm": 0.8386164903640747, "learning_rate": 0.0002644760229787878, "loss": 3.8077, "step": 108900 }, { "epoch": 0.22689583333333332, "grad_norm": 0.7800633907318115, "learning_rate": 0.00026446965219635544, "loss": 4.0506, "step": 108910 }, { "epoch": 0.22691666666666666, "grad_norm": 0.7347279191017151, "learning_rate": 0.00026446328091945956, "loss": 3.8444, "step": 108920 }, { "epoch": 0.2269375, "grad_norm": 0.8164711594581604, "learning_rate": 0.00026445690914812754, "loss": 4.001, "step": 108930 }, { "epoch": 0.22695833333333335, "grad_norm": 0.6698181629180908, "learning_rate": 0.000264450536882387, "loss": 3.7945, "step": 108940 }, { "epoch": 0.22697916666666668, "grad_norm": 0.7902946472167969, "learning_rate": 0.0002644441641222655, "loss": 3.9007, "step": 108950 }, { "epoch": 0.227, "grad_norm": 0.8352525234222412, "learning_rate": 0.0002644377908677905, "loss": 3.9775, "step": 108960 }, { "epoch": 0.22702083333333334, "grad_norm": 0.7898527383804321, "learning_rate": 0.00026443141711898944, "loss": 3.9275, "step": 108970 }, { "epoch": 0.22704166666666667, "grad_norm": 0.6846413612365723, "learning_rate": 0.00026442504287589006, "loss": 3.973, "step": 108980 }, { "epoch": 0.2270625, "grad_norm": 0.73252934217453, "learning_rate": 0.0002644186681385197, "loss": 3.8706, "step": 108990 }, { "epoch": 0.22708333333333333, "grad_norm": 0.8041558861732483, "learning_rate": 0.0002644122929069061, "loss": 3.923, "step": 109000 }, { "epoch": 0.22708333333333333, "eval_loss": 4.2499494552612305, "eval_runtime": 10.4155, "eval_samples_per_second": 0.96, "eval_steps_per_second": 0.288, "step": 109000 }, { "epoch": 0.22710416666666666, "grad_norm": 0.7211470603942871, "learning_rate": 0.00026440591718107664, "loss": 3.9642, "step": 109010 }, { "epoch": 0.227125, "grad_norm": 0.8587322235107422, "learning_rate": 0.00026439954096105884, "loss": 3.8876, "step": 109020 }, { "epoch": 0.22714583333333332, "grad_norm": 0.824578583240509, "learning_rate": 0.00026439316424688034, "loss": 3.8638, "step": 109030 }, { "epoch": 0.22716666666666666, "grad_norm": 0.7026079893112183, "learning_rate": 0.0002643867870385687, "loss": 3.9412, "step": 109040 }, { "epoch": 0.2271875, "grad_norm": 0.7915549874305725, "learning_rate": 0.0002643804093361514, "loss": 4.0401, "step": 109050 }, { "epoch": 0.22720833333333335, "grad_norm": 0.7297204732894897, "learning_rate": 0.00026437403113965596, "loss": 4.0048, "step": 109060 }, { "epoch": 0.22722916666666668, "grad_norm": 0.7245772480964661, "learning_rate": 0.00026436765244911, "loss": 3.8391, "step": 109070 }, { "epoch": 0.22725, "grad_norm": 0.9843947291374207, "learning_rate": 0.00026436127326454105, "loss": 3.9333, "step": 109080 }, { "epoch": 0.22727083333333334, "grad_norm": 0.7660737037658691, "learning_rate": 0.00026435489358597665, "loss": 3.9236, "step": 109090 }, { "epoch": 0.22729166666666667, "grad_norm": 0.7760373950004578, "learning_rate": 0.0002643485134134444, "loss": 3.993, "step": 109100 }, { "epoch": 0.2273125, "grad_norm": 0.7885679602622986, "learning_rate": 0.0002643421327469718, "loss": 3.7301, "step": 109110 }, { "epoch": 0.22733333333333333, "grad_norm": 0.8297938108444214, "learning_rate": 0.0002643357515865865, "loss": 4.0085, "step": 109120 }, { "epoch": 0.22735416666666666, "grad_norm": 0.7652775049209595, "learning_rate": 0.000264329369932316, "loss": 3.83, "step": 109130 }, { "epoch": 0.227375, "grad_norm": 1.2758543491363525, "learning_rate": 0.0002643229877841878, "loss": 4.2243, "step": 109140 }, { "epoch": 0.22739583333333332, "grad_norm": 0.9598618745803833, "learning_rate": 0.0002643166051422297, "loss": 3.8953, "step": 109150 }, { "epoch": 0.22741666666666666, "grad_norm": 0.7711547017097473, "learning_rate": 0.000264310222006469, "loss": 4.0641, "step": 109160 }, { "epoch": 0.2274375, "grad_norm": 0.7458028793334961, "learning_rate": 0.0002643038383769334, "loss": 3.9576, "step": 109170 }, { "epoch": 0.22745833333333335, "grad_norm": 0.7583891153335571, "learning_rate": 0.00026429745425365046, "loss": 3.9374, "step": 109180 }, { "epoch": 0.22747916666666668, "grad_norm": 0.7509993314743042, "learning_rate": 0.0002642910696366478, "loss": 3.8812, "step": 109190 }, { "epoch": 0.2275, "grad_norm": 0.8617029190063477, "learning_rate": 0.00026428468452595295, "loss": 4.0242, "step": 109200 }, { "epoch": 0.22752083333333334, "grad_norm": 0.7223390340805054, "learning_rate": 0.00026427829892159343, "loss": 3.8089, "step": 109210 }, { "epoch": 0.22754166666666667, "grad_norm": 0.9702696800231934, "learning_rate": 0.000264271912823597, "loss": 4.011, "step": 109220 }, { "epoch": 0.2275625, "grad_norm": 0.7030995488166809, "learning_rate": 0.00026426552623199105, "loss": 3.7721, "step": 109230 }, { "epoch": 0.22758333333333333, "grad_norm": 0.7186703681945801, "learning_rate": 0.00026425913914680327, "loss": 3.8339, "step": 109240 }, { "epoch": 0.22760416666666666, "grad_norm": 0.8866310119628906, "learning_rate": 0.00026425275156806123, "loss": 3.9068, "step": 109250 }, { "epoch": 0.227625, "grad_norm": 0.8194873929023743, "learning_rate": 0.0002642463634957926, "loss": 3.9625, "step": 109260 }, { "epoch": 0.22764583333333333, "grad_norm": 0.7451662421226501, "learning_rate": 0.00026423997493002483, "loss": 3.8809, "step": 109270 }, { "epoch": 0.22766666666666666, "grad_norm": 0.8646328449249268, "learning_rate": 0.00026423358587078564, "loss": 3.8685, "step": 109280 }, { "epoch": 0.2276875, "grad_norm": 0.8582132458686829, "learning_rate": 0.0002642271963181025, "loss": 3.8492, "step": 109290 }, { "epoch": 0.22770833333333335, "grad_norm": 0.8723394274711609, "learning_rate": 0.00026422080627200317, "loss": 3.8499, "step": 109300 }, { "epoch": 0.22772916666666668, "grad_norm": 0.8789157867431641, "learning_rate": 0.0002642144157325151, "loss": 3.8766, "step": 109310 }, { "epoch": 0.22775, "grad_norm": 0.7020376324653625, "learning_rate": 0.000264208024699666, "loss": 3.9585, "step": 109320 }, { "epoch": 0.22777083333333334, "grad_norm": 0.7438896894454956, "learning_rate": 0.00026420163317348347, "loss": 4.084, "step": 109330 }, { "epoch": 0.22779166666666667, "grad_norm": 0.9015541672706604, "learning_rate": 0.00026419524115399505, "loss": 3.9749, "step": 109340 }, { "epoch": 0.2278125, "grad_norm": 0.8149701952934265, "learning_rate": 0.0002641888486412284, "loss": 3.9668, "step": 109350 }, { "epoch": 0.22783333333333333, "grad_norm": 0.6502760648727417, "learning_rate": 0.0002641824556352111, "loss": 4.0524, "step": 109360 }, { "epoch": 0.22785416666666666, "grad_norm": 0.8575359582901001, "learning_rate": 0.0002641760621359708, "loss": 3.8735, "step": 109370 }, { "epoch": 0.227875, "grad_norm": 0.8677646517753601, "learning_rate": 0.0002641696681435351, "loss": 3.8544, "step": 109380 }, { "epoch": 0.22789583333333333, "grad_norm": 0.7077972292900085, "learning_rate": 0.00026416327365793164, "loss": 4.0386, "step": 109390 }, { "epoch": 0.22791666666666666, "grad_norm": 0.7458457946777344, "learning_rate": 0.00026415687867918804, "loss": 4.0746, "step": 109400 }, { "epoch": 0.2279375, "grad_norm": 0.7556995749473572, "learning_rate": 0.0002641504832073319, "loss": 3.9944, "step": 109410 }, { "epoch": 0.22795833333333335, "grad_norm": 0.8564623594284058, "learning_rate": 0.00026414408724239084, "loss": 3.9201, "step": 109420 }, { "epoch": 0.22797916666666668, "grad_norm": 0.7261602282524109, "learning_rate": 0.00026413769078439253, "loss": 4.0478, "step": 109430 }, { "epoch": 0.228, "grad_norm": 0.8424165844917297, "learning_rate": 0.0002641312938333645, "loss": 3.9259, "step": 109440 }, { "epoch": 0.22802083333333334, "grad_norm": 0.9319525361061096, "learning_rate": 0.0002641248963893345, "loss": 4.0891, "step": 109450 }, { "epoch": 0.22804166666666667, "grad_norm": 0.8633121848106384, "learning_rate": 0.0002641184984523302, "loss": 3.8944, "step": 109460 }, { "epoch": 0.2280625, "grad_norm": 0.9659656286239624, "learning_rate": 0.0002641121000223791, "loss": 3.8978, "step": 109470 }, { "epoch": 0.22808333333333333, "grad_norm": 0.8419045805931091, "learning_rate": 0.0002641057010995089, "loss": 3.9073, "step": 109480 }, { "epoch": 0.22810416666666666, "grad_norm": 0.9332680702209473, "learning_rate": 0.0002640993016837472, "loss": 3.7823, "step": 109490 }, { "epoch": 0.228125, "grad_norm": 0.7900363802909851, "learning_rate": 0.0002640929017751217, "loss": 3.8347, "step": 109500 }, { "epoch": 0.22814583333333333, "grad_norm": 0.7122859358787537, "learning_rate": 0.00026408650137366006, "loss": 4.0859, "step": 109510 }, { "epoch": 0.22816666666666666, "grad_norm": 0.8112831711769104, "learning_rate": 0.00026408010047938987, "loss": 3.971, "step": 109520 }, { "epoch": 0.2281875, "grad_norm": 0.8198418021202087, "learning_rate": 0.0002640736990923388, "loss": 3.867, "step": 109530 }, { "epoch": 0.22820833333333335, "grad_norm": 0.7016808986663818, "learning_rate": 0.0002640672972125345, "loss": 4.0692, "step": 109540 }, { "epoch": 0.22822916666666668, "grad_norm": 0.7392622232437134, "learning_rate": 0.00026406089484000466, "loss": 3.8595, "step": 109550 }, { "epoch": 0.22825, "grad_norm": 0.7799830436706543, "learning_rate": 0.00026405449197477684, "loss": 3.922, "step": 109560 }, { "epoch": 0.22827083333333334, "grad_norm": 1.1229808330535889, "learning_rate": 0.00026404808861687877, "loss": 3.8587, "step": 109570 }, { "epoch": 0.22829166666666667, "grad_norm": 0.7212927937507629, "learning_rate": 0.0002640416847663381, "loss": 3.9411, "step": 109580 }, { "epoch": 0.2283125, "grad_norm": 0.9135217070579529, "learning_rate": 0.00026403528042318253, "loss": 3.9338, "step": 109590 }, { "epoch": 0.22833333333333333, "grad_norm": 0.9486455321311951, "learning_rate": 0.00026402887558743966, "loss": 3.7547, "step": 109600 }, { "epoch": 0.22835416666666666, "grad_norm": 0.8096184134483337, "learning_rate": 0.00026402247025913723, "loss": 4.0848, "step": 109610 }, { "epoch": 0.228375, "grad_norm": 0.7783848643302917, "learning_rate": 0.00026401606443830284, "loss": 4.0792, "step": 109620 }, { "epoch": 0.22839583333333333, "grad_norm": 0.765708863735199, "learning_rate": 0.00026400965812496414, "loss": 4.0049, "step": 109630 }, { "epoch": 0.22841666666666666, "grad_norm": 1.0106561183929443, "learning_rate": 0.00026400325131914894, "loss": 3.9896, "step": 109640 }, { "epoch": 0.2284375, "grad_norm": 0.9338300824165344, "learning_rate": 0.0002639968440208847, "loss": 3.8279, "step": 109650 }, { "epoch": 0.22845833333333335, "grad_norm": 0.6938652396202087, "learning_rate": 0.0002639904362301993, "loss": 4.0593, "step": 109660 }, { "epoch": 0.22847916666666668, "grad_norm": 0.7950575351715088, "learning_rate": 0.0002639840279471203, "loss": 3.8256, "step": 109670 }, { "epoch": 0.2285, "grad_norm": 0.863710343837738, "learning_rate": 0.0002639776191716754, "loss": 4.1375, "step": 109680 }, { "epoch": 0.22852083333333334, "grad_norm": 0.7684694528579712, "learning_rate": 0.00026397120990389233, "loss": 4.0483, "step": 109690 }, { "epoch": 0.22854166666666667, "grad_norm": 0.76094651222229, "learning_rate": 0.00026396480014379876, "loss": 3.7674, "step": 109700 }, { "epoch": 0.2285625, "grad_norm": 0.789027988910675, "learning_rate": 0.0002639583898914223, "loss": 3.8377, "step": 109710 }, { "epoch": 0.22858333333333333, "grad_norm": 0.6967670917510986, "learning_rate": 0.0002639519791467908, "loss": 3.7613, "step": 109720 }, { "epoch": 0.22860416666666666, "grad_norm": 1.0734822750091553, "learning_rate": 0.0002639455679099318, "loss": 3.8546, "step": 109730 }, { "epoch": 0.228625, "grad_norm": 0.9505367875099182, "learning_rate": 0.00026393915618087307, "loss": 3.999, "step": 109740 }, { "epoch": 0.22864583333333333, "grad_norm": 0.9332210421562195, "learning_rate": 0.00026393274395964224, "loss": 3.9409, "step": 109750 }, { "epoch": 0.22866666666666666, "grad_norm": 0.7475576400756836, "learning_rate": 0.00026392633124626706, "loss": 3.9663, "step": 109760 }, { "epoch": 0.2286875, "grad_norm": 0.7160632610321045, "learning_rate": 0.0002639199180407753, "loss": 3.8305, "step": 109770 }, { "epoch": 0.22870833333333335, "grad_norm": 0.7517324686050415, "learning_rate": 0.0002639135043431945, "loss": 3.7539, "step": 109780 }, { "epoch": 0.22872916666666668, "grad_norm": 0.818114697933197, "learning_rate": 0.0002639070901535525, "loss": 3.9507, "step": 109790 }, { "epoch": 0.22875, "grad_norm": 0.7590651512145996, "learning_rate": 0.00026390067547187696, "loss": 4.0164, "step": 109800 }, { "epoch": 0.22877083333333334, "grad_norm": 0.7373353838920593, "learning_rate": 0.0002638942602981956, "loss": 3.8152, "step": 109810 }, { "epoch": 0.22879166666666667, "grad_norm": 0.7649748921394348, "learning_rate": 0.00026388784463253603, "loss": 3.8372, "step": 109820 }, { "epoch": 0.2288125, "grad_norm": 0.9198845028877258, "learning_rate": 0.00026388142847492616, "loss": 3.8272, "step": 109830 }, { "epoch": 0.22883333333333333, "grad_norm": 0.7580945491790771, "learning_rate": 0.00026387501182539353, "loss": 3.8579, "step": 109840 }, { "epoch": 0.22885416666666666, "grad_norm": 0.8657234311103821, "learning_rate": 0.00026386859468396597, "loss": 3.8016, "step": 109850 }, { "epoch": 0.228875, "grad_norm": 0.7559195160865784, "learning_rate": 0.0002638621770506711, "loss": 3.9147, "step": 109860 }, { "epoch": 0.22889583333333333, "grad_norm": 0.8593403697013855, "learning_rate": 0.0002638557589255367, "loss": 3.9565, "step": 109870 }, { "epoch": 0.22891666666666666, "grad_norm": 0.8786885738372803, "learning_rate": 0.0002638493403085905, "loss": 3.7291, "step": 109880 }, { "epoch": 0.2289375, "grad_norm": 0.8491235971450806, "learning_rate": 0.00026384292119986023, "loss": 3.9545, "step": 109890 }, { "epoch": 0.22895833333333335, "grad_norm": 0.6955267190933228, "learning_rate": 0.00026383650159937357, "loss": 4.1, "step": 109900 }, { "epoch": 0.22897916666666668, "grad_norm": 0.7136731147766113, "learning_rate": 0.00026383008150715834, "loss": 3.9432, "step": 109910 }, { "epoch": 0.229, "grad_norm": 1.0043952465057373, "learning_rate": 0.0002638236609232422, "loss": 3.997, "step": 109920 }, { "epoch": 0.22902083333333334, "grad_norm": 0.7582695484161377, "learning_rate": 0.00026381723984765287, "loss": 3.9381, "step": 109930 }, { "epoch": 0.22904166666666667, "grad_norm": 0.7013106942176819, "learning_rate": 0.0002638108182804181, "loss": 3.9009, "step": 109940 }, { "epoch": 0.2290625, "grad_norm": 0.8008269667625427, "learning_rate": 0.00026380439622156567, "loss": 4.1077, "step": 109950 }, { "epoch": 0.22908333333333333, "grad_norm": 0.742562472820282, "learning_rate": 0.0002637979736711233, "loss": 3.8171, "step": 109960 }, { "epoch": 0.22910416666666666, "grad_norm": 0.8089008331298828, "learning_rate": 0.0002637915506291187, "loss": 3.7811, "step": 109970 }, { "epoch": 0.229125, "grad_norm": 0.830127477645874, "learning_rate": 0.0002637851270955797, "loss": 3.8195, "step": 109980 }, { "epoch": 0.22914583333333333, "grad_norm": 0.8295267820358276, "learning_rate": 0.00026377870307053397, "loss": 3.8919, "step": 109990 }, { "epoch": 0.22916666666666666, "grad_norm": 0.718661367893219, "learning_rate": 0.00026377227855400924, "loss": 3.8697, "step": 110000 }, { "epoch": 0.22916666666666666, "eval_loss": 4.249701499938965, "eval_runtime": 10.5597, "eval_samples_per_second": 0.947, "eval_steps_per_second": 0.284, "step": 110000 }, { "epoch": 0.2291875, "grad_norm": 0.7415273189544678, "learning_rate": 0.00026376585354603334, "loss": 3.7861, "step": 110010 }, { "epoch": 0.22920833333333332, "grad_norm": 0.7925416231155396, "learning_rate": 0.00026375942804663397, "loss": 3.9635, "step": 110020 }, { "epoch": 0.22922916666666668, "grad_norm": 0.7430617809295654, "learning_rate": 0.0002637530020558389, "loss": 3.9246, "step": 110030 }, { "epoch": 0.22925, "grad_norm": 0.7445803284645081, "learning_rate": 0.00026374657557367594, "loss": 3.8988, "step": 110040 }, { "epoch": 0.22927083333333334, "grad_norm": 0.7336782217025757, "learning_rate": 0.00026374014860017274, "loss": 4.0082, "step": 110050 }, { "epoch": 0.22929166666666667, "grad_norm": 0.6729409694671631, "learning_rate": 0.0002637337211353571, "loss": 4.0101, "step": 110060 }, { "epoch": 0.2293125, "grad_norm": 0.7361496686935425, "learning_rate": 0.0002637272931792568, "loss": 3.8981, "step": 110070 }, { "epoch": 0.22933333333333333, "grad_norm": 0.7461500763893127, "learning_rate": 0.00026372086473189964, "loss": 3.8955, "step": 110080 }, { "epoch": 0.22935416666666666, "grad_norm": 0.7760915756225586, "learning_rate": 0.0002637144357933134, "loss": 3.8394, "step": 110090 }, { "epoch": 0.229375, "grad_norm": 0.8526029586791992, "learning_rate": 0.0002637080063635258, "loss": 3.8861, "step": 110100 }, { "epoch": 0.22939583333333333, "grad_norm": 0.8022934794425964, "learning_rate": 0.00026370157644256455, "loss": 4.0007, "step": 110110 }, { "epoch": 0.22941666666666666, "grad_norm": 0.7521193623542786, "learning_rate": 0.0002636951460304575, "loss": 3.9473, "step": 110120 }, { "epoch": 0.2294375, "grad_norm": 0.7516229748725891, "learning_rate": 0.0002636887151272325, "loss": 4.0419, "step": 110130 }, { "epoch": 0.22945833333333332, "grad_norm": 0.6763893365859985, "learning_rate": 0.0002636822837329172, "loss": 3.8682, "step": 110140 }, { "epoch": 0.22947916666666668, "grad_norm": 0.7663094997406006, "learning_rate": 0.00026367585184753945, "loss": 3.866, "step": 110150 }, { "epoch": 0.2295, "grad_norm": 0.882121205329895, "learning_rate": 0.000263669419471127, "loss": 4.0151, "step": 110160 }, { "epoch": 0.22952083333333334, "grad_norm": 0.6913464665412903, "learning_rate": 0.00026366298660370765, "loss": 3.8905, "step": 110170 }, { "epoch": 0.22954166666666667, "grad_norm": 0.7483918070793152, "learning_rate": 0.00026365655324530924, "loss": 4.0546, "step": 110180 }, { "epoch": 0.2295625, "grad_norm": 0.7755992412567139, "learning_rate": 0.0002636501193959594, "loss": 3.7696, "step": 110190 }, { "epoch": 0.22958333333333333, "grad_norm": 0.7326026558876038, "learning_rate": 0.00026364368505568615, "loss": 3.8869, "step": 110200 }, { "epoch": 0.22960416666666666, "grad_norm": 0.7769258618354797, "learning_rate": 0.0002636372502245171, "loss": 3.9524, "step": 110210 }, { "epoch": 0.229625, "grad_norm": 0.7584809064865112, "learning_rate": 0.0002636308149024801, "loss": 3.8568, "step": 110220 }, { "epoch": 0.22964583333333333, "grad_norm": 0.7712398767471313, "learning_rate": 0.000263624379089603, "loss": 3.8487, "step": 110230 }, { "epoch": 0.22966666666666666, "grad_norm": 0.7107548117637634, "learning_rate": 0.0002636179427859135, "loss": 3.8059, "step": 110240 }, { "epoch": 0.2296875, "grad_norm": 0.9684906005859375, "learning_rate": 0.0002636115059914395, "loss": 3.8416, "step": 110250 }, { "epoch": 0.22970833333333332, "grad_norm": 0.7956709861755371, "learning_rate": 0.00026360506870620883, "loss": 3.8661, "step": 110260 }, { "epoch": 0.22972916666666668, "grad_norm": 0.7930283546447754, "learning_rate": 0.00026359863093024916, "loss": 4.023, "step": 110270 }, { "epoch": 0.22975, "grad_norm": 0.7595381140708923, "learning_rate": 0.00026359219266358836, "loss": 4.0126, "step": 110280 }, { "epoch": 0.22977083333333334, "grad_norm": 0.6647530198097229, "learning_rate": 0.00026358575390625426, "loss": 3.9504, "step": 110290 }, { "epoch": 0.22979166666666667, "grad_norm": 0.7436468005180359, "learning_rate": 0.0002635793146582747, "loss": 3.8658, "step": 110300 }, { "epoch": 0.2298125, "grad_norm": 0.7605845928192139, "learning_rate": 0.0002635728749196774, "loss": 3.8086, "step": 110310 }, { "epoch": 0.22983333333333333, "grad_norm": 0.7105920910835266, "learning_rate": 0.0002635664346904902, "loss": 3.8331, "step": 110320 }, { "epoch": 0.22985416666666666, "grad_norm": 0.7485894560813904, "learning_rate": 0.00026355999397074107, "loss": 3.9268, "step": 110330 }, { "epoch": 0.229875, "grad_norm": 0.8219748735427856, "learning_rate": 0.00026355355276045766, "loss": 4.0463, "step": 110340 }, { "epoch": 0.22989583333333333, "grad_norm": 0.8608161211013794, "learning_rate": 0.00026354711105966785, "loss": 3.8347, "step": 110350 }, { "epoch": 0.22991666666666666, "grad_norm": 0.746091365814209, "learning_rate": 0.00026354066886839946, "loss": 3.7858, "step": 110360 }, { "epoch": 0.2299375, "grad_norm": 0.804319441318512, "learning_rate": 0.00026353422618668034, "loss": 4.1033, "step": 110370 }, { "epoch": 0.22995833333333332, "grad_norm": 0.7565343976020813, "learning_rate": 0.0002635277830145383, "loss": 3.941, "step": 110380 }, { "epoch": 0.22997916666666668, "grad_norm": 0.8230046629905701, "learning_rate": 0.00026352133935200116, "loss": 3.8843, "step": 110390 }, { "epoch": 0.23, "grad_norm": 0.8380718231201172, "learning_rate": 0.0002635148951990968, "loss": 3.9133, "step": 110400 }, { "epoch": 0.23002083333333334, "grad_norm": 0.9129257202148438, "learning_rate": 0.00026350845055585296, "loss": 3.8807, "step": 110410 }, { "epoch": 0.23004166666666667, "grad_norm": 0.7682124972343445, "learning_rate": 0.00026350200542229763, "loss": 4.0301, "step": 110420 }, { "epoch": 0.2300625, "grad_norm": 0.8067581057548523, "learning_rate": 0.0002634955597984585, "loss": 3.8033, "step": 110430 }, { "epoch": 0.23008333333333333, "grad_norm": 0.8139240741729736, "learning_rate": 0.00026348911368436346, "loss": 3.8868, "step": 110440 }, { "epoch": 0.23010416666666667, "grad_norm": 0.7920733690261841, "learning_rate": 0.0002634826670800404, "loss": 3.8681, "step": 110450 }, { "epoch": 0.230125, "grad_norm": 0.7330632209777832, "learning_rate": 0.00026347621998551717, "loss": 3.781, "step": 110460 }, { "epoch": 0.23014583333333333, "grad_norm": 0.7772855758666992, "learning_rate": 0.0002634697724008216, "loss": 3.9946, "step": 110470 }, { "epoch": 0.23016666666666666, "grad_norm": 0.8419053554534912, "learning_rate": 0.0002634633243259814, "loss": 4.0081, "step": 110480 }, { "epoch": 0.2301875, "grad_norm": 0.7357924580574036, "learning_rate": 0.0002634568757610247, "loss": 3.855, "step": 110490 }, { "epoch": 0.23020833333333332, "grad_norm": 1.0452427864074707, "learning_rate": 0.0002634504267059792, "loss": 3.8022, "step": 110500 }, { "epoch": 0.23022916666666668, "grad_norm": 0.6946810483932495, "learning_rate": 0.00026344397716087265, "loss": 4.0258, "step": 110510 }, { "epoch": 0.23025, "grad_norm": 0.9397356510162354, "learning_rate": 0.0002634375271257331, "loss": 3.9896, "step": 110520 }, { "epoch": 0.23027083333333334, "grad_norm": 0.7494910955429077, "learning_rate": 0.0002634310766005883, "loss": 4.1399, "step": 110530 }, { "epoch": 0.23029166666666667, "grad_norm": 0.8289433121681213, "learning_rate": 0.00026342462558546614, "loss": 3.9751, "step": 110540 }, { "epoch": 0.2303125, "grad_norm": 0.8440728783607483, "learning_rate": 0.00026341817408039454, "loss": 3.8619, "step": 110550 }, { "epoch": 0.23033333333333333, "grad_norm": 0.9003103375434875, "learning_rate": 0.0002634117220854013, "loss": 3.9259, "step": 110560 }, { "epoch": 0.23035416666666667, "grad_norm": 0.7315119504928589, "learning_rate": 0.0002634052696005143, "loss": 3.9721, "step": 110570 }, { "epoch": 0.230375, "grad_norm": 0.7476469874382019, "learning_rate": 0.00026339881662576145, "loss": 3.8515, "step": 110580 }, { "epoch": 0.23039583333333333, "grad_norm": 0.9370314478874207, "learning_rate": 0.00026339236316117056, "loss": 3.9393, "step": 110590 }, { "epoch": 0.23041666666666666, "grad_norm": 0.7821308374404907, "learning_rate": 0.0002633859092067696, "loss": 3.8511, "step": 110600 }, { "epoch": 0.2304375, "grad_norm": 0.938216507434845, "learning_rate": 0.0002633794547625863, "loss": 3.8838, "step": 110610 }, { "epoch": 0.23045833333333332, "grad_norm": 0.6697997450828552, "learning_rate": 0.00026337299982864875, "loss": 3.8901, "step": 110620 }, { "epoch": 0.23047916666666668, "grad_norm": 0.7944203019142151, "learning_rate": 0.0002633665444049847, "loss": 3.9081, "step": 110630 }, { "epoch": 0.2305, "grad_norm": 0.7712404131889343, "learning_rate": 0.000263360088491622, "loss": 3.9264, "step": 110640 }, { "epoch": 0.23052083333333334, "grad_norm": 0.7657455801963806, "learning_rate": 0.0002633536320885886, "loss": 3.806, "step": 110650 }, { "epoch": 0.23054166666666667, "grad_norm": 0.8278506398200989, "learning_rate": 0.0002633471751959124, "loss": 3.9548, "step": 110660 }, { "epoch": 0.2305625, "grad_norm": 0.7828817963600159, "learning_rate": 0.00026334071781362124, "loss": 3.9745, "step": 110670 }, { "epoch": 0.23058333333333333, "grad_norm": 0.7219924926757812, "learning_rate": 0.00026333425994174304, "loss": 3.8848, "step": 110680 }, { "epoch": 0.23060416666666667, "grad_norm": 0.7578567266464233, "learning_rate": 0.0002633278015803057, "loss": 3.7908, "step": 110690 }, { "epoch": 0.230625, "grad_norm": 0.8224273324012756, "learning_rate": 0.00026332134272933716, "loss": 3.8528, "step": 110700 }, { "epoch": 0.23064583333333333, "grad_norm": 0.891659140586853, "learning_rate": 0.0002633148833888652, "loss": 3.8193, "step": 110710 }, { "epoch": 0.23066666666666666, "grad_norm": 0.8037193417549133, "learning_rate": 0.0002633084235589179, "loss": 3.8481, "step": 110720 }, { "epoch": 0.2306875, "grad_norm": 0.7784743905067444, "learning_rate": 0.000263301963239523, "loss": 3.9424, "step": 110730 }, { "epoch": 0.23070833333333332, "grad_norm": 0.7517142295837402, "learning_rate": 0.00026329550243070845, "loss": 4.0266, "step": 110740 }, { "epoch": 0.23072916666666668, "grad_norm": 0.6955044269561768, "learning_rate": 0.00026328904113250213, "loss": 3.9015, "step": 110750 }, { "epoch": 0.23075, "grad_norm": 0.8060383796691895, "learning_rate": 0.0002632825793449321, "loss": 3.8304, "step": 110760 }, { "epoch": 0.23077083333333334, "grad_norm": 0.7709038853645325, "learning_rate": 0.0002632761170680261, "loss": 3.8963, "step": 110770 }, { "epoch": 0.23079166666666667, "grad_norm": 0.7380147576332092, "learning_rate": 0.00026326965430181217, "loss": 3.8006, "step": 110780 }, { "epoch": 0.2308125, "grad_norm": 0.8429622054100037, "learning_rate": 0.00026326319104631816, "loss": 3.9463, "step": 110790 }, { "epoch": 0.23083333333333333, "grad_norm": 0.6555927395820618, "learning_rate": 0.00026325672730157196, "loss": 3.9201, "step": 110800 }, { "epoch": 0.23085416666666667, "grad_norm": 0.7551180124282837, "learning_rate": 0.00026325026306760153, "loss": 3.9295, "step": 110810 }, { "epoch": 0.230875, "grad_norm": 0.714095413684845, "learning_rate": 0.0002632437983444348, "loss": 3.7702, "step": 110820 }, { "epoch": 0.23089583333333333, "grad_norm": 0.9376791715621948, "learning_rate": 0.0002632373331320997, "loss": 3.9306, "step": 110830 }, { "epoch": 0.23091666666666666, "grad_norm": 0.8611328601837158, "learning_rate": 0.0002632308674306241, "loss": 4.0446, "step": 110840 }, { "epoch": 0.2309375, "grad_norm": 0.8162150382995605, "learning_rate": 0.00026322440124003604, "loss": 3.903, "step": 110850 }, { "epoch": 0.23095833333333332, "grad_norm": 0.7970434427261353, "learning_rate": 0.0002632179345603633, "loss": 4.04, "step": 110860 }, { "epoch": 0.23097916666666668, "grad_norm": 0.7253361940383911, "learning_rate": 0.000263211467391634, "loss": 4.0305, "step": 110870 }, { "epoch": 0.231, "grad_norm": 0.718839704990387, "learning_rate": 0.0002632049997338759, "loss": 3.9479, "step": 110880 }, { "epoch": 0.23102083333333334, "grad_norm": 0.8014327883720398, "learning_rate": 0.000263198531587117, "loss": 3.8546, "step": 110890 }, { "epoch": 0.23104166666666667, "grad_norm": 0.6378292441368103, "learning_rate": 0.0002631920629513853, "loss": 3.9452, "step": 110900 }, { "epoch": 0.2310625, "grad_norm": 0.7460970282554626, "learning_rate": 0.00026318559382670865, "loss": 3.8953, "step": 110910 }, { "epoch": 0.23108333333333334, "grad_norm": 0.7733733057975769, "learning_rate": 0.0002631791242131151, "loss": 3.8513, "step": 110920 }, { "epoch": 0.23110416666666667, "grad_norm": 0.6646256446838379, "learning_rate": 0.00026317265411063246, "loss": 3.8363, "step": 110930 }, { "epoch": 0.231125, "grad_norm": 0.6862418055534363, "learning_rate": 0.0002631661835192888, "loss": 3.8604, "step": 110940 }, { "epoch": 0.23114583333333333, "grad_norm": 0.8158310055732727, "learning_rate": 0.000263159712439112, "loss": 3.95, "step": 110950 }, { "epoch": 0.23116666666666666, "grad_norm": 0.8497163653373718, "learning_rate": 0.00026315324087013, "loss": 3.9401, "step": 110960 }, { "epoch": 0.2311875, "grad_norm": 0.8626744747161865, "learning_rate": 0.0002631467688123709, "loss": 3.954, "step": 110970 }, { "epoch": 0.23120833333333332, "grad_norm": 0.8702007532119751, "learning_rate": 0.00026314029626586246, "loss": 3.8886, "step": 110980 }, { "epoch": 0.23122916666666668, "grad_norm": 0.7809944152832031, "learning_rate": 0.0002631338232306327, "loss": 3.9979, "step": 110990 }, { "epoch": 0.23125, "grad_norm": 1.011650800704956, "learning_rate": 0.00026312734970670965, "loss": 3.899, "step": 111000 }, { "epoch": 0.23125, "eval_loss": 4.259222984313965, "eval_runtime": 12.1814, "eval_samples_per_second": 0.821, "eval_steps_per_second": 0.246, "step": 111000 }, { "epoch": 0.23127083333333334, "grad_norm": 0.7447972297668457, "learning_rate": 0.00026312087569412126, "loss": 3.9835, "step": 111010 }, { "epoch": 0.23129166666666667, "grad_norm": 0.7871766686439514, "learning_rate": 0.0002631144011928954, "loss": 4.0029, "step": 111020 }, { "epoch": 0.2313125, "grad_norm": 0.7316348552703857, "learning_rate": 0.00026310792620306016, "loss": 3.9094, "step": 111030 }, { "epoch": 0.23133333333333334, "grad_norm": 0.7284290194511414, "learning_rate": 0.0002631014507246434, "loss": 3.777, "step": 111040 }, { "epoch": 0.23135416666666667, "grad_norm": 0.671930193901062, "learning_rate": 0.00026309497475767314, "loss": 3.9091, "step": 111050 }, { "epoch": 0.231375, "grad_norm": 0.7103212475776672, "learning_rate": 0.0002630884983021774, "loss": 3.9506, "step": 111060 }, { "epoch": 0.23139583333333333, "grad_norm": 1.211203932762146, "learning_rate": 0.00026308202135818403, "loss": 4.0763, "step": 111070 }, { "epoch": 0.23141666666666666, "grad_norm": 0.8662888407707214, "learning_rate": 0.0002630755439257211, "loss": 3.9137, "step": 111080 }, { "epoch": 0.2314375, "grad_norm": 0.7737754583358765, "learning_rate": 0.0002630690660048167, "loss": 3.8654, "step": 111090 }, { "epoch": 0.23145833333333332, "grad_norm": 0.7639414668083191, "learning_rate": 0.00026306258759549857, "loss": 3.9977, "step": 111100 }, { "epoch": 0.23147916666666668, "grad_norm": 0.7029449343681335, "learning_rate": 0.00026305610869779486, "loss": 3.8866, "step": 111110 }, { "epoch": 0.2315, "grad_norm": 0.725816547870636, "learning_rate": 0.00026304962931173354, "loss": 3.8516, "step": 111120 }, { "epoch": 0.23152083333333334, "grad_norm": 0.7402777075767517, "learning_rate": 0.0002630431494373425, "loss": 3.9251, "step": 111130 }, { "epoch": 0.23154166666666667, "grad_norm": 0.6928304433822632, "learning_rate": 0.0002630366690746498, "loss": 3.7762, "step": 111140 }, { "epoch": 0.2315625, "grad_norm": 1.0071220397949219, "learning_rate": 0.00026303018822368353, "loss": 3.9681, "step": 111150 }, { "epoch": 0.23158333333333334, "grad_norm": 0.6975928544998169, "learning_rate": 0.0002630237068844715, "loss": 4.0362, "step": 111160 }, { "epoch": 0.23160416666666667, "grad_norm": 0.7705450654029846, "learning_rate": 0.00026301722505704184, "loss": 3.9652, "step": 111170 }, { "epoch": 0.231625, "grad_norm": 0.7328722476959229, "learning_rate": 0.0002630107427414225, "loss": 3.7845, "step": 111180 }, { "epoch": 0.23164583333333333, "grad_norm": 0.8429649472236633, "learning_rate": 0.00026300425993764146, "loss": 3.7654, "step": 111190 }, { "epoch": 0.23166666666666666, "grad_norm": 0.6927450299263, "learning_rate": 0.0002629977766457268, "loss": 3.8065, "step": 111200 }, { "epoch": 0.2316875, "grad_norm": 0.8214758038520813, "learning_rate": 0.00026299129286570637, "loss": 3.8802, "step": 111210 }, { "epoch": 0.23170833333333332, "grad_norm": 0.8582007884979248, "learning_rate": 0.0002629848085976084, "loss": 3.9225, "step": 111220 }, { "epoch": 0.23172916666666668, "grad_norm": 0.8587452173233032, "learning_rate": 0.0002629783238414607, "loss": 3.8799, "step": 111230 }, { "epoch": 0.23175, "grad_norm": 0.7185875773429871, "learning_rate": 0.00026297183859729135, "loss": 3.9331, "step": 111240 }, { "epoch": 0.23177083333333334, "grad_norm": 0.7874863743782043, "learning_rate": 0.0002629653528651284, "loss": 4.0469, "step": 111250 }, { "epoch": 0.23179166666666667, "grad_norm": 0.688462495803833, "learning_rate": 0.00026295886664499984, "loss": 3.856, "step": 111260 }, { "epoch": 0.2318125, "grad_norm": 0.7100249528884888, "learning_rate": 0.0002629523799369337, "loss": 3.8522, "step": 111270 }, { "epoch": 0.23183333333333334, "grad_norm": 0.717502236366272, "learning_rate": 0.000262945892740958, "loss": 3.7062, "step": 111280 }, { "epoch": 0.23185416666666667, "grad_norm": 0.7285719513893127, "learning_rate": 0.00026293940505710067, "loss": 3.8296, "step": 111290 }, { "epoch": 0.231875, "grad_norm": 0.7048869132995605, "learning_rate": 0.0002629329168853899, "loss": 3.8523, "step": 111300 }, { "epoch": 0.23189583333333333, "grad_norm": 0.9402475953102112, "learning_rate": 0.0002629264282258536, "loss": 4.0261, "step": 111310 }, { "epoch": 0.23191666666666666, "grad_norm": 0.7475755214691162, "learning_rate": 0.00026291993907851983, "loss": 3.8453, "step": 111320 }, { "epoch": 0.2319375, "grad_norm": 0.6509888172149658, "learning_rate": 0.00026291344944341666, "loss": 3.946, "step": 111330 }, { "epoch": 0.23195833333333332, "grad_norm": 0.6837831735610962, "learning_rate": 0.000262906959320572, "loss": 3.9729, "step": 111340 }, { "epoch": 0.23197916666666665, "grad_norm": 0.8936699032783508, "learning_rate": 0.000262900468710014, "loss": 4.0117, "step": 111350 }, { "epoch": 0.232, "grad_norm": 0.8879022598266602, "learning_rate": 0.0002628939776117707, "loss": 3.7899, "step": 111360 }, { "epoch": 0.23202083333333334, "grad_norm": 0.710128128528595, "learning_rate": 0.00026288748602587005, "loss": 4.1887, "step": 111370 }, { "epoch": 0.23204166666666667, "grad_norm": 0.7109906077384949, "learning_rate": 0.0002628809939523402, "loss": 3.927, "step": 111380 }, { "epoch": 0.2320625, "grad_norm": 0.7970317006111145, "learning_rate": 0.0002628745013912091, "loss": 3.9565, "step": 111390 }, { "epoch": 0.23208333333333334, "grad_norm": 0.770982027053833, "learning_rate": 0.0002628680083425049, "loss": 3.8723, "step": 111400 }, { "epoch": 0.23210416666666667, "grad_norm": 0.7223377823829651, "learning_rate": 0.0002628615148062555, "loss": 3.8235, "step": 111410 }, { "epoch": 0.232125, "grad_norm": 0.8547884225845337, "learning_rate": 0.00026285502078248905, "loss": 3.9321, "step": 111420 }, { "epoch": 0.23214583333333333, "grad_norm": 0.7768958210945129, "learning_rate": 0.00026284852627123356, "loss": 3.9343, "step": 111430 }, { "epoch": 0.23216666666666666, "grad_norm": 0.7044298648834229, "learning_rate": 0.0002628420312725172, "loss": 3.7384, "step": 111440 }, { "epoch": 0.2321875, "grad_norm": 0.6861140727996826, "learning_rate": 0.00026283553578636785, "loss": 3.9858, "step": 111450 }, { "epoch": 0.23220833333333332, "grad_norm": 0.7831413149833679, "learning_rate": 0.00026282903981281365, "loss": 3.8283, "step": 111460 }, { "epoch": 0.23222916666666665, "grad_norm": 0.9140717387199402, "learning_rate": 0.00026282254335188265, "loss": 3.889, "step": 111470 }, { "epoch": 0.23225, "grad_norm": 0.8580403327941895, "learning_rate": 0.00026281604640360294, "loss": 3.8962, "step": 111480 }, { "epoch": 0.23227083333333334, "grad_norm": 0.7603825330734253, "learning_rate": 0.0002628095489680026, "loss": 3.8639, "step": 111490 }, { "epoch": 0.23229166666666667, "grad_norm": 0.9072398543357849, "learning_rate": 0.00026280305104510964, "loss": 4.0419, "step": 111500 }, { "epoch": 0.2323125, "grad_norm": 0.8351004719734192, "learning_rate": 0.0002627965526349521, "loss": 3.7948, "step": 111510 }, { "epoch": 0.23233333333333334, "grad_norm": 0.758663535118103, "learning_rate": 0.00026279005373755813, "loss": 3.7984, "step": 111520 }, { "epoch": 0.23235416666666667, "grad_norm": 0.7044987678527832, "learning_rate": 0.0002627835543529558, "loss": 3.7625, "step": 111530 }, { "epoch": 0.232375, "grad_norm": 0.8230049014091492, "learning_rate": 0.00026277705448117316, "loss": 3.9412, "step": 111540 }, { "epoch": 0.23239583333333333, "grad_norm": 0.7038384675979614, "learning_rate": 0.0002627705541222382, "loss": 3.9714, "step": 111550 }, { "epoch": 0.23241666666666666, "grad_norm": 0.686237633228302, "learning_rate": 0.0002627640532761792, "loss": 3.9185, "step": 111560 }, { "epoch": 0.2324375, "grad_norm": 0.7641128301620483, "learning_rate": 0.0002627575519430241, "loss": 3.8886, "step": 111570 }, { "epoch": 0.23245833333333332, "grad_norm": 0.8373143672943115, "learning_rate": 0.00026275105012280096, "loss": 3.9086, "step": 111580 }, { "epoch": 0.23247916666666665, "grad_norm": 0.7255634069442749, "learning_rate": 0.0002627445478155379, "loss": 3.8907, "step": 111590 }, { "epoch": 0.2325, "grad_norm": 0.6677389740943909, "learning_rate": 0.0002627380450212631, "loss": 4.0584, "step": 111600 }, { "epoch": 0.23252083333333334, "grad_norm": 0.9531341791152954, "learning_rate": 0.00026273154174000457, "loss": 3.8513, "step": 111610 }, { "epoch": 0.23254166666666667, "grad_norm": 0.7701080441474915, "learning_rate": 0.0002627250379717903, "loss": 3.8268, "step": 111620 }, { "epoch": 0.2325625, "grad_norm": 0.7749426364898682, "learning_rate": 0.00026271853371664857, "loss": 3.9065, "step": 111630 }, { "epoch": 0.23258333333333334, "grad_norm": 0.5677282214164734, "learning_rate": 0.00026271202897460734, "loss": 3.9892, "step": 111640 }, { "epoch": 0.23260416666666667, "grad_norm": 0.7585051655769348, "learning_rate": 0.0002627055237456948, "loss": 3.802, "step": 111650 }, { "epoch": 0.232625, "grad_norm": 0.8361876010894775, "learning_rate": 0.000262699018029939, "loss": 3.9132, "step": 111660 }, { "epoch": 0.23264583333333333, "grad_norm": 0.7064248323440552, "learning_rate": 0.00026269251182736806, "loss": 3.7597, "step": 111670 }, { "epoch": 0.23266666666666666, "grad_norm": 0.7732850313186646, "learning_rate": 0.00026268600513801007, "loss": 3.9992, "step": 111680 }, { "epoch": 0.2326875, "grad_norm": 0.765714704990387, "learning_rate": 0.0002626794979618931, "loss": 3.9224, "step": 111690 }, { "epoch": 0.23270833333333332, "grad_norm": 0.6995965838432312, "learning_rate": 0.00026267299029904533, "loss": 3.9122, "step": 111700 }, { "epoch": 0.23272916666666665, "grad_norm": 0.7562347054481506, "learning_rate": 0.00026266648214949486, "loss": 3.9894, "step": 111710 }, { "epoch": 0.23275, "grad_norm": 0.7201587557792664, "learning_rate": 0.0002626599735132698, "loss": 3.8096, "step": 111720 }, { "epoch": 0.23277083333333334, "grad_norm": 0.6826424598693848, "learning_rate": 0.00026265346439039816, "loss": 4.0296, "step": 111730 }, { "epoch": 0.23279166666666667, "grad_norm": 0.7603018879890442, "learning_rate": 0.00026264695478090826, "loss": 3.8851, "step": 111740 }, { "epoch": 0.2328125, "grad_norm": 0.740297257900238, "learning_rate": 0.00026264044468482804, "loss": 4.0285, "step": 111750 }, { "epoch": 0.23283333333333334, "grad_norm": 0.7939237952232361, "learning_rate": 0.0002626339341021857, "loss": 3.8378, "step": 111760 }, { "epoch": 0.23285416666666667, "grad_norm": 0.7580857276916504, "learning_rate": 0.0002626274230330093, "loss": 4.0436, "step": 111770 }, { "epoch": 0.232875, "grad_norm": 0.840263307094574, "learning_rate": 0.000262620911477327, "loss": 3.8759, "step": 111780 }, { "epoch": 0.23289583333333333, "grad_norm": 0.7579668164253235, "learning_rate": 0.00026261439943516706, "loss": 3.7403, "step": 111790 }, { "epoch": 0.23291666666666666, "grad_norm": 0.7859682440757751, "learning_rate": 0.0002626078869065574, "loss": 3.924, "step": 111800 }, { "epoch": 0.2329375, "grad_norm": 0.7735762596130371, "learning_rate": 0.0002626013738915263, "loss": 4.0336, "step": 111810 }, { "epoch": 0.23295833333333332, "grad_norm": 0.7913901805877686, "learning_rate": 0.0002625948603901018, "loss": 4.0462, "step": 111820 }, { "epoch": 0.23297916666666665, "grad_norm": 0.6808672547340393, "learning_rate": 0.00026258834640231207, "loss": 3.9063, "step": 111830 }, { "epoch": 0.233, "grad_norm": 0.8610113263130188, "learning_rate": 0.00026258183192818526, "loss": 3.8985, "step": 111840 }, { "epoch": 0.23302083333333334, "grad_norm": 0.819995641708374, "learning_rate": 0.0002625753169677495, "loss": 3.9316, "step": 111850 }, { "epoch": 0.23304166666666667, "grad_norm": 0.7497013211250305, "learning_rate": 0.0002625688015210329, "loss": 3.9134, "step": 111860 }, { "epoch": 0.2330625, "grad_norm": 0.8400436043739319, "learning_rate": 0.00026256228558806365, "loss": 3.9156, "step": 111870 }, { "epoch": 0.23308333333333334, "grad_norm": 0.8771371841430664, "learning_rate": 0.0002625557691688699, "loss": 3.8162, "step": 111880 }, { "epoch": 0.23310416666666667, "grad_norm": 0.790725588798523, "learning_rate": 0.0002625492522634798, "loss": 3.7881, "step": 111890 }, { "epoch": 0.233125, "grad_norm": 0.7919836640357971, "learning_rate": 0.00026254273487192145, "loss": 3.886, "step": 111900 }, { "epoch": 0.23314583333333333, "grad_norm": 0.7582946419715881, "learning_rate": 0.000262536216994223, "loss": 3.8966, "step": 111910 }, { "epoch": 0.23316666666666666, "grad_norm": 0.7517276406288147, "learning_rate": 0.0002625296986304127, "loss": 3.7688, "step": 111920 }, { "epoch": 0.2331875, "grad_norm": 0.8119111657142639, "learning_rate": 0.0002625231797805186, "loss": 3.7797, "step": 111930 }, { "epoch": 0.23320833333333332, "grad_norm": 0.6608599424362183, "learning_rate": 0.0002625166604445689, "loss": 3.8323, "step": 111940 }, { "epoch": 0.23322916666666665, "grad_norm": 0.7229088544845581, "learning_rate": 0.00026251014062259184, "loss": 3.7491, "step": 111950 }, { "epoch": 0.23325, "grad_norm": 0.7446879148483276, "learning_rate": 0.0002625036203146154, "loss": 3.8828, "step": 111960 }, { "epoch": 0.23327083333333334, "grad_norm": 0.837006688117981, "learning_rate": 0.0002624970995206679, "loss": 3.8628, "step": 111970 }, { "epoch": 0.23329166666666667, "grad_norm": 0.7080159187316895, "learning_rate": 0.00026249057824077746, "loss": 3.7792, "step": 111980 }, { "epoch": 0.2333125, "grad_norm": 0.7472955584526062, "learning_rate": 0.0002624840564749722, "loss": 3.9049, "step": 111990 }, { "epoch": 0.23333333333333334, "grad_norm": 0.7172091007232666, "learning_rate": 0.0002624775342232804, "loss": 3.7349, "step": 112000 }, { "epoch": 0.23333333333333334, "eval_loss": 4.255408763885498, "eval_runtime": 9.3201, "eval_samples_per_second": 1.073, "eval_steps_per_second": 0.322, "step": 112000 }, { "epoch": 0.23335416666666667, "grad_norm": 0.7072089314460754, "learning_rate": 0.00026247101148573024, "loss": 3.6939, "step": 112010 }, { "epoch": 0.233375, "grad_norm": 0.7706016302108765, "learning_rate": 0.00026246448826234973, "loss": 3.871, "step": 112020 }, { "epoch": 0.23339583333333333, "grad_norm": 0.7672034502029419, "learning_rate": 0.00026245796455316717, "loss": 4.0457, "step": 112030 }, { "epoch": 0.23341666666666666, "grad_norm": 0.7202407717704773, "learning_rate": 0.0002624514403582107, "loss": 3.9787, "step": 112040 }, { "epoch": 0.2334375, "grad_norm": 0.7958422899246216, "learning_rate": 0.00026244491567750856, "loss": 4.0647, "step": 112050 }, { "epoch": 0.23345833333333332, "grad_norm": 0.6803152561187744, "learning_rate": 0.00026243839051108884, "loss": 3.7944, "step": 112060 }, { "epoch": 0.23347916666666665, "grad_norm": 0.7441197633743286, "learning_rate": 0.0002624318648589798, "loss": 3.9932, "step": 112070 }, { "epoch": 0.2335, "grad_norm": 0.8197855949401855, "learning_rate": 0.00026242533872120966, "loss": 3.702, "step": 112080 }, { "epoch": 0.23352083333333334, "grad_norm": 0.9275585412979126, "learning_rate": 0.00026241881209780653, "loss": 3.7043, "step": 112090 }, { "epoch": 0.23354166666666668, "grad_norm": 0.7420555353164673, "learning_rate": 0.00026241228498879857, "loss": 3.7687, "step": 112100 }, { "epoch": 0.2335625, "grad_norm": 0.7635204195976257, "learning_rate": 0.0002624057573942141, "loss": 3.9274, "step": 112110 }, { "epoch": 0.23358333333333334, "grad_norm": 0.7383560538291931, "learning_rate": 0.00026239922931408125, "loss": 3.9865, "step": 112120 }, { "epoch": 0.23360416666666667, "grad_norm": 0.706870436668396, "learning_rate": 0.00026239270074842816, "loss": 3.8564, "step": 112130 }, { "epoch": 0.233625, "grad_norm": 0.8389548659324646, "learning_rate": 0.00026238617169728316, "loss": 3.8187, "step": 112140 }, { "epoch": 0.23364583333333333, "grad_norm": 0.8292524218559265, "learning_rate": 0.00026237964216067433, "loss": 3.9247, "step": 112150 }, { "epoch": 0.23366666666666666, "grad_norm": 0.7681282162666321, "learning_rate": 0.00026237311213862997, "loss": 3.8309, "step": 112160 }, { "epoch": 0.2336875, "grad_norm": 0.7173855304718018, "learning_rate": 0.0002623665816311782, "loss": 3.7896, "step": 112170 }, { "epoch": 0.23370833333333332, "grad_norm": 0.7048563361167908, "learning_rate": 0.0002623600506383473, "loss": 4.0499, "step": 112180 }, { "epoch": 0.23372916666666665, "grad_norm": 0.8285587430000305, "learning_rate": 0.0002623535191601655, "loss": 3.8513, "step": 112190 }, { "epoch": 0.23375, "grad_norm": 0.69991534948349, "learning_rate": 0.0002623469871966609, "loss": 4.0091, "step": 112200 }, { "epoch": 0.23377083333333334, "grad_norm": 0.6780224442481995, "learning_rate": 0.00026234045474786183, "loss": 3.9649, "step": 112210 }, { "epoch": 0.23379166666666668, "grad_norm": 0.7998135685920715, "learning_rate": 0.0002623339218137964, "loss": 3.9319, "step": 112220 }, { "epoch": 0.2338125, "grad_norm": 0.9621427655220032, "learning_rate": 0.000262327388394493, "loss": 3.92, "step": 112230 }, { "epoch": 0.23383333333333334, "grad_norm": 0.7570099830627441, "learning_rate": 0.0002623208544899797, "loss": 3.8329, "step": 112240 }, { "epoch": 0.23385416666666667, "grad_norm": 0.7789862155914307, "learning_rate": 0.00026231432010028475, "loss": 3.9784, "step": 112250 }, { "epoch": 0.233875, "grad_norm": 0.6812233924865723, "learning_rate": 0.0002623077852254364, "loss": 3.9572, "step": 112260 }, { "epoch": 0.23389583333333333, "grad_norm": 0.7824247479438782, "learning_rate": 0.00026230124986546284, "loss": 4.0227, "step": 112270 }, { "epoch": 0.23391666666666666, "grad_norm": 0.7145914435386658, "learning_rate": 0.0002622947140203924, "loss": 3.8778, "step": 112280 }, { "epoch": 0.2339375, "grad_norm": 0.7928178310394287, "learning_rate": 0.00026228817769025314, "loss": 4.0464, "step": 112290 }, { "epoch": 0.23395833333333332, "grad_norm": 0.7519782781600952, "learning_rate": 0.0002622816408750735, "loss": 3.8932, "step": 112300 }, { "epoch": 0.23397916666666665, "grad_norm": 0.7235788106918335, "learning_rate": 0.0002622751035748816, "loss": 3.8302, "step": 112310 }, { "epoch": 0.234, "grad_norm": 0.7413920164108276, "learning_rate": 0.0002622685657897057, "loss": 3.9072, "step": 112320 }, { "epoch": 0.23402083333333334, "grad_norm": 0.8739325404167175, "learning_rate": 0.000262262027519574, "loss": 4.043, "step": 112330 }, { "epoch": 0.23404166666666668, "grad_norm": 1.0761208534240723, "learning_rate": 0.0002622554887645148, "loss": 3.8481, "step": 112340 }, { "epoch": 0.2340625, "grad_norm": 0.8072762489318848, "learning_rate": 0.0002622489495245563, "loss": 3.9273, "step": 112350 }, { "epoch": 0.23408333333333334, "grad_norm": 0.7394698262214661, "learning_rate": 0.00026224240979972675, "loss": 3.6577, "step": 112360 }, { "epoch": 0.23410416666666667, "grad_norm": 0.6784875988960266, "learning_rate": 0.00026223586959005446, "loss": 4.043, "step": 112370 }, { "epoch": 0.234125, "grad_norm": 0.7344674468040466, "learning_rate": 0.0002622293288955676, "loss": 3.9131, "step": 112380 }, { "epoch": 0.23414583333333333, "grad_norm": 0.7370862364768982, "learning_rate": 0.00026222278771629453, "loss": 3.9838, "step": 112390 }, { "epoch": 0.23416666666666666, "grad_norm": 0.8208688497543335, "learning_rate": 0.00026221624605226343, "loss": 3.9771, "step": 112400 }, { "epoch": 0.2341875, "grad_norm": 0.8002815246582031, "learning_rate": 0.0002622097039035025, "loss": 3.845, "step": 112410 }, { "epoch": 0.23420833333333332, "grad_norm": 0.8399003148078918, "learning_rate": 0.0002622031612700401, "loss": 4.1704, "step": 112420 }, { "epoch": 0.23422916666666665, "grad_norm": 0.7511206865310669, "learning_rate": 0.00026219661815190447, "loss": 3.841, "step": 112430 }, { "epoch": 0.23425, "grad_norm": 0.6996220350265503, "learning_rate": 0.00026219007454912385, "loss": 4.055, "step": 112440 }, { "epoch": 0.23427083333333334, "grad_norm": 0.8284479379653931, "learning_rate": 0.0002621835304617265, "loss": 3.822, "step": 112450 }, { "epoch": 0.23429166666666668, "grad_norm": 0.732962429523468, "learning_rate": 0.0002621769858897407, "loss": 3.8288, "step": 112460 }, { "epoch": 0.2343125, "grad_norm": 0.6844059824943542, "learning_rate": 0.00026217044083319476, "loss": 4.026, "step": 112470 }, { "epoch": 0.23433333333333334, "grad_norm": 0.7182744145393372, "learning_rate": 0.00026216389529211685, "loss": 4.106, "step": 112480 }, { "epoch": 0.23435416666666667, "grad_norm": 0.7824922800064087, "learning_rate": 0.0002621573492665354, "loss": 3.892, "step": 112490 }, { "epoch": 0.234375, "grad_norm": 0.761566162109375, "learning_rate": 0.0002621508027564786, "loss": 3.8131, "step": 112500 }, { "epoch": 0.23439583333333333, "grad_norm": 0.7079015970230103, "learning_rate": 0.00026214425576197466, "loss": 3.9687, "step": 112510 }, { "epoch": 0.23441666666666666, "grad_norm": 0.7447836399078369, "learning_rate": 0.0002621377082830519, "loss": 3.9782, "step": 112520 }, { "epoch": 0.2344375, "grad_norm": 0.816684901714325, "learning_rate": 0.0002621311603197387, "loss": 3.8896, "step": 112530 }, { "epoch": 0.23445833333333332, "grad_norm": 0.7626854777336121, "learning_rate": 0.0002621246118720632, "loss": 3.9266, "step": 112540 }, { "epoch": 0.23447916666666666, "grad_norm": 0.8282618522644043, "learning_rate": 0.0002621180629400538, "loss": 3.8656, "step": 112550 }, { "epoch": 0.2345, "grad_norm": 0.7841196060180664, "learning_rate": 0.00026211151352373876, "loss": 3.9661, "step": 112560 }, { "epoch": 0.23452083333333335, "grad_norm": 0.7180324196815491, "learning_rate": 0.0002621049636231463, "loss": 3.9818, "step": 112570 }, { "epoch": 0.23454166666666668, "grad_norm": 0.7510347366333008, "learning_rate": 0.00026209841323830485, "loss": 3.6956, "step": 112580 }, { "epoch": 0.2345625, "grad_norm": 0.8722372651100159, "learning_rate": 0.00026209186236924263, "loss": 3.952, "step": 112590 }, { "epoch": 0.23458333333333334, "grad_norm": 0.7620896697044373, "learning_rate": 0.0002620853110159879, "loss": 3.7804, "step": 112600 }, { "epoch": 0.23460416666666667, "grad_norm": 0.7736909985542297, "learning_rate": 0.000262078759178569, "loss": 3.9963, "step": 112610 }, { "epoch": 0.234625, "grad_norm": 0.7790977358818054, "learning_rate": 0.0002620722068570142, "loss": 3.9914, "step": 112620 }, { "epoch": 0.23464583333333333, "grad_norm": 0.7237060070037842, "learning_rate": 0.0002620656540513518, "loss": 3.8542, "step": 112630 }, { "epoch": 0.23466666666666666, "grad_norm": 0.9768034219741821, "learning_rate": 0.0002620591007616102, "loss": 3.8891, "step": 112640 }, { "epoch": 0.2346875, "grad_norm": 0.6890493631362915, "learning_rate": 0.0002620525469878176, "loss": 3.7818, "step": 112650 }, { "epoch": 0.23470833333333332, "grad_norm": 0.9258646965026855, "learning_rate": 0.0002620459927300024, "loss": 3.9585, "step": 112660 }, { "epoch": 0.23472916666666666, "grad_norm": 1.2307043075561523, "learning_rate": 0.0002620394379881928, "loss": 3.763, "step": 112670 }, { "epoch": 0.23475, "grad_norm": 0.7087436318397522, "learning_rate": 0.0002620328827624172, "loss": 3.7612, "step": 112680 }, { "epoch": 0.23477083333333335, "grad_norm": 0.7315555810928345, "learning_rate": 0.00026202632705270393, "loss": 3.8208, "step": 112690 }, { "epoch": 0.23479166666666668, "grad_norm": 0.7825053334236145, "learning_rate": 0.0002620197708590812, "loss": 3.9261, "step": 112700 }, { "epoch": 0.2348125, "grad_norm": 0.8862001299858093, "learning_rate": 0.00026201321418157744, "loss": 3.8814, "step": 112710 }, { "epoch": 0.23483333333333334, "grad_norm": 0.7509416937828064, "learning_rate": 0.00026200665702022096, "loss": 3.9814, "step": 112720 }, { "epoch": 0.23485416666666667, "grad_norm": 0.7726261019706726, "learning_rate": 0.00026200009937504, "loss": 4.0606, "step": 112730 }, { "epoch": 0.234875, "grad_norm": 0.6815237998962402, "learning_rate": 0.00026199354124606297, "loss": 3.7853, "step": 112740 }, { "epoch": 0.23489583333333333, "grad_norm": 0.7003218531608582, "learning_rate": 0.00026198698263331816, "loss": 3.7727, "step": 112750 }, { "epoch": 0.23491666666666666, "grad_norm": 0.8282172679901123, "learning_rate": 0.00026198042353683395, "loss": 3.9612, "step": 112760 }, { "epoch": 0.2349375, "grad_norm": 0.6605738997459412, "learning_rate": 0.0002619738639566386, "loss": 3.8221, "step": 112770 }, { "epoch": 0.23495833333333332, "grad_norm": 0.751958429813385, "learning_rate": 0.0002619673038927605, "loss": 3.8575, "step": 112780 }, { "epoch": 0.23497916666666666, "grad_norm": 0.8201401829719543, "learning_rate": 0.0002619607433452279, "loss": 4.0231, "step": 112790 }, { "epoch": 0.235, "grad_norm": 0.8694060444831848, "learning_rate": 0.0002619541823140693, "loss": 3.9477, "step": 112800 }, { "epoch": 0.23502083333333335, "grad_norm": 0.7929521203041077, "learning_rate": 0.0002619476207993129, "loss": 3.8248, "step": 112810 }, { "epoch": 0.23504166666666668, "grad_norm": 0.725143551826477, "learning_rate": 0.0002619410588009871, "loss": 3.8737, "step": 112820 }, { "epoch": 0.2350625, "grad_norm": 0.8168599605560303, "learning_rate": 0.00026193449631912026, "loss": 3.7516, "step": 112830 }, { "epoch": 0.23508333333333334, "grad_norm": 0.8912594318389893, "learning_rate": 0.00026192793335374066, "loss": 4.0511, "step": 112840 }, { "epoch": 0.23510416666666667, "grad_norm": 0.8464767336845398, "learning_rate": 0.0002619213699048767, "loss": 3.6606, "step": 112850 }, { "epoch": 0.235125, "grad_norm": 0.824193000793457, "learning_rate": 0.0002619148059725568, "loss": 4.0295, "step": 112860 }, { "epoch": 0.23514583333333333, "grad_norm": 0.7161937355995178, "learning_rate": 0.0002619082415568091, "loss": 3.8706, "step": 112870 }, { "epoch": 0.23516666666666666, "grad_norm": 0.7569338083267212, "learning_rate": 0.0002619016766576622, "loss": 3.7718, "step": 112880 }, { "epoch": 0.2351875, "grad_norm": 0.7777268886566162, "learning_rate": 0.0002618951112751443, "loss": 3.7888, "step": 112890 }, { "epoch": 0.23520833333333332, "grad_norm": 0.8880210518836975, "learning_rate": 0.0002618885454092838, "loss": 3.8777, "step": 112900 }, { "epoch": 0.23522916666666666, "grad_norm": 1.0999858379364014, "learning_rate": 0.00026188197906010913, "loss": 3.9637, "step": 112910 }, { "epoch": 0.23525, "grad_norm": 0.8330174088478088, "learning_rate": 0.00026187541222764856, "loss": 3.9946, "step": 112920 }, { "epoch": 0.23527083333333335, "grad_norm": 0.7998022437095642, "learning_rate": 0.00026186884491193047, "loss": 4.0292, "step": 112930 }, { "epoch": 0.23529166666666668, "grad_norm": 0.7511048316955566, "learning_rate": 0.0002618622771129833, "loss": 3.9363, "step": 112940 }, { "epoch": 0.2353125, "grad_norm": 0.7381274700164795, "learning_rate": 0.0002618557088308353, "loss": 3.9134, "step": 112950 }, { "epoch": 0.23533333333333334, "grad_norm": 0.69205641746521, "learning_rate": 0.000261849140065515, "loss": 3.8321, "step": 112960 }, { "epoch": 0.23535416666666667, "grad_norm": 0.7544022798538208, "learning_rate": 0.0002618425708170506, "loss": 3.6865, "step": 112970 }, { "epoch": 0.235375, "grad_norm": 0.7884484529495239, "learning_rate": 0.0002618360010854707, "loss": 3.7413, "step": 112980 }, { "epoch": 0.23539583333333333, "grad_norm": 0.81086266040802, "learning_rate": 0.00026182943087080344, "loss": 3.9115, "step": 112990 }, { "epoch": 0.23541666666666666, "grad_norm": 0.7462107539176941, "learning_rate": 0.0002618228601730773, "loss": 3.9045, "step": 113000 }, { "epoch": 0.23541666666666666, "eval_loss": 4.26096248626709, "eval_runtime": 9.3227, "eval_samples_per_second": 1.073, "eval_steps_per_second": 0.322, "step": 113000 }, { "epoch": 0.2354375, "grad_norm": 0.8278399109840393, "learning_rate": 0.0002618162889923207, "loss": 4.0592, "step": 113010 }, { "epoch": 0.23545833333333333, "grad_norm": 0.7057823538780212, "learning_rate": 0.00026180971732856195, "loss": 3.9916, "step": 113020 }, { "epoch": 0.23547916666666666, "grad_norm": 0.7851118445396423, "learning_rate": 0.0002618031451818295, "loss": 4.1084, "step": 113030 }, { "epoch": 0.2355, "grad_norm": 0.7384151816368103, "learning_rate": 0.0002617965725521517, "loss": 3.8835, "step": 113040 }, { "epoch": 0.23552083333333335, "grad_norm": 1.0190908908843994, "learning_rate": 0.000261789999439557, "loss": 3.8852, "step": 113050 }, { "epoch": 0.23554166666666668, "grad_norm": 0.7323639988899231, "learning_rate": 0.00026178342584407373, "loss": 4.0053, "step": 113060 }, { "epoch": 0.2355625, "grad_norm": 0.7451760768890381, "learning_rate": 0.0002617768517657303, "loss": 3.9405, "step": 113070 }, { "epoch": 0.23558333333333334, "grad_norm": 0.8560953140258789, "learning_rate": 0.0002617702772045552, "loss": 3.8062, "step": 113080 }, { "epoch": 0.23560416666666667, "grad_norm": 0.7370516657829285, "learning_rate": 0.0002617637021605766, "loss": 3.8479, "step": 113090 }, { "epoch": 0.235625, "grad_norm": 0.8259835243225098, "learning_rate": 0.00026175712663382316, "loss": 3.7711, "step": 113100 }, { "epoch": 0.23564583333333333, "grad_norm": 0.7790320515632629, "learning_rate": 0.00026175055062432315, "loss": 3.9084, "step": 113110 }, { "epoch": 0.23566666666666666, "grad_norm": 0.7821506857872009, "learning_rate": 0.00026174397413210494, "loss": 3.7912, "step": 113120 }, { "epoch": 0.2356875, "grad_norm": 0.730197012424469, "learning_rate": 0.00026173739715719705, "loss": 3.9163, "step": 113130 }, { "epoch": 0.23570833333333333, "grad_norm": 0.7655876874923706, "learning_rate": 0.0002617308196996278, "loss": 3.9123, "step": 113140 }, { "epoch": 0.23572916666666666, "grad_norm": 0.8811327815055847, "learning_rate": 0.00026172424175942565, "loss": 3.6363, "step": 113150 }, { "epoch": 0.23575, "grad_norm": 0.8580450415611267, "learning_rate": 0.00026171766333661894, "loss": 3.7783, "step": 113160 }, { "epoch": 0.23577083333333335, "grad_norm": 0.8216408491134644, "learning_rate": 0.00026171108443123623, "loss": 3.968, "step": 113170 }, { "epoch": 0.23579166666666668, "grad_norm": 0.8225196003913879, "learning_rate": 0.0002617045050433058, "loss": 3.7732, "step": 113180 }, { "epoch": 0.2358125, "grad_norm": 0.8478304147720337, "learning_rate": 0.00026169792517285616, "loss": 3.8318, "step": 113190 }, { "epoch": 0.23583333333333334, "grad_norm": 0.9333080053329468, "learning_rate": 0.00026169134481991566, "loss": 3.8541, "step": 113200 }, { "epoch": 0.23585416666666667, "grad_norm": 0.8038802742958069, "learning_rate": 0.0002616847639845128, "loss": 4.0497, "step": 113210 }, { "epoch": 0.235875, "grad_norm": 0.675420880317688, "learning_rate": 0.00026167818266667594, "loss": 3.9327, "step": 113220 }, { "epoch": 0.23589583333333333, "grad_norm": 0.8065382242202759, "learning_rate": 0.00026167160086643354, "loss": 3.8605, "step": 113230 }, { "epoch": 0.23591666666666666, "grad_norm": 0.6767610907554626, "learning_rate": 0.0002616650185838141, "loss": 4.0246, "step": 113240 }, { "epoch": 0.2359375, "grad_norm": 0.8441426157951355, "learning_rate": 0.00026165843581884586, "loss": 3.8533, "step": 113250 }, { "epoch": 0.23595833333333333, "grad_norm": 0.8039485812187195, "learning_rate": 0.0002616518525715574, "loss": 4.012, "step": 113260 }, { "epoch": 0.23597916666666666, "grad_norm": 0.8812327980995178, "learning_rate": 0.0002616452688419772, "loss": 3.8435, "step": 113270 }, { "epoch": 0.236, "grad_norm": 0.8026545643806458, "learning_rate": 0.0002616386846301336, "loss": 3.8735, "step": 113280 }, { "epoch": 0.23602083333333335, "grad_norm": 0.8382328152656555, "learning_rate": 0.000261632099936055, "loss": 3.8716, "step": 113290 }, { "epoch": 0.23604166666666668, "grad_norm": 0.8009381294250488, "learning_rate": 0.00026162551475977, "loss": 3.7203, "step": 113300 }, { "epoch": 0.2360625, "grad_norm": 0.7849263548851013, "learning_rate": 0.00026161892910130693, "loss": 3.9239, "step": 113310 }, { "epoch": 0.23608333333333334, "grad_norm": 0.7992645502090454, "learning_rate": 0.0002616123429606943, "loss": 3.8202, "step": 113320 }, { "epoch": 0.23610416666666667, "grad_norm": 0.8581199049949646, "learning_rate": 0.0002616057563379605, "loss": 3.7453, "step": 113330 }, { "epoch": 0.236125, "grad_norm": 0.8569010496139526, "learning_rate": 0.000261599169233134, "loss": 3.8997, "step": 113340 }, { "epoch": 0.23614583333333333, "grad_norm": 0.7280343770980835, "learning_rate": 0.00026159258164624327, "loss": 3.7878, "step": 113350 }, { "epoch": 0.23616666666666666, "grad_norm": 0.9599436521530151, "learning_rate": 0.00026158599357731677, "loss": 3.7773, "step": 113360 }, { "epoch": 0.2361875, "grad_norm": 0.7498140335083008, "learning_rate": 0.00026157940502638294, "loss": 3.9682, "step": 113370 }, { "epoch": 0.23620833333333333, "grad_norm": 0.8583912253379822, "learning_rate": 0.00026157281599347023, "loss": 3.8666, "step": 113380 }, { "epoch": 0.23622916666666666, "grad_norm": 0.8194348216056824, "learning_rate": 0.00026156622647860716, "loss": 3.8318, "step": 113390 }, { "epoch": 0.23625, "grad_norm": 0.6903581023216248, "learning_rate": 0.00026155963648182213, "loss": 4.0164, "step": 113400 }, { "epoch": 0.23627083333333335, "grad_norm": 0.8513405323028564, "learning_rate": 0.0002615530460031436, "loss": 3.9531, "step": 113410 }, { "epoch": 0.23629166666666668, "grad_norm": 0.8295087218284607, "learning_rate": 0.0002615464550426001, "loss": 4.0258, "step": 113420 }, { "epoch": 0.2363125, "grad_norm": 0.7575225234031677, "learning_rate": 0.00026153986360022007, "loss": 3.88, "step": 113430 }, { "epoch": 0.23633333333333334, "grad_norm": 0.7763004302978516, "learning_rate": 0.000261533271676032, "loss": 3.9596, "step": 113440 }, { "epoch": 0.23635416666666667, "grad_norm": 0.9391988515853882, "learning_rate": 0.0002615266792700643, "loss": 3.9439, "step": 113450 }, { "epoch": 0.236375, "grad_norm": 0.815933108329773, "learning_rate": 0.0002615200863823455, "loss": 3.7458, "step": 113460 }, { "epoch": 0.23639583333333333, "grad_norm": 0.6595311760902405, "learning_rate": 0.00026151349301290405, "loss": 3.908, "step": 113470 }, { "epoch": 0.23641666666666666, "grad_norm": 0.7461366653442383, "learning_rate": 0.0002615068991617685, "loss": 3.972, "step": 113480 }, { "epoch": 0.2364375, "grad_norm": 0.94295734167099, "learning_rate": 0.0002615003048289673, "loss": 3.8458, "step": 113490 }, { "epoch": 0.23645833333333333, "grad_norm": 0.6933321952819824, "learning_rate": 0.00026149371001452885, "loss": 3.6789, "step": 113500 }, { "epoch": 0.23647916666666666, "grad_norm": 0.7620449662208557, "learning_rate": 0.0002614871147184817, "loss": 4.0125, "step": 113510 }, { "epoch": 0.2365, "grad_norm": 0.8424232006072998, "learning_rate": 0.0002614805189408544, "loss": 3.9163, "step": 113520 }, { "epoch": 0.23652083333333335, "grad_norm": 0.6996073722839355, "learning_rate": 0.0002614739226816754, "loss": 3.9681, "step": 113530 }, { "epoch": 0.23654166666666668, "grad_norm": 0.7832129597663879, "learning_rate": 0.0002614673259409731, "loss": 3.822, "step": 113540 }, { "epoch": 0.2365625, "grad_norm": 0.8291290998458862, "learning_rate": 0.0002614607287187761, "loss": 3.9458, "step": 113550 }, { "epoch": 0.23658333333333334, "grad_norm": 0.7482668161392212, "learning_rate": 0.0002614541310151129, "loss": 3.8046, "step": 113560 }, { "epoch": 0.23660416666666667, "grad_norm": 0.7317926287651062, "learning_rate": 0.00026144753283001193, "loss": 3.9622, "step": 113570 }, { "epoch": 0.236625, "grad_norm": 0.7550917267799377, "learning_rate": 0.0002614409341635018, "loss": 3.8706, "step": 113580 }, { "epoch": 0.23664583333333333, "grad_norm": 0.7495788335800171, "learning_rate": 0.0002614343350156109, "loss": 3.9195, "step": 113590 }, { "epoch": 0.23666666666666666, "grad_norm": 0.9394643902778625, "learning_rate": 0.0002614277353863678, "loss": 3.8986, "step": 113600 }, { "epoch": 0.2366875, "grad_norm": 0.7414722442626953, "learning_rate": 0.00026142113527580094, "loss": 3.7689, "step": 113610 }, { "epoch": 0.23670833333333333, "grad_norm": 0.7958858013153076, "learning_rate": 0.0002614145346839389, "loss": 3.7782, "step": 113620 }, { "epoch": 0.23672916666666666, "grad_norm": 0.7467257380485535, "learning_rate": 0.0002614079336108102, "loss": 3.8583, "step": 113630 }, { "epoch": 0.23675, "grad_norm": 0.7843925356864929, "learning_rate": 0.0002614013320564433, "loss": 3.7919, "step": 113640 }, { "epoch": 0.23677083333333335, "grad_norm": 0.773753821849823, "learning_rate": 0.00026139473002086675, "loss": 3.8849, "step": 113650 }, { "epoch": 0.23679166666666668, "grad_norm": 0.8628260493278503, "learning_rate": 0.0002613881275041091, "loss": 3.9306, "step": 113660 }, { "epoch": 0.2368125, "grad_norm": 0.8059950470924377, "learning_rate": 0.00026138152450619876, "loss": 3.822, "step": 113670 }, { "epoch": 0.23683333333333334, "grad_norm": 0.7553508281707764, "learning_rate": 0.00026137492102716435, "loss": 3.7846, "step": 113680 }, { "epoch": 0.23685416666666667, "grad_norm": 0.8282298445701599, "learning_rate": 0.0002613683170670344, "loss": 3.9299, "step": 113690 }, { "epoch": 0.236875, "grad_norm": 0.7417914271354675, "learning_rate": 0.00026136171262583735, "loss": 3.8805, "step": 113700 }, { "epoch": 0.23689583333333333, "grad_norm": 0.7207459807395935, "learning_rate": 0.0002613551077036018, "loss": 3.8517, "step": 113710 }, { "epoch": 0.23691666666666666, "grad_norm": 0.6979677677154541, "learning_rate": 0.00026134850230035626, "loss": 3.9228, "step": 113720 }, { "epoch": 0.2369375, "grad_norm": 0.6991243362426758, "learning_rate": 0.0002613418964161293, "loss": 3.8076, "step": 113730 }, { "epoch": 0.23695833333333333, "grad_norm": 0.6677184700965881, "learning_rate": 0.00026133529005094937, "loss": 3.9327, "step": 113740 }, { "epoch": 0.23697916666666666, "grad_norm": 0.7654378414154053, "learning_rate": 0.00026132868320484504, "loss": 3.8384, "step": 113750 }, { "epoch": 0.237, "grad_norm": 0.9106190800666809, "learning_rate": 0.00026132207587784494, "loss": 3.9872, "step": 113760 }, { "epoch": 0.23702083333333332, "grad_norm": 0.8048157095909119, "learning_rate": 0.0002613154680699775, "loss": 3.935, "step": 113770 }, { "epoch": 0.23704166666666668, "grad_norm": 0.8073506355285645, "learning_rate": 0.00026130885978127127, "loss": 3.786, "step": 113780 }, { "epoch": 0.2370625, "grad_norm": 0.7299621105194092, "learning_rate": 0.0002613022510117549, "loss": 3.9242, "step": 113790 }, { "epoch": 0.23708333333333334, "grad_norm": 0.7716646790504456, "learning_rate": 0.0002612956417614568, "loss": 3.8563, "step": 113800 }, { "epoch": 0.23710416666666667, "grad_norm": 0.7175790071487427, "learning_rate": 0.00026128903203040556, "loss": 4.0354, "step": 113810 }, { "epoch": 0.237125, "grad_norm": 0.6506059765815735, "learning_rate": 0.0002612824218186298, "loss": 3.8953, "step": 113820 }, { "epoch": 0.23714583333333333, "grad_norm": 0.7555687427520752, "learning_rate": 0.00026127581112615804, "loss": 3.8858, "step": 113830 }, { "epoch": 0.23716666666666666, "grad_norm": 0.7510266900062561, "learning_rate": 0.0002612691999530188, "loss": 3.862, "step": 113840 }, { "epoch": 0.2371875, "grad_norm": 0.7787691950798035, "learning_rate": 0.00026126258829924066, "loss": 4.1028, "step": 113850 }, { "epoch": 0.23720833333333333, "grad_norm": 0.7241496443748474, "learning_rate": 0.0002612559761648522, "loss": 3.8725, "step": 113860 }, { "epoch": 0.23722916666666666, "grad_norm": 0.7116979956626892, "learning_rate": 0.0002612493635498819, "loss": 3.995, "step": 113870 }, { "epoch": 0.23725, "grad_norm": 0.8266820311546326, "learning_rate": 0.0002612427504543584, "loss": 3.7682, "step": 113880 }, { "epoch": 0.23727083333333332, "grad_norm": 0.6824839115142822, "learning_rate": 0.0002612361368783103, "loss": 3.9402, "step": 113890 }, { "epoch": 0.23729166666666668, "grad_norm": 0.7754460573196411, "learning_rate": 0.0002612295228217661, "loss": 3.891, "step": 113900 }, { "epoch": 0.2373125, "grad_norm": 0.7085105776786804, "learning_rate": 0.00026122290828475435, "loss": 3.9192, "step": 113910 }, { "epoch": 0.23733333333333334, "grad_norm": 0.6307634711265564, "learning_rate": 0.0002612162932673037, "loss": 3.8076, "step": 113920 }, { "epoch": 0.23735416666666667, "grad_norm": 0.8724708557128906, "learning_rate": 0.00026120967776944266, "loss": 3.8679, "step": 113930 }, { "epoch": 0.237375, "grad_norm": 0.8018783330917358, "learning_rate": 0.0002612030617911999, "loss": 3.9368, "step": 113940 }, { "epoch": 0.23739583333333333, "grad_norm": 0.7467615008354187, "learning_rate": 0.00026119644533260385, "loss": 3.9215, "step": 113950 }, { "epoch": 0.23741666666666666, "grad_norm": 0.8405132293701172, "learning_rate": 0.00026118982839368324, "loss": 3.875, "step": 113960 }, { "epoch": 0.2374375, "grad_norm": 0.6761019825935364, "learning_rate": 0.00026118321097446653, "loss": 3.8323, "step": 113970 }, { "epoch": 0.23745833333333333, "grad_norm": 0.982046902179718, "learning_rate": 0.00026117659307498236, "loss": 3.9609, "step": 113980 }, { "epoch": 0.23747916666666666, "grad_norm": 0.7016381621360779, "learning_rate": 0.0002611699746952593, "loss": 4.0141, "step": 113990 }, { "epoch": 0.2375, "grad_norm": 0.6979237794876099, "learning_rate": 0.000261163355835326, "loss": 3.8632, "step": 114000 }, { "epoch": 0.2375, "eval_loss": 4.274669170379639, "eval_runtime": 10.1558, "eval_samples_per_second": 0.985, "eval_steps_per_second": 0.295, "step": 114000 }, { "epoch": 0.23752083333333332, "grad_norm": 0.707955539226532, "learning_rate": 0.000261156736495211, "loss": 3.8232, "step": 114010 }, { "epoch": 0.23754166666666668, "grad_norm": 0.833194375038147, "learning_rate": 0.0002611501166749429, "loss": 3.7136, "step": 114020 }, { "epoch": 0.2375625, "grad_norm": 0.7838445901870728, "learning_rate": 0.00026114349637455027, "loss": 3.8977, "step": 114030 }, { "epoch": 0.23758333333333334, "grad_norm": 0.8599135875701904, "learning_rate": 0.00026113687559406175, "loss": 3.849, "step": 114040 }, { "epoch": 0.23760416666666667, "grad_norm": 0.987023115158081, "learning_rate": 0.0002611302543335059, "loss": 4.0649, "step": 114050 }, { "epoch": 0.237625, "grad_norm": 0.7492974996566772, "learning_rate": 0.0002611236325929113, "loss": 3.9408, "step": 114060 }, { "epoch": 0.23764583333333333, "grad_norm": 0.7786435484886169, "learning_rate": 0.00026111701037230664, "loss": 3.8493, "step": 114070 }, { "epoch": 0.23766666666666666, "grad_norm": 0.8377174735069275, "learning_rate": 0.00026111038767172046, "loss": 3.888, "step": 114080 }, { "epoch": 0.2376875, "grad_norm": 0.7755816578865051, "learning_rate": 0.0002611037644911814, "loss": 3.9386, "step": 114090 }, { "epoch": 0.23770833333333333, "grad_norm": 0.7938888072967529, "learning_rate": 0.0002610971408307181, "loss": 3.8402, "step": 114100 }, { "epoch": 0.23772916666666666, "grad_norm": 0.684544563293457, "learning_rate": 0.00026109051669035907, "loss": 3.7374, "step": 114110 }, { "epoch": 0.23775, "grad_norm": 0.7818745970726013, "learning_rate": 0.000261083892070133, "loss": 3.8437, "step": 114120 }, { "epoch": 0.23777083333333332, "grad_norm": 0.6883953213691711, "learning_rate": 0.0002610772669700684, "loss": 3.8417, "step": 114130 }, { "epoch": 0.23779166666666668, "grad_norm": 0.7021319270133972, "learning_rate": 0.00026107064139019407, "loss": 3.9388, "step": 114140 }, { "epoch": 0.2378125, "grad_norm": 0.7883499264717102, "learning_rate": 0.0002610640153305386, "loss": 3.8189, "step": 114150 }, { "epoch": 0.23783333333333334, "grad_norm": 0.7388126254081726, "learning_rate": 0.0002610573887911304, "loss": 3.9782, "step": 114160 }, { "epoch": 0.23785416666666667, "grad_norm": 0.7088503837585449, "learning_rate": 0.0002610507617719983, "loss": 3.8246, "step": 114170 }, { "epoch": 0.237875, "grad_norm": 0.8095081448554993, "learning_rate": 0.00026104413427317086, "loss": 3.865, "step": 114180 }, { "epoch": 0.23789583333333333, "grad_norm": 0.7264026999473572, "learning_rate": 0.00026103750629467674, "loss": 3.891, "step": 114190 }, { "epoch": 0.23791666666666667, "grad_norm": 0.7216106653213501, "learning_rate": 0.00026103087783654454, "loss": 3.9403, "step": 114200 }, { "epoch": 0.2379375, "grad_norm": 0.7419866323471069, "learning_rate": 0.0002610242488988029, "loss": 3.906, "step": 114210 }, { "epoch": 0.23795833333333333, "grad_norm": 0.7289590835571289, "learning_rate": 0.00026101761948148043, "loss": 3.7424, "step": 114220 }, { "epoch": 0.23797916666666666, "grad_norm": 0.9748528003692627, "learning_rate": 0.0002610109895846058, "loss": 3.9552, "step": 114230 }, { "epoch": 0.238, "grad_norm": 0.8353610038757324, "learning_rate": 0.0002610043592082076, "loss": 4.0065, "step": 114240 }, { "epoch": 0.23802083333333332, "grad_norm": 0.8529026508331299, "learning_rate": 0.00026099772835231456, "loss": 3.8788, "step": 114250 }, { "epoch": 0.23804166666666668, "grad_norm": 0.8682144284248352, "learning_rate": 0.0002609910970169552, "loss": 3.7228, "step": 114260 }, { "epoch": 0.2380625, "grad_norm": 0.7240811586380005, "learning_rate": 0.0002609844652021583, "loss": 3.9139, "step": 114270 }, { "epoch": 0.23808333333333334, "grad_norm": 0.8528417944908142, "learning_rate": 0.0002609778329079524, "loss": 3.8395, "step": 114280 }, { "epoch": 0.23810416666666667, "grad_norm": 0.7062963247299194, "learning_rate": 0.00026097120013436625, "loss": 3.9186, "step": 114290 }, { "epoch": 0.238125, "grad_norm": 0.7778975963592529, "learning_rate": 0.0002609645668814284, "loss": 3.7888, "step": 114300 }, { "epoch": 0.23814583333333333, "grad_norm": 0.7422923445701599, "learning_rate": 0.0002609579331491675, "loss": 4.0528, "step": 114310 }, { "epoch": 0.23816666666666667, "grad_norm": 0.8436475396156311, "learning_rate": 0.00026095129893761234, "loss": 4.028, "step": 114320 }, { "epoch": 0.2381875, "grad_norm": 0.8094499111175537, "learning_rate": 0.00026094466424679146, "loss": 3.7622, "step": 114330 }, { "epoch": 0.23820833333333333, "grad_norm": 0.8609719276428223, "learning_rate": 0.0002609380290767335, "loss": 3.7944, "step": 114340 }, { "epoch": 0.23822916666666666, "grad_norm": 0.7979872226715088, "learning_rate": 0.0002609313934274672, "loss": 3.8434, "step": 114350 }, { "epoch": 0.23825, "grad_norm": 0.9424957633018494, "learning_rate": 0.0002609247572990212, "loss": 3.8321, "step": 114360 }, { "epoch": 0.23827083333333332, "grad_norm": 0.7749367356300354, "learning_rate": 0.00026091812069142415, "loss": 3.9443, "step": 114370 }, { "epoch": 0.23829166666666668, "grad_norm": 0.7836552262306213, "learning_rate": 0.0002609114836047047, "loss": 3.9337, "step": 114380 }, { "epoch": 0.2383125, "grad_norm": 0.6600876450538635, "learning_rate": 0.0002609048460388915, "loss": 3.9098, "step": 114390 }, { "epoch": 0.23833333333333334, "grad_norm": 0.7677357196807861, "learning_rate": 0.00026089820799401336, "loss": 4.0287, "step": 114400 }, { "epoch": 0.23835416666666667, "grad_norm": 0.7388955354690552, "learning_rate": 0.0002608915694700988, "loss": 4.0129, "step": 114410 }, { "epoch": 0.238375, "grad_norm": 0.7915213108062744, "learning_rate": 0.0002608849304671766, "loss": 3.8023, "step": 114420 }, { "epoch": 0.23839583333333333, "grad_norm": 0.8580248355865479, "learning_rate": 0.00026087829098527535, "loss": 3.8921, "step": 114430 }, { "epoch": 0.23841666666666667, "grad_norm": 0.8447347283363342, "learning_rate": 0.00026087165102442375, "loss": 3.9229, "step": 114440 }, { "epoch": 0.2384375, "grad_norm": 0.6824004650115967, "learning_rate": 0.00026086501058465055, "loss": 3.914, "step": 114450 }, { "epoch": 0.23845833333333333, "grad_norm": 0.7024351954460144, "learning_rate": 0.0002608583696659844, "loss": 3.8175, "step": 114460 }, { "epoch": 0.23847916666666666, "grad_norm": 0.7374757528305054, "learning_rate": 0.0002608517282684539, "loss": 3.8488, "step": 114470 }, { "epoch": 0.2385, "grad_norm": 0.7171477675437927, "learning_rate": 0.0002608450863920879, "loss": 3.839, "step": 114480 }, { "epoch": 0.23852083333333332, "grad_norm": 1.2253645658493042, "learning_rate": 0.00026083844403691493, "loss": 3.9028, "step": 114490 }, { "epoch": 0.23854166666666668, "grad_norm": 0.8538299202919006, "learning_rate": 0.00026083180120296383, "loss": 3.7607, "step": 114500 }, { "epoch": 0.2385625, "grad_norm": 0.8508172631263733, "learning_rate": 0.00026082515789026316, "loss": 3.9103, "step": 114510 }, { "epoch": 0.23858333333333334, "grad_norm": 0.888931393623352, "learning_rate": 0.00026081851409884174, "loss": 3.7562, "step": 114520 }, { "epoch": 0.23860416666666667, "grad_norm": 0.8008545637130737, "learning_rate": 0.0002608118698287281, "loss": 3.7393, "step": 114530 }, { "epoch": 0.238625, "grad_norm": 1.2680237293243408, "learning_rate": 0.00026080522507995106, "loss": 3.9353, "step": 114540 }, { "epoch": 0.23864583333333333, "grad_norm": 0.906619131565094, "learning_rate": 0.0002607985798525394, "loss": 3.842, "step": 114550 }, { "epoch": 0.23866666666666667, "grad_norm": 0.7736608982086182, "learning_rate": 0.00026079193414652166, "loss": 3.7793, "step": 114560 }, { "epoch": 0.2386875, "grad_norm": 0.8171983957290649, "learning_rate": 0.00026078528796192663, "loss": 3.9688, "step": 114570 }, { "epoch": 0.23870833333333333, "grad_norm": 0.8694718480110168, "learning_rate": 0.00026077864129878304, "loss": 3.8157, "step": 114580 }, { "epoch": 0.23872916666666666, "grad_norm": 0.7078268527984619, "learning_rate": 0.00026077199415711956, "loss": 3.7632, "step": 114590 }, { "epoch": 0.23875, "grad_norm": 0.7211157083511353, "learning_rate": 0.0002607653465369649, "loss": 3.8509, "step": 114600 }, { "epoch": 0.23877083333333332, "grad_norm": 0.6716285347938538, "learning_rate": 0.0002607586984383478, "loss": 3.9599, "step": 114610 }, { "epoch": 0.23879166666666668, "grad_norm": 0.7134262323379517, "learning_rate": 0.00026075204986129695, "loss": 3.8272, "step": 114620 }, { "epoch": 0.2388125, "grad_norm": 0.7559017539024353, "learning_rate": 0.00026074540080584104, "loss": 3.8747, "step": 114630 }, { "epoch": 0.23883333333333334, "grad_norm": 0.7917506694793701, "learning_rate": 0.0002607387512720089, "loss": 4.0529, "step": 114640 }, { "epoch": 0.23885416666666667, "grad_norm": 0.7047008872032166, "learning_rate": 0.0002607321012598292, "loss": 3.8136, "step": 114650 }, { "epoch": 0.238875, "grad_norm": 0.7834599018096924, "learning_rate": 0.00026072545076933056, "loss": 3.8974, "step": 114660 }, { "epoch": 0.23889583333333334, "grad_norm": 0.790911853313446, "learning_rate": 0.0002607187998005419, "loss": 3.8195, "step": 114670 }, { "epoch": 0.23891666666666667, "grad_norm": 0.8479803204536438, "learning_rate": 0.0002607121483534918, "loss": 4.0642, "step": 114680 }, { "epoch": 0.2389375, "grad_norm": 0.8249107599258423, "learning_rate": 0.000260705496428209, "loss": 3.8174, "step": 114690 }, { "epoch": 0.23895833333333333, "grad_norm": 0.685752809047699, "learning_rate": 0.00026069884402472236, "loss": 3.8388, "step": 114700 }, { "epoch": 0.23897916666666666, "grad_norm": 0.8596463799476624, "learning_rate": 0.0002606921911430605, "loss": 3.9567, "step": 114710 }, { "epoch": 0.239, "grad_norm": 0.7592532634735107, "learning_rate": 0.0002606855377832522, "loss": 3.817, "step": 114720 }, { "epoch": 0.23902083333333332, "grad_norm": 0.9025839567184448, "learning_rate": 0.00026067888394532614, "loss": 3.9749, "step": 114730 }, { "epoch": 0.23904166666666668, "grad_norm": 0.7498944997787476, "learning_rate": 0.00026067222962931116, "loss": 3.8145, "step": 114740 }, { "epoch": 0.2390625, "grad_norm": 0.6617084741592407, "learning_rate": 0.000260665574835236, "loss": 3.8192, "step": 114750 }, { "epoch": 0.23908333333333334, "grad_norm": 0.7757551074028015, "learning_rate": 0.0002606589195631293, "loss": 3.789, "step": 114760 }, { "epoch": 0.23910416666666667, "grad_norm": 0.7989000678062439, "learning_rate": 0.0002606522638130198, "loss": 3.8031, "step": 114770 }, { "epoch": 0.239125, "grad_norm": 0.9631623029708862, "learning_rate": 0.00026064560758493646, "loss": 3.7692, "step": 114780 }, { "epoch": 0.23914583333333334, "grad_norm": 0.9125344753265381, "learning_rate": 0.0002606389508789078, "loss": 3.8187, "step": 114790 }, { "epoch": 0.23916666666666667, "grad_norm": 0.9317472577095032, "learning_rate": 0.00026063229369496267, "loss": 3.7828, "step": 114800 }, { "epoch": 0.2391875, "grad_norm": 0.7269681692123413, "learning_rate": 0.00026062563603312987, "loss": 3.8293, "step": 114810 }, { "epoch": 0.23920833333333333, "grad_norm": 0.7286441326141357, "learning_rate": 0.00026061897789343805, "loss": 3.895, "step": 114820 }, { "epoch": 0.23922916666666666, "grad_norm": 0.865191638469696, "learning_rate": 0.0002606123192759161, "loss": 3.7164, "step": 114830 }, { "epoch": 0.23925, "grad_norm": 0.7402560114860535, "learning_rate": 0.00026060566018059266, "loss": 3.9105, "step": 114840 }, { "epoch": 0.23927083333333332, "grad_norm": 0.9875277876853943, "learning_rate": 0.0002605990006074966, "loss": 3.9954, "step": 114850 }, { "epoch": 0.23929166666666668, "grad_norm": 0.7138338685035706, "learning_rate": 0.00026059234055665663, "loss": 4.0028, "step": 114860 }, { "epoch": 0.2393125, "grad_norm": 0.680026650428772, "learning_rate": 0.00026058568002810146, "loss": 3.8785, "step": 114870 }, { "epoch": 0.23933333333333334, "grad_norm": 0.8372796177864075, "learning_rate": 0.00026057901902186, "loss": 4.0017, "step": 114880 }, { "epoch": 0.23935416666666667, "grad_norm": 0.9821401834487915, "learning_rate": 0.00026057235753796087, "loss": 3.6303, "step": 114890 }, { "epoch": 0.239375, "grad_norm": 0.7389310598373413, "learning_rate": 0.00026056569557643297, "loss": 3.8975, "step": 114900 }, { "epoch": 0.23939583333333334, "grad_norm": 0.7369092106819153, "learning_rate": 0.000260559033137305, "loss": 3.9146, "step": 114910 }, { "epoch": 0.23941666666666667, "grad_norm": 0.7818358540534973, "learning_rate": 0.00026055237022060585, "loss": 3.9397, "step": 114920 }, { "epoch": 0.2394375, "grad_norm": 0.7191615104675293, "learning_rate": 0.00026054570682636414, "loss": 3.9114, "step": 114930 }, { "epoch": 0.23945833333333333, "grad_norm": 0.6996783018112183, "learning_rate": 0.00026053904295460874, "loss": 3.8098, "step": 114940 }, { "epoch": 0.23947916666666666, "grad_norm": 0.7549847960472107, "learning_rate": 0.00026053237860536847, "loss": 3.9116, "step": 114950 }, { "epoch": 0.2395, "grad_norm": 0.7843330502510071, "learning_rate": 0.0002605257137786721, "loss": 3.9704, "step": 114960 }, { "epoch": 0.23952083333333332, "grad_norm": 0.8731957077980042, "learning_rate": 0.0002605190484745483, "loss": 3.8214, "step": 114970 }, { "epoch": 0.23954166666666668, "grad_norm": 1.0411624908447266, "learning_rate": 0.000260512382693026, "loss": 3.9145, "step": 114980 }, { "epoch": 0.2395625, "grad_norm": 0.8362072706222534, "learning_rate": 0.000260505716434134, "loss": 3.8692, "step": 114990 }, { "epoch": 0.23958333333333334, "grad_norm": 0.9187620282173157, "learning_rate": 0.00026049904969790093, "loss": 3.8984, "step": 115000 }, { "epoch": 0.23958333333333334, "eval_loss": 4.277940273284912, "eval_runtime": 9.5298, "eval_samples_per_second": 1.049, "eval_steps_per_second": 0.315, "step": 115000 }, { "epoch": 0.23960416666666667, "grad_norm": 0.8665232062339783, "learning_rate": 0.0002604923824843558, "loss": 3.8811, "step": 115010 }, { "epoch": 0.239625, "grad_norm": 0.7611491680145264, "learning_rate": 0.0002604857147935273, "loss": 3.9553, "step": 115020 }, { "epoch": 0.23964583333333334, "grad_norm": 0.6717048287391663, "learning_rate": 0.0002604790466254442, "loss": 3.9914, "step": 115030 }, { "epoch": 0.23966666666666667, "grad_norm": 0.8163872957229614, "learning_rate": 0.0002604723779801354, "loss": 3.9749, "step": 115040 }, { "epoch": 0.2396875, "grad_norm": 0.7745394110679626, "learning_rate": 0.00026046570885762964, "loss": 3.9945, "step": 115050 }, { "epoch": 0.23970833333333333, "grad_norm": 0.7717122435569763, "learning_rate": 0.00026045903925795577, "loss": 3.7198, "step": 115060 }, { "epoch": 0.23972916666666666, "grad_norm": 0.7597681879997253, "learning_rate": 0.0002604523691811425, "loss": 3.795, "step": 115070 }, { "epoch": 0.23975, "grad_norm": 0.6760414838790894, "learning_rate": 0.0002604456986272188, "loss": 3.9673, "step": 115080 }, { "epoch": 0.23977083333333332, "grad_norm": 0.7097985744476318, "learning_rate": 0.0002604390275962134, "loss": 3.9733, "step": 115090 }, { "epoch": 0.23979166666666665, "grad_norm": 0.7956592440605164, "learning_rate": 0.00026043235608815506, "loss": 3.877, "step": 115100 }, { "epoch": 0.2398125, "grad_norm": 0.7657138705253601, "learning_rate": 0.00026042568410307264, "loss": 3.7238, "step": 115110 }, { "epoch": 0.23983333333333334, "grad_norm": 0.8124246597290039, "learning_rate": 0.00026041901164099504, "loss": 3.7767, "step": 115120 }, { "epoch": 0.23985416666666667, "grad_norm": 0.7243840098381042, "learning_rate": 0.00026041233870195094, "loss": 3.9495, "step": 115130 }, { "epoch": 0.239875, "grad_norm": 0.8098496794700623, "learning_rate": 0.0002604056652859693, "loss": 3.815, "step": 115140 }, { "epoch": 0.23989583333333334, "grad_norm": 0.7868401408195496, "learning_rate": 0.00026039899139307886, "loss": 3.8543, "step": 115150 }, { "epoch": 0.23991666666666667, "grad_norm": 0.8721498847007751, "learning_rate": 0.0002603923170233085, "loss": 3.9988, "step": 115160 }, { "epoch": 0.2399375, "grad_norm": 0.7743726372718811, "learning_rate": 0.000260385642176687, "loss": 3.7932, "step": 115170 }, { "epoch": 0.23995833333333333, "grad_norm": 0.7834858298301697, "learning_rate": 0.0002603789668532432, "loss": 3.8865, "step": 115180 }, { "epoch": 0.23997916666666666, "grad_norm": 0.868409276008606, "learning_rate": 0.000260372291053006, "loss": 3.9339, "step": 115190 }, { "epoch": 0.24, "grad_norm": 0.7618752121925354, "learning_rate": 0.0002603656147760042, "loss": 3.724, "step": 115200 }, { "epoch": 0.24002083333333332, "grad_norm": 0.8054734468460083, "learning_rate": 0.0002603589380222666, "loss": 3.7611, "step": 115210 }, { "epoch": 0.24004166666666665, "grad_norm": 0.8302469849586487, "learning_rate": 0.0002603522607918221, "loss": 3.9, "step": 115220 }, { "epoch": 0.2400625, "grad_norm": 0.7552115321159363, "learning_rate": 0.0002603455830846995, "loss": 3.9184, "step": 115230 }, { "epoch": 0.24008333333333334, "grad_norm": 0.7636775374412537, "learning_rate": 0.0002603389049009276, "loss": 3.9328, "step": 115240 }, { "epoch": 0.24010416666666667, "grad_norm": 1.0122946500778198, "learning_rate": 0.0002603322262405354, "loss": 3.7834, "step": 115250 }, { "epoch": 0.240125, "grad_norm": 0.8122518658638, "learning_rate": 0.0002603255471035516, "loss": 3.867, "step": 115260 }, { "epoch": 0.24014583333333334, "grad_norm": 0.7597981691360474, "learning_rate": 0.0002603188674900051, "loss": 3.9474, "step": 115270 }, { "epoch": 0.24016666666666667, "grad_norm": 0.8387296199798584, "learning_rate": 0.0002603121873999248, "loss": 3.9787, "step": 115280 }, { "epoch": 0.2401875, "grad_norm": 0.7291693091392517, "learning_rate": 0.00026030550683333947, "loss": 3.9418, "step": 115290 }, { "epoch": 0.24020833333333333, "grad_norm": 0.6397300362586975, "learning_rate": 0.00026029882579027807, "loss": 3.8501, "step": 115300 }, { "epoch": 0.24022916666666666, "grad_norm": 0.8513126969337463, "learning_rate": 0.00026029214427076934, "loss": 3.996, "step": 115310 }, { "epoch": 0.24025, "grad_norm": 0.766761302947998, "learning_rate": 0.0002602854622748423, "loss": 3.8538, "step": 115320 }, { "epoch": 0.24027083333333332, "grad_norm": 0.7275024652481079, "learning_rate": 0.0002602787798025256, "loss": 3.865, "step": 115330 }, { "epoch": 0.24029166666666665, "grad_norm": 0.6636534929275513, "learning_rate": 0.00026027209685384827, "loss": 3.9783, "step": 115340 }, { "epoch": 0.2403125, "grad_norm": 0.769293487071991, "learning_rate": 0.0002602654134288391, "loss": 3.9783, "step": 115350 }, { "epoch": 0.24033333333333334, "grad_norm": 0.7248364686965942, "learning_rate": 0.000260258729527527, "loss": 3.9378, "step": 115360 }, { "epoch": 0.24035416666666667, "grad_norm": 0.68677818775177, "learning_rate": 0.0002602520451499409, "loss": 3.968, "step": 115370 }, { "epoch": 0.240375, "grad_norm": 0.9008524417877197, "learning_rate": 0.00026024536029610956, "loss": 3.8415, "step": 115380 }, { "epoch": 0.24039583333333334, "grad_norm": 0.889981210231781, "learning_rate": 0.00026023867496606187, "loss": 3.9423, "step": 115390 }, { "epoch": 0.24041666666666667, "grad_norm": 0.8326575756072998, "learning_rate": 0.00026023198915982684, "loss": 3.9177, "step": 115400 }, { "epoch": 0.2404375, "grad_norm": 0.7323761582374573, "learning_rate": 0.00026022530287743315, "loss": 4.0097, "step": 115410 }, { "epoch": 0.24045833333333333, "grad_norm": 0.6826841831207275, "learning_rate": 0.0002602186161189098, "loss": 3.7704, "step": 115420 }, { "epoch": 0.24047916666666666, "grad_norm": 0.9225627779960632, "learning_rate": 0.00026021192888428567, "loss": 3.8628, "step": 115430 }, { "epoch": 0.2405, "grad_norm": 0.7063223123550415, "learning_rate": 0.0002602052411735896, "loss": 3.9168, "step": 115440 }, { "epoch": 0.24052083333333332, "grad_norm": 0.715499758720398, "learning_rate": 0.00026019855298685054, "loss": 3.8754, "step": 115450 }, { "epoch": 0.24054166666666665, "grad_norm": 0.8689903616905212, "learning_rate": 0.0002601918643240974, "loss": 3.703, "step": 115460 }, { "epoch": 0.2405625, "grad_norm": 0.8279256224632263, "learning_rate": 0.00026018517518535897, "loss": 3.8142, "step": 115470 }, { "epoch": 0.24058333333333334, "grad_norm": 0.738116443157196, "learning_rate": 0.00026017848557066415, "loss": 4.1691, "step": 115480 }, { "epoch": 0.24060416666666667, "grad_norm": 0.743424117565155, "learning_rate": 0.00026017179548004193, "loss": 3.8714, "step": 115490 }, { "epoch": 0.240625, "grad_norm": 0.7706015110015869, "learning_rate": 0.0002601651049135212, "loss": 3.852, "step": 115500 }, { "epoch": 0.24064583333333334, "grad_norm": 0.7491422295570374, "learning_rate": 0.0002601584138711308, "loss": 3.9881, "step": 115510 }, { "epoch": 0.24066666666666667, "grad_norm": 0.7675372362136841, "learning_rate": 0.00026015172235289963, "loss": 3.9055, "step": 115520 }, { "epoch": 0.2406875, "grad_norm": 0.6913831233978271, "learning_rate": 0.00026014503035885663, "loss": 4.0176, "step": 115530 }, { "epoch": 0.24070833333333333, "grad_norm": 0.7792788743972778, "learning_rate": 0.0002601383378890307, "loss": 4.0364, "step": 115540 }, { "epoch": 0.24072916666666666, "grad_norm": 0.7344367504119873, "learning_rate": 0.00026013164494345073, "loss": 3.9964, "step": 115550 }, { "epoch": 0.24075, "grad_norm": 0.7833885550498962, "learning_rate": 0.00026012495152214567, "loss": 4.0095, "step": 115560 }, { "epoch": 0.24077083333333332, "grad_norm": 0.6592714190483093, "learning_rate": 0.00026011825762514446, "loss": 3.8675, "step": 115570 }, { "epoch": 0.24079166666666665, "grad_norm": 0.8733033537864685, "learning_rate": 0.0002601115632524759, "loss": 3.8531, "step": 115580 }, { "epoch": 0.2408125, "grad_norm": 0.7357209920883179, "learning_rate": 0.000260104868404169, "loss": 3.8205, "step": 115590 }, { "epoch": 0.24083333333333334, "grad_norm": 0.6903390884399414, "learning_rate": 0.0002600981730802526, "loss": 3.9439, "step": 115600 }, { "epoch": 0.24085416666666667, "grad_norm": 0.7157521843910217, "learning_rate": 0.0002600914772807557, "loss": 3.8341, "step": 115610 }, { "epoch": 0.240875, "grad_norm": 0.7281493544578552, "learning_rate": 0.00026008478100570726, "loss": 3.7966, "step": 115620 }, { "epoch": 0.24089583333333334, "grad_norm": 0.8439201712608337, "learning_rate": 0.00026007808425513603, "loss": 3.8699, "step": 115630 }, { "epoch": 0.24091666666666667, "grad_norm": 0.827664315700531, "learning_rate": 0.00026007138702907113, "loss": 3.8798, "step": 115640 }, { "epoch": 0.2409375, "grad_norm": 0.7361575365066528, "learning_rate": 0.00026006468932754135, "loss": 4.0136, "step": 115650 }, { "epoch": 0.24095833333333333, "grad_norm": 0.6786472201347351, "learning_rate": 0.0002600579911505757, "loss": 3.9109, "step": 115660 }, { "epoch": 0.24097916666666666, "grad_norm": 0.6592401266098022, "learning_rate": 0.0002600512924982031, "loss": 3.7852, "step": 115670 }, { "epoch": 0.241, "grad_norm": 0.6761149168014526, "learning_rate": 0.0002600445933704525, "loss": 3.9503, "step": 115680 }, { "epoch": 0.24102083333333332, "grad_norm": 0.8813633918762207, "learning_rate": 0.0002600378937673528, "loss": 3.8897, "step": 115690 }, { "epoch": 0.24104166666666665, "grad_norm": 0.8154450058937073, "learning_rate": 0.0002600311936889329, "loss": 3.7943, "step": 115700 }, { "epoch": 0.2410625, "grad_norm": 0.7494574785232544, "learning_rate": 0.00026002449313522187, "loss": 3.806, "step": 115710 }, { "epoch": 0.24108333333333334, "grad_norm": 0.8022719621658325, "learning_rate": 0.00026001779210624857, "loss": 4.0115, "step": 115720 }, { "epoch": 0.24110416666666667, "grad_norm": 0.7826627492904663, "learning_rate": 0.0002600110906020419, "loss": 3.9712, "step": 115730 }, { "epoch": 0.241125, "grad_norm": 0.8162029981613159, "learning_rate": 0.00026000438862263097, "loss": 3.929, "step": 115740 }, { "epoch": 0.24114583333333334, "grad_norm": 0.7820276021957397, "learning_rate": 0.00025999768616804457, "loss": 3.9347, "step": 115750 }, { "epoch": 0.24116666666666667, "grad_norm": 0.8058353662490845, "learning_rate": 0.00025999098323831166, "loss": 4.1583, "step": 115760 }, { "epoch": 0.2411875, "grad_norm": 0.7865243554115295, "learning_rate": 0.0002599842798334613, "loss": 4.0209, "step": 115770 }, { "epoch": 0.24120833333333333, "grad_norm": 0.8769298195838928, "learning_rate": 0.00025997757595352234, "loss": 3.8901, "step": 115780 }, { "epoch": 0.24122916666666666, "grad_norm": 0.843979001045227, "learning_rate": 0.0002599708715985238, "loss": 3.9604, "step": 115790 }, { "epoch": 0.24125, "grad_norm": 0.7673715353012085, "learning_rate": 0.00025996416676849464, "loss": 3.7127, "step": 115800 }, { "epoch": 0.24127083333333332, "grad_norm": 0.7727834582328796, "learning_rate": 0.0002599574614634638, "loss": 3.8271, "step": 115810 }, { "epoch": 0.24129166666666665, "grad_norm": 0.7556334733963013, "learning_rate": 0.00025995075568346025, "loss": 4.1219, "step": 115820 }, { "epoch": 0.2413125, "grad_norm": 0.8232370018959045, "learning_rate": 0.0002599440494285129, "loss": 4.1545, "step": 115830 }, { "epoch": 0.24133333333333334, "grad_norm": 0.8181596398353577, "learning_rate": 0.0002599373426986509, "loss": 3.7967, "step": 115840 }, { "epoch": 0.24135416666666668, "grad_norm": 0.8050000667572021, "learning_rate": 0.00025993063549390296, "loss": 3.9781, "step": 115850 }, { "epoch": 0.241375, "grad_norm": 0.7994040250778198, "learning_rate": 0.0002599239278142983, "loss": 3.891, "step": 115860 }, { "epoch": 0.24139583333333334, "grad_norm": 0.7868145704269409, "learning_rate": 0.0002599172196598657, "loss": 3.8387, "step": 115870 }, { "epoch": 0.24141666666666667, "grad_norm": 0.742220401763916, "learning_rate": 0.0002599105110306343, "loss": 3.8433, "step": 115880 }, { "epoch": 0.2414375, "grad_norm": 0.919288158416748, "learning_rate": 0.0002599038019266329, "loss": 3.8763, "step": 115890 }, { "epoch": 0.24145833333333333, "grad_norm": 0.7905799746513367, "learning_rate": 0.00025989709234789066, "loss": 3.686, "step": 115900 }, { "epoch": 0.24147916666666666, "grad_norm": 0.7417182922363281, "learning_rate": 0.00025989038229443643, "loss": 3.8377, "step": 115910 }, { "epoch": 0.2415, "grad_norm": 0.7821013331413269, "learning_rate": 0.00025988367176629925, "loss": 3.8474, "step": 115920 }, { "epoch": 0.24152083333333332, "grad_norm": 0.9150959849357605, "learning_rate": 0.0002598769607635081, "loss": 3.6116, "step": 115930 }, { "epoch": 0.24154166666666665, "grad_norm": 0.6710528135299683, "learning_rate": 0.00025987024928609203, "loss": 3.737, "step": 115940 }, { "epoch": 0.2415625, "grad_norm": 0.8117600083351135, "learning_rate": 0.00025986353733407994, "loss": 3.8148, "step": 115950 }, { "epoch": 0.24158333333333334, "grad_norm": 0.7698238492012024, "learning_rate": 0.00025985682490750085, "loss": 4.0023, "step": 115960 }, { "epoch": 0.24160416666666668, "grad_norm": 0.9356105327606201, "learning_rate": 0.00025985011200638377, "loss": 3.8954, "step": 115970 }, { "epoch": 0.241625, "grad_norm": 0.773661732673645, "learning_rate": 0.0002598433986307577, "loss": 4.0737, "step": 115980 }, { "epoch": 0.24164583333333334, "grad_norm": 0.7811927795410156, "learning_rate": 0.0002598366847806516, "loss": 3.5673, "step": 115990 }, { "epoch": 0.24166666666666667, "grad_norm": 0.7317502498626709, "learning_rate": 0.0002598299704560945, "loss": 3.93, "step": 116000 }, { "epoch": 0.24166666666666667, "eval_loss": 4.257462978363037, "eval_runtime": 9.5771, "eval_samples_per_second": 1.044, "eval_steps_per_second": 0.313, "step": 116000 }, { "epoch": 0.2416875, "grad_norm": 0.6917761564254761, "learning_rate": 0.0002598232556571154, "loss": 3.9443, "step": 116010 }, { "epoch": 0.24170833333333333, "grad_norm": 0.7054569125175476, "learning_rate": 0.00025981654038374335, "loss": 3.8276, "step": 116020 }, { "epoch": 0.24172916666666666, "grad_norm": 0.8852920532226562, "learning_rate": 0.0002598098246360072, "loss": 3.8606, "step": 116030 }, { "epoch": 0.24175, "grad_norm": 0.8094838857650757, "learning_rate": 0.0002598031084139362, "loss": 4.0563, "step": 116040 }, { "epoch": 0.24177083333333332, "grad_norm": 0.7740088701248169, "learning_rate": 0.0002597963917175592, "loss": 3.8043, "step": 116050 }, { "epoch": 0.24179166666666665, "grad_norm": 0.7583639621734619, "learning_rate": 0.0002597896745469052, "loss": 3.929, "step": 116060 }, { "epoch": 0.2418125, "grad_norm": 0.7717350721359253, "learning_rate": 0.0002597829569020033, "loss": 3.6648, "step": 116070 }, { "epoch": 0.24183333333333334, "grad_norm": 0.7236257195472717, "learning_rate": 0.00025977623878288244, "loss": 3.9055, "step": 116080 }, { "epoch": 0.24185416666666668, "grad_norm": 0.7113205194473267, "learning_rate": 0.0002597695201895718, "loss": 3.9422, "step": 116090 }, { "epoch": 0.241875, "grad_norm": 0.8215823173522949, "learning_rate": 0.00025976280112210016, "loss": 3.8281, "step": 116100 }, { "epoch": 0.24189583333333334, "grad_norm": 0.8866168260574341, "learning_rate": 0.0002597560815804967, "loss": 4.0249, "step": 116110 }, { "epoch": 0.24191666666666667, "grad_norm": 0.8423787355422974, "learning_rate": 0.00025974936156479046, "loss": 3.8418, "step": 116120 }, { "epoch": 0.2419375, "grad_norm": 0.9628915190696716, "learning_rate": 0.00025974264107501033, "loss": 3.9925, "step": 116130 }, { "epoch": 0.24195833333333333, "grad_norm": 0.851317822933197, "learning_rate": 0.0002597359201111855, "loss": 3.9211, "step": 116140 }, { "epoch": 0.24197916666666666, "grad_norm": 0.8120859861373901, "learning_rate": 0.0002597291986733449, "loss": 3.7712, "step": 116150 }, { "epoch": 0.242, "grad_norm": 0.6859013438224792, "learning_rate": 0.0002597224767615176, "loss": 3.8546, "step": 116160 }, { "epoch": 0.24202083333333332, "grad_norm": 0.7952880263328552, "learning_rate": 0.00025971575437573266, "loss": 3.6966, "step": 116170 }, { "epoch": 0.24204166666666665, "grad_norm": 0.7338311672210693, "learning_rate": 0.00025970903151601907, "loss": 4.0408, "step": 116180 }, { "epoch": 0.2420625, "grad_norm": 0.8171995282173157, "learning_rate": 0.0002597023081824059, "loss": 3.8387, "step": 116190 }, { "epoch": 0.24208333333333334, "grad_norm": 0.7956803441047668, "learning_rate": 0.00025969558437492215, "loss": 3.7903, "step": 116200 }, { "epoch": 0.24210416666666668, "grad_norm": 0.8171812891960144, "learning_rate": 0.00025968886009359693, "loss": 3.8972, "step": 116210 }, { "epoch": 0.242125, "grad_norm": 0.6809042692184448, "learning_rate": 0.0002596821353384592, "loss": 3.8001, "step": 116220 }, { "epoch": 0.24214583333333334, "grad_norm": 0.6739193201065063, "learning_rate": 0.00025967541010953814, "loss": 3.8659, "step": 116230 }, { "epoch": 0.24216666666666667, "grad_norm": 0.7918659448623657, "learning_rate": 0.0002596686844068627, "loss": 3.9693, "step": 116240 }, { "epoch": 0.2421875, "grad_norm": 0.8061742782592773, "learning_rate": 0.0002596619582304619, "loss": 3.8957, "step": 116250 }, { "epoch": 0.24220833333333333, "grad_norm": 0.7432987689971924, "learning_rate": 0.0002596552315803649, "loss": 3.9082, "step": 116260 }, { "epoch": 0.24222916666666666, "grad_norm": 0.6846911907196045, "learning_rate": 0.00025964850445660064, "loss": 3.7562, "step": 116270 }, { "epoch": 0.24225, "grad_norm": 0.9619568586349487, "learning_rate": 0.00025964177685919824, "loss": 3.861, "step": 116280 }, { "epoch": 0.24227083333333332, "grad_norm": 0.789553165435791, "learning_rate": 0.0002596350487881869, "loss": 4.0047, "step": 116290 }, { "epoch": 0.24229166666666666, "grad_norm": 0.7478734850883484, "learning_rate": 0.0002596283202435954, "loss": 3.9989, "step": 116300 }, { "epoch": 0.2423125, "grad_norm": 0.7954090237617493, "learning_rate": 0.000259621591225453, "loss": 3.8302, "step": 116310 }, { "epoch": 0.24233333333333335, "grad_norm": 0.9067075848579407, "learning_rate": 0.00025961486173378874, "loss": 3.9416, "step": 116320 }, { "epoch": 0.24235416666666668, "grad_norm": 0.7972802519798279, "learning_rate": 0.00025960813176863164, "loss": 3.9194, "step": 116330 }, { "epoch": 0.242375, "grad_norm": 0.9493650794029236, "learning_rate": 0.0002596014013300109, "loss": 3.9079, "step": 116340 }, { "epoch": 0.24239583333333334, "grad_norm": 0.7626553177833557, "learning_rate": 0.00025959467041795534, "loss": 3.8957, "step": 116350 }, { "epoch": 0.24241666666666667, "grad_norm": 0.7938113212585449, "learning_rate": 0.00025958793903249427, "loss": 3.9083, "step": 116360 }, { "epoch": 0.2424375, "grad_norm": 0.8069543242454529, "learning_rate": 0.0002595812071736566, "loss": 3.971, "step": 116370 }, { "epoch": 0.24245833333333333, "grad_norm": 0.7843195199966431, "learning_rate": 0.00025957447484147153, "loss": 3.9601, "step": 116380 }, { "epoch": 0.24247916666666666, "grad_norm": 0.7222977876663208, "learning_rate": 0.00025956774203596814, "loss": 3.6944, "step": 116390 }, { "epoch": 0.2425, "grad_norm": 0.6622121334075928, "learning_rate": 0.00025956100875717544, "loss": 3.7766, "step": 116400 }, { "epoch": 0.24252083333333332, "grad_norm": 0.6966058611869812, "learning_rate": 0.0002595542750051225, "loss": 3.6411, "step": 116410 }, { "epoch": 0.24254166666666666, "grad_norm": 0.9141052961349487, "learning_rate": 0.00025954754077983855, "loss": 3.9816, "step": 116420 }, { "epoch": 0.2425625, "grad_norm": 0.727435290813446, "learning_rate": 0.00025954080608135254, "loss": 3.7795, "step": 116430 }, { "epoch": 0.24258333333333335, "grad_norm": 0.8648117780685425, "learning_rate": 0.00025953407090969366, "loss": 4.0119, "step": 116440 }, { "epoch": 0.24260416666666668, "grad_norm": 0.7691929936408997, "learning_rate": 0.0002595273352648909, "loss": 3.8281, "step": 116450 }, { "epoch": 0.242625, "grad_norm": 0.7509002685546875, "learning_rate": 0.0002595205991469734, "loss": 3.7915, "step": 116460 }, { "epoch": 0.24264583333333334, "grad_norm": 0.8490985631942749, "learning_rate": 0.0002595138625559703, "loss": 3.9081, "step": 116470 }, { "epoch": 0.24266666666666667, "grad_norm": 0.8261803388595581, "learning_rate": 0.0002595071254919106, "loss": 3.9555, "step": 116480 }, { "epoch": 0.2426875, "grad_norm": 0.7897732853889465, "learning_rate": 0.0002595003879548235, "loss": 3.8452, "step": 116490 }, { "epoch": 0.24270833333333333, "grad_norm": 0.8003754615783691, "learning_rate": 0.0002594936499447381, "loss": 3.8708, "step": 116500 }, { "epoch": 0.24272916666666666, "grad_norm": 0.7413751482963562, "learning_rate": 0.00025948691146168343, "loss": 4.0482, "step": 116510 }, { "epoch": 0.24275, "grad_norm": 0.6921604871749878, "learning_rate": 0.00025948017250568864, "loss": 3.9819, "step": 116520 }, { "epoch": 0.24277083333333332, "grad_norm": 0.6663542985916138, "learning_rate": 0.00025947343307678285, "loss": 3.9209, "step": 116530 }, { "epoch": 0.24279166666666666, "grad_norm": 0.7911424040794373, "learning_rate": 0.00025946669317499513, "loss": 4.1013, "step": 116540 }, { "epoch": 0.2428125, "grad_norm": 0.7296214699745178, "learning_rate": 0.0002594599528003547, "loss": 3.9969, "step": 116550 }, { "epoch": 0.24283333333333335, "grad_norm": 0.8899838924407959, "learning_rate": 0.00025945321195289055, "loss": 3.7518, "step": 116560 }, { "epoch": 0.24285416666666668, "grad_norm": 0.7114010453224182, "learning_rate": 0.00025944647063263186, "loss": 3.992, "step": 116570 }, { "epoch": 0.242875, "grad_norm": 0.857628583908081, "learning_rate": 0.00025943972883960773, "loss": 3.8461, "step": 116580 }, { "epoch": 0.24289583333333334, "grad_norm": 0.7786334753036499, "learning_rate": 0.0002594329865738473, "loss": 3.9069, "step": 116590 }, { "epoch": 0.24291666666666667, "grad_norm": 0.8355357050895691, "learning_rate": 0.00025942624383537967, "loss": 3.9935, "step": 116600 }, { "epoch": 0.2429375, "grad_norm": 0.8979407548904419, "learning_rate": 0.000259419500624234, "loss": 3.9506, "step": 116610 }, { "epoch": 0.24295833333333333, "grad_norm": 0.6659632921218872, "learning_rate": 0.0002594127569404394, "loss": 3.8784, "step": 116620 }, { "epoch": 0.24297916666666666, "grad_norm": 0.7302885055541992, "learning_rate": 0.000259406012784025, "loss": 3.7433, "step": 116630 }, { "epoch": 0.243, "grad_norm": 0.8123252987861633, "learning_rate": 0.0002593992681550199, "loss": 4.0612, "step": 116640 }, { "epoch": 0.24302083333333332, "grad_norm": 0.7398465275764465, "learning_rate": 0.0002593925230534533, "loss": 3.9271, "step": 116650 }, { "epoch": 0.24304166666666666, "grad_norm": 0.7925382256507874, "learning_rate": 0.0002593857774793543, "loss": 3.9625, "step": 116660 }, { "epoch": 0.2430625, "grad_norm": 0.9005240797996521, "learning_rate": 0.00025937903143275203, "loss": 3.7249, "step": 116670 }, { "epoch": 0.24308333333333335, "grad_norm": 0.789962887763977, "learning_rate": 0.0002593722849136756, "loss": 3.8014, "step": 116680 }, { "epoch": 0.24310416666666668, "grad_norm": 0.8386132121086121, "learning_rate": 0.00025936553792215426, "loss": 3.8312, "step": 116690 }, { "epoch": 0.243125, "grad_norm": 0.7865932583808899, "learning_rate": 0.000259358790458217, "loss": 3.812, "step": 116700 }, { "epoch": 0.24314583333333334, "grad_norm": 0.8433756828308105, "learning_rate": 0.00025935204252189314, "loss": 3.9282, "step": 116710 }, { "epoch": 0.24316666666666667, "grad_norm": 0.7681934833526611, "learning_rate": 0.0002593452941132117, "loss": 3.7525, "step": 116720 }, { "epoch": 0.2431875, "grad_norm": 0.9916110038757324, "learning_rate": 0.0002593385452322019, "loss": 3.8572, "step": 116730 }, { "epoch": 0.24320833333333333, "grad_norm": 0.7875805497169495, "learning_rate": 0.0002593317958788928, "loss": 3.9969, "step": 116740 }, { "epoch": 0.24322916666666666, "grad_norm": 0.7784370183944702, "learning_rate": 0.0002593250460533137, "loss": 3.9646, "step": 116750 }, { "epoch": 0.24325, "grad_norm": 0.8628151416778564, "learning_rate": 0.00025931829575549364, "loss": 3.9546, "step": 116760 }, { "epoch": 0.24327083333333333, "grad_norm": 0.6791853904724121, "learning_rate": 0.0002593115449854618, "loss": 3.9645, "step": 116770 }, { "epoch": 0.24329166666666666, "grad_norm": 0.6625243425369263, "learning_rate": 0.00025930479374324737, "loss": 3.8641, "step": 116780 }, { "epoch": 0.2433125, "grad_norm": 0.782039225101471, "learning_rate": 0.0002592980420288795, "loss": 3.7476, "step": 116790 }, { "epoch": 0.24333333333333335, "grad_norm": 0.7374080419540405, "learning_rate": 0.00025929128984238727, "loss": 4.0216, "step": 116800 }, { "epoch": 0.24335416666666668, "grad_norm": 0.7469167709350586, "learning_rate": 0.0002592845371838001, "loss": 3.7283, "step": 116810 }, { "epoch": 0.243375, "grad_norm": 0.6884095668792725, "learning_rate": 0.0002592777840531469, "loss": 3.9686, "step": 116820 }, { "epoch": 0.24339583333333334, "grad_norm": 0.7887201309204102, "learning_rate": 0.0002592710304504568, "loss": 3.9597, "step": 116830 }, { "epoch": 0.24341666666666667, "grad_norm": 0.7530519962310791, "learning_rate": 0.00025926427637575924, "loss": 3.8162, "step": 116840 }, { "epoch": 0.2434375, "grad_norm": 0.6478872299194336, "learning_rate": 0.00025925752182908324, "loss": 4.1641, "step": 116850 }, { "epoch": 0.24345833333333333, "grad_norm": 0.7160364985466003, "learning_rate": 0.000259250766810458, "loss": 4.0355, "step": 116860 }, { "epoch": 0.24347916666666666, "grad_norm": 0.9682184457778931, "learning_rate": 0.00025924401131991267, "loss": 3.9978, "step": 116870 }, { "epoch": 0.2435, "grad_norm": 0.752261757850647, "learning_rate": 0.00025923725535747643, "loss": 3.8223, "step": 116880 }, { "epoch": 0.24352083333333333, "grad_norm": 0.8060197830200195, "learning_rate": 0.00025923049892317854, "loss": 3.865, "step": 116890 }, { "epoch": 0.24354166666666666, "grad_norm": 0.7600920796394348, "learning_rate": 0.0002592237420170481, "loss": 3.8748, "step": 116900 }, { "epoch": 0.2435625, "grad_norm": 0.8843249082565308, "learning_rate": 0.0002592169846391144, "loss": 3.8346, "step": 116910 }, { "epoch": 0.24358333333333335, "grad_norm": 0.859544038772583, "learning_rate": 0.00025921022678940643, "loss": 3.7077, "step": 116920 }, { "epoch": 0.24360416666666668, "grad_norm": 0.763481855392456, "learning_rate": 0.0002592034684679536, "loss": 3.902, "step": 116930 }, { "epoch": 0.243625, "grad_norm": 0.7508820295333862, "learning_rate": 0.000259196709674785, "loss": 3.9739, "step": 116940 }, { "epoch": 0.24364583333333334, "grad_norm": 0.7567071914672852, "learning_rate": 0.00025918995040992974, "loss": 3.9304, "step": 116950 }, { "epoch": 0.24366666666666667, "grad_norm": 0.7885265946388245, "learning_rate": 0.00025918319067341723, "loss": 3.9852, "step": 116960 }, { "epoch": 0.2436875, "grad_norm": 0.7665534615516663, "learning_rate": 0.0002591764304652765, "loss": 4.0126, "step": 116970 }, { "epoch": 0.24370833333333333, "grad_norm": 0.6745424866676331, "learning_rate": 0.00025916966978553683, "loss": 3.9742, "step": 116980 }, { "epoch": 0.24372916666666666, "grad_norm": 0.7563460469245911, "learning_rate": 0.00025916290863422744, "loss": 4.0185, "step": 116990 }, { "epoch": 0.24375, "grad_norm": 0.7510818243026733, "learning_rate": 0.0002591561470113774, "loss": 3.8582, "step": 117000 }, { "epoch": 0.24375, "eval_loss": 4.26155948638916, "eval_runtime": 9.6524, "eval_samples_per_second": 1.036, "eval_steps_per_second": 0.311, "step": 117000 }, { "epoch": 0.24377083333333333, "grad_norm": 0.7554516196250916, "learning_rate": 0.0002591493849170161, "loss": 4.0088, "step": 117010 }, { "epoch": 0.24379166666666666, "grad_norm": 0.6987264752388, "learning_rate": 0.00025914262235117257, "loss": 3.6363, "step": 117020 }, { "epoch": 0.2438125, "grad_norm": 0.7333374619483948, "learning_rate": 0.00025913585931387615, "loss": 3.9231, "step": 117030 }, { "epoch": 0.24383333333333335, "grad_norm": 0.7988362908363342, "learning_rate": 0.0002591290958051561, "loss": 4.1034, "step": 117040 }, { "epoch": 0.24385416666666668, "grad_norm": 0.7397446036338806, "learning_rate": 0.00025912233182504143, "loss": 3.7541, "step": 117050 }, { "epoch": 0.243875, "grad_norm": 0.832311749458313, "learning_rate": 0.0002591155673735616, "loss": 3.9655, "step": 117060 }, { "epoch": 0.24389583333333334, "grad_norm": 0.7686418294906616, "learning_rate": 0.0002591088024507456, "loss": 3.9101, "step": 117070 }, { "epoch": 0.24391666666666667, "grad_norm": 0.7144972681999207, "learning_rate": 0.0002591020370566228, "loss": 3.9001, "step": 117080 }, { "epoch": 0.2439375, "grad_norm": 0.7584365010261536, "learning_rate": 0.0002590952711912224, "loss": 3.8508, "step": 117090 }, { "epoch": 0.24395833333333333, "grad_norm": 0.629894495010376, "learning_rate": 0.0002590885048545736, "loss": 4.0654, "step": 117100 }, { "epoch": 0.24397916666666666, "grad_norm": 0.7575013041496277, "learning_rate": 0.00025908173804670565, "loss": 3.957, "step": 117110 }, { "epoch": 0.244, "grad_norm": 0.8635952472686768, "learning_rate": 0.0002590749707676477, "loss": 3.7749, "step": 117120 }, { "epoch": 0.24402083333333333, "grad_norm": 0.6803057193756104, "learning_rate": 0.00025906820301742914, "loss": 3.778, "step": 117130 }, { "epoch": 0.24404166666666666, "grad_norm": 0.7499809861183167, "learning_rate": 0.0002590614347960791, "loss": 3.7579, "step": 117140 }, { "epoch": 0.2440625, "grad_norm": 0.8167714476585388, "learning_rate": 0.0002590546661036268, "loss": 4.0128, "step": 117150 }, { "epoch": 0.24408333333333335, "grad_norm": 0.7857744097709656, "learning_rate": 0.00025904789694010155, "loss": 3.8611, "step": 117160 }, { "epoch": 0.24410416666666668, "grad_norm": 0.9107292294502258, "learning_rate": 0.0002590411273055325, "loss": 3.9661, "step": 117170 }, { "epoch": 0.244125, "grad_norm": 0.7575744986534119, "learning_rate": 0.000259034357199949, "loss": 3.7755, "step": 117180 }, { "epoch": 0.24414583333333334, "grad_norm": 0.8039848208427429, "learning_rate": 0.0002590275866233802, "loss": 3.7417, "step": 117190 }, { "epoch": 0.24416666666666667, "grad_norm": 0.8951263427734375, "learning_rate": 0.00025902081557585533, "loss": 3.9693, "step": 117200 }, { "epoch": 0.2441875, "grad_norm": 0.6488986611366272, "learning_rate": 0.0002590140440574038, "loss": 3.9269, "step": 117210 }, { "epoch": 0.24420833333333333, "grad_norm": 0.7462566494941711, "learning_rate": 0.00025900727206805467, "loss": 3.9519, "step": 117220 }, { "epoch": 0.24422916666666666, "grad_norm": 0.7055051326751709, "learning_rate": 0.0002590004996078373, "loss": 3.9398, "step": 117230 }, { "epoch": 0.24425, "grad_norm": 0.7725315093994141, "learning_rate": 0.00025899372667678093, "loss": 3.8799, "step": 117240 }, { "epoch": 0.24427083333333333, "grad_norm": 0.813205361366272, "learning_rate": 0.00025898695327491474, "loss": 3.7179, "step": 117250 }, { "epoch": 0.24429166666666666, "grad_norm": 0.8894073963165283, "learning_rate": 0.0002589801794022681, "loss": 3.8764, "step": 117260 }, { "epoch": 0.2443125, "grad_norm": 0.7551104426383972, "learning_rate": 0.00025897340505887025, "loss": 3.8527, "step": 117270 }, { "epoch": 0.24433333333333335, "grad_norm": 0.8153460025787354, "learning_rate": 0.0002589666302447504, "loss": 3.8497, "step": 117280 }, { "epoch": 0.24435416666666668, "grad_norm": 0.6907312273979187, "learning_rate": 0.0002589598549599378, "loss": 3.8355, "step": 117290 }, { "epoch": 0.244375, "grad_norm": 0.8143213391304016, "learning_rate": 0.00025895307920446186, "loss": 3.9018, "step": 117300 }, { "epoch": 0.24439583333333334, "grad_norm": 0.791246771812439, "learning_rate": 0.0002589463029783517, "loss": 3.9516, "step": 117310 }, { "epoch": 0.24441666666666667, "grad_norm": 0.8003825545310974, "learning_rate": 0.00025893952628163657, "loss": 3.6461, "step": 117320 }, { "epoch": 0.2444375, "grad_norm": 0.7607778906822205, "learning_rate": 0.0002589327491143458, "loss": 3.7387, "step": 117330 }, { "epoch": 0.24445833333333333, "grad_norm": 0.9828870892524719, "learning_rate": 0.0002589259714765088, "loss": 3.9542, "step": 117340 }, { "epoch": 0.24447916666666666, "grad_norm": 0.7388181090354919, "learning_rate": 0.0002589191933681546, "loss": 3.8616, "step": 117350 }, { "epoch": 0.2445, "grad_norm": 0.7895506024360657, "learning_rate": 0.00025891241478931263, "loss": 3.8009, "step": 117360 }, { "epoch": 0.24452083333333333, "grad_norm": 0.8436576724052429, "learning_rate": 0.00025890563574001215, "loss": 3.9693, "step": 117370 }, { "epoch": 0.24454166666666666, "grad_norm": 0.7068819403648376, "learning_rate": 0.0002588988562202824, "loss": 3.797, "step": 117380 }, { "epoch": 0.2445625, "grad_norm": 0.7679857015609741, "learning_rate": 0.00025889207623015277, "loss": 3.7666, "step": 117390 }, { "epoch": 0.24458333333333335, "grad_norm": 1.0029438734054565, "learning_rate": 0.00025888529576965246, "loss": 3.9507, "step": 117400 }, { "epoch": 0.24460416666666668, "grad_norm": 0.9146065711975098, "learning_rate": 0.00025887851483881073, "loss": 3.7531, "step": 117410 }, { "epoch": 0.244625, "grad_norm": 0.8020023703575134, "learning_rate": 0.00025887173343765694, "loss": 3.8742, "step": 117420 }, { "epoch": 0.24464583333333334, "grad_norm": 0.8427119851112366, "learning_rate": 0.0002588649515662203, "loss": 3.9582, "step": 117430 }, { "epoch": 0.24466666666666667, "grad_norm": 0.859825074672699, "learning_rate": 0.0002588581692245302, "loss": 3.9081, "step": 117440 }, { "epoch": 0.2446875, "grad_norm": 0.7488427758216858, "learning_rate": 0.00025885138641261587, "loss": 3.7319, "step": 117450 }, { "epoch": 0.24470833333333333, "grad_norm": 0.7474827766418457, "learning_rate": 0.0002588446031305067, "loss": 4.1, "step": 117460 }, { "epoch": 0.24472916666666666, "grad_norm": 0.7461313009262085, "learning_rate": 0.00025883781937823187, "loss": 3.8202, "step": 117470 }, { "epoch": 0.24475, "grad_norm": 0.750504732131958, "learning_rate": 0.0002588310351558208, "loss": 3.8696, "step": 117480 }, { "epoch": 0.24477083333333333, "grad_norm": 0.7263540625572205, "learning_rate": 0.0002588242504633027, "loss": 3.7726, "step": 117490 }, { "epoch": 0.24479166666666666, "grad_norm": 0.8759488463401794, "learning_rate": 0.0002588174653007069, "loss": 3.8658, "step": 117500 }, { "epoch": 0.2448125, "grad_norm": 0.9535866379737854, "learning_rate": 0.00025881067966806277, "loss": 3.8374, "step": 117510 }, { "epoch": 0.24483333333333332, "grad_norm": 0.7921175956726074, "learning_rate": 0.00025880389356539957, "loss": 3.7613, "step": 117520 }, { "epoch": 0.24485416666666668, "grad_norm": 0.8246281743049622, "learning_rate": 0.00025879710699274654, "loss": 3.7673, "step": 117530 }, { "epoch": 0.244875, "grad_norm": 0.7820576429367065, "learning_rate": 0.0002587903199501331, "loss": 4.0497, "step": 117540 }, { "epoch": 0.24489583333333334, "grad_norm": 0.7198566794395447, "learning_rate": 0.00025878353243758854, "loss": 3.9102, "step": 117550 }, { "epoch": 0.24491666666666667, "grad_norm": 0.7308896780014038, "learning_rate": 0.00025877674445514223, "loss": 3.9733, "step": 117560 }, { "epoch": 0.2449375, "grad_norm": 0.798051118850708, "learning_rate": 0.0002587699560028234, "loss": 3.7004, "step": 117570 }, { "epoch": 0.24495833333333333, "grad_norm": 1.5684512853622437, "learning_rate": 0.00025876316708066144, "loss": 4.0953, "step": 117580 }, { "epoch": 0.24497916666666666, "grad_norm": 0.7186267971992493, "learning_rate": 0.0002587563776886857, "loss": 3.7871, "step": 117590 }, { "epoch": 0.245, "grad_norm": 0.7487741112709045, "learning_rate": 0.00025874958782692533, "loss": 3.9525, "step": 117600 }, { "epoch": 0.24502083333333333, "grad_norm": 0.7397080659866333, "learning_rate": 0.00025874279749540984, "loss": 3.9106, "step": 117610 }, { "epoch": 0.24504166666666666, "grad_norm": 0.8941218256950378, "learning_rate": 0.0002587360066941686, "loss": 3.7492, "step": 117620 }, { "epoch": 0.2450625, "grad_norm": 0.7385103702545166, "learning_rate": 0.0002587292154232307, "loss": 3.9872, "step": 117630 }, { "epoch": 0.24508333333333332, "grad_norm": 0.6979750990867615, "learning_rate": 0.00025872242368262573, "loss": 4.0853, "step": 117640 }, { "epoch": 0.24510416666666668, "grad_norm": 0.7693807482719421, "learning_rate": 0.00025871563147238287, "loss": 3.9558, "step": 117650 }, { "epoch": 0.245125, "grad_norm": 0.7990791201591492, "learning_rate": 0.00025870883879253154, "loss": 3.9242, "step": 117660 }, { "epoch": 0.24514583333333334, "grad_norm": 0.8244684934616089, "learning_rate": 0.00025870204564310104, "loss": 3.8094, "step": 117670 }, { "epoch": 0.24516666666666667, "grad_norm": 0.8368804454803467, "learning_rate": 0.0002586952520241208, "loss": 4.0372, "step": 117680 }, { "epoch": 0.2451875, "grad_norm": 0.8076561093330383, "learning_rate": 0.00025868845793562, "loss": 3.9389, "step": 117690 }, { "epoch": 0.24520833333333333, "grad_norm": 0.9318450093269348, "learning_rate": 0.0002586816633776281, "loss": 3.8375, "step": 117700 }, { "epoch": 0.24522916666666666, "grad_norm": 0.7877236008644104, "learning_rate": 0.00025867486835017445, "loss": 4.0749, "step": 117710 }, { "epoch": 0.24525, "grad_norm": 0.6671950817108154, "learning_rate": 0.00025866807285328844, "loss": 4.0142, "step": 117720 }, { "epoch": 0.24527083333333333, "grad_norm": 0.9261797070503235, "learning_rate": 0.0002586612768869993, "loss": 3.9154, "step": 117730 }, { "epoch": 0.24529166666666666, "grad_norm": 0.8583394885063171, "learning_rate": 0.00025865448045133646, "loss": 3.801, "step": 117740 }, { "epoch": 0.2453125, "grad_norm": 0.7578561305999756, "learning_rate": 0.0002586476835463293, "loss": 3.9084, "step": 117750 }, { "epoch": 0.24533333333333332, "grad_norm": 0.7461709976196289, "learning_rate": 0.00025864088617200717, "loss": 4.0578, "step": 117760 }, { "epoch": 0.24535416666666668, "grad_norm": 0.6663042902946472, "learning_rate": 0.0002586340883283994, "loss": 3.8212, "step": 117770 }, { "epoch": 0.245375, "grad_norm": 0.8195911645889282, "learning_rate": 0.0002586272900155353, "loss": 3.8269, "step": 117780 }, { "epoch": 0.24539583333333334, "grad_norm": 0.7312809228897095, "learning_rate": 0.00025862049123344437, "loss": 3.8748, "step": 117790 }, { "epoch": 0.24541666666666667, "grad_norm": 0.7168952822685242, "learning_rate": 0.0002586136919821559, "loss": 3.8224, "step": 117800 }, { "epoch": 0.2454375, "grad_norm": 0.6587426662445068, "learning_rate": 0.0002586068922616993, "loss": 3.8837, "step": 117810 }, { "epoch": 0.24545833333333333, "grad_norm": 0.7248347997665405, "learning_rate": 0.0002586000920721039, "loss": 3.8846, "step": 117820 }, { "epoch": 0.24547916666666666, "grad_norm": 0.9438204169273376, "learning_rate": 0.00025859329141339905, "loss": 3.8208, "step": 117830 }, { "epoch": 0.2455, "grad_norm": 0.7446009516716003, "learning_rate": 0.00025858649028561424, "loss": 3.6054, "step": 117840 }, { "epoch": 0.24552083333333333, "grad_norm": 0.7440967559814453, "learning_rate": 0.0002585796886887787, "loss": 3.9672, "step": 117850 }, { "epoch": 0.24554166666666666, "grad_norm": 0.8069555759429932, "learning_rate": 0.0002585728866229219, "loss": 4.0227, "step": 117860 }, { "epoch": 0.2455625, "grad_norm": 0.6850826144218445, "learning_rate": 0.0002585660840880732, "loss": 3.7899, "step": 117870 }, { "epoch": 0.24558333333333332, "grad_norm": 0.8871257901191711, "learning_rate": 0.00025855928108426204, "loss": 3.8527, "step": 117880 }, { "epoch": 0.24560416666666668, "grad_norm": 0.7395383715629578, "learning_rate": 0.0002585524776115177, "loss": 3.9098, "step": 117890 }, { "epoch": 0.245625, "grad_norm": 0.8603458404541016, "learning_rate": 0.00025854567366986967, "loss": 4.0497, "step": 117900 }, { "epoch": 0.24564583333333334, "grad_norm": 0.848872721195221, "learning_rate": 0.0002585388692593473, "loss": 3.7729, "step": 117910 }, { "epoch": 0.24566666666666667, "grad_norm": 0.8818458318710327, "learning_rate": 0.00025853206437997993, "loss": 3.8417, "step": 117920 }, { "epoch": 0.2456875, "grad_norm": 0.8350204229354858, "learning_rate": 0.00025852525903179705, "loss": 3.9054, "step": 117930 }, { "epoch": 0.24570833333333333, "grad_norm": 0.8009337782859802, "learning_rate": 0.0002585184532148279, "loss": 3.8578, "step": 117940 }, { "epoch": 0.24572916666666667, "grad_norm": 0.7838413715362549, "learning_rate": 0.0002585116469291021, "loss": 3.8416, "step": 117950 }, { "epoch": 0.24575, "grad_norm": 0.7169784307479858, "learning_rate": 0.00025850484017464893, "loss": 3.9229, "step": 117960 }, { "epoch": 0.24577083333333333, "grad_norm": 0.7186762094497681, "learning_rate": 0.0002584980329514978, "loss": 4.0552, "step": 117970 }, { "epoch": 0.24579166666666666, "grad_norm": 0.6634181141853333, "learning_rate": 0.00025849122525967806, "loss": 3.8731, "step": 117980 }, { "epoch": 0.2458125, "grad_norm": 0.7562337517738342, "learning_rate": 0.0002584844170992192, "loss": 3.7924, "step": 117990 }, { "epoch": 0.24583333333333332, "grad_norm": 0.8085762858390808, "learning_rate": 0.0002584776084701506, "loss": 4.0219, "step": 118000 }, { "epoch": 0.24583333333333332, "eval_loss": 4.266958713531494, "eval_runtime": 10.2424, "eval_samples_per_second": 0.976, "eval_steps_per_second": 0.293, "step": 118000 }, { "epoch": 0.24585416666666668, "grad_norm": 0.8509557843208313, "learning_rate": 0.0002584707993725017, "loss": 3.8858, "step": 118010 }, { "epoch": 0.245875, "grad_norm": 0.7315271496772766, "learning_rate": 0.0002584639898063018, "loss": 3.9974, "step": 118020 }, { "epoch": 0.24589583333333334, "grad_norm": 0.7400884628295898, "learning_rate": 0.0002584571797715805, "loss": 3.7917, "step": 118030 }, { "epoch": 0.24591666666666667, "grad_norm": 0.823716402053833, "learning_rate": 0.00025845036926836704, "loss": 3.9015, "step": 118040 }, { "epoch": 0.2459375, "grad_norm": 0.7612546682357788, "learning_rate": 0.0002584435582966909, "loss": 3.9922, "step": 118050 }, { "epoch": 0.24595833333333333, "grad_norm": 0.8200158476829529, "learning_rate": 0.0002584367468565816, "loss": 4.0538, "step": 118060 }, { "epoch": 0.24597916666666667, "grad_norm": 1.0333000421524048, "learning_rate": 0.00025842993494806836, "loss": 3.9545, "step": 118070 }, { "epoch": 0.246, "grad_norm": 0.754226565361023, "learning_rate": 0.00025842312257118083, "loss": 3.7857, "step": 118080 }, { "epoch": 0.24602083333333333, "grad_norm": 0.7303328514099121, "learning_rate": 0.0002584163097259483, "loss": 3.8981, "step": 118090 }, { "epoch": 0.24604166666666666, "grad_norm": 0.9526427984237671, "learning_rate": 0.0002584094964124002, "loss": 3.9291, "step": 118100 }, { "epoch": 0.2460625, "grad_norm": 0.8157503604888916, "learning_rate": 0.000258402682630566, "loss": 3.9873, "step": 118110 }, { "epoch": 0.24608333333333332, "grad_norm": 0.7763271927833557, "learning_rate": 0.0002583958683804751, "loss": 3.786, "step": 118120 }, { "epoch": 0.24610416666666668, "grad_norm": 0.8745626211166382, "learning_rate": 0.00025838905366215695, "loss": 3.8689, "step": 118130 }, { "epoch": 0.246125, "grad_norm": 0.7494639158248901, "learning_rate": 0.000258382238475641, "loss": 3.9522, "step": 118140 }, { "epoch": 0.24614583333333334, "grad_norm": 0.7587249279022217, "learning_rate": 0.0002583754228209567, "loss": 4.0, "step": 118150 }, { "epoch": 0.24616666666666667, "grad_norm": 0.7290973663330078, "learning_rate": 0.0002583686066981335, "loss": 3.775, "step": 118160 }, { "epoch": 0.2461875, "grad_norm": 0.7882353067398071, "learning_rate": 0.0002583617901072008, "loss": 4.0013, "step": 118170 }, { "epoch": 0.24620833333333333, "grad_norm": 0.7927708625793457, "learning_rate": 0.000258354973048188, "loss": 3.7872, "step": 118180 }, { "epoch": 0.24622916666666667, "grad_norm": 0.7805205583572388, "learning_rate": 0.00025834815552112467, "loss": 3.8634, "step": 118190 }, { "epoch": 0.24625, "grad_norm": 0.7336538434028625, "learning_rate": 0.00025834133752604014, "loss": 3.8598, "step": 118200 }, { "epoch": 0.24627083333333333, "grad_norm": 0.8449468612670898, "learning_rate": 0.0002583345190629639, "loss": 3.8523, "step": 118210 }, { "epoch": 0.24629166666666666, "grad_norm": 0.6761786341667175, "learning_rate": 0.0002583277001319255, "loss": 3.9557, "step": 118220 }, { "epoch": 0.2463125, "grad_norm": 0.7736433148384094, "learning_rate": 0.00025832088073295427, "loss": 3.7703, "step": 118230 }, { "epoch": 0.24633333333333332, "grad_norm": 1.455973744392395, "learning_rate": 0.00025831406086607975, "loss": 3.8762, "step": 118240 }, { "epoch": 0.24635416666666668, "grad_norm": 0.7978841662406921, "learning_rate": 0.00025830724053133134, "loss": 3.7365, "step": 118250 }, { "epoch": 0.246375, "grad_norm": 0.7907574772834778, "learning_rate": 0.00025830041972873846, "loss": 3.8346, "step": 118260 }, { "epoch": 0.24639583333333334, "grad_norm": 0.8256410360336304, "learning_rate": 0.00025829359845833073, "loss": 4.0863, "step": 118270 }, { "epoch": 0.24641666666666667, "grad_norm": 0.8104029893875122, "learning_rate": 0.00025828677672013747, "loss": 3.8549, "step": 118280 }, { "epoch": 0.2464375, "grad_norm": 0.7649282813072205, "learning_rate": 0.0002582799545141882, "loss": 3.7909, "step": 118290 }, { "epoch": 0.24645833333333333, "grad_norm": 0.7104467749595642, "learning_rate": 0.0002582731318405124, "loss": 3.8779, "step": 118300 }, { "epoch": 0.24647916666666667, "grad_norm": 0.7515720725059509, "learning_rate": 0.00025826630869913954, "loss": 4.0247, "step": 118310 }, { "epoch": 0.2465, "grad_norm": 0.7575503587722778, "learning_rate": 0.00025825948509009905, "loss": 3.8245, "step": 118320 }, { "epoch": 0.24652083333333333, "grad_norm": 0.7842723727226257, "learning_rate": 0.0002582526610134205, "loss": 3.7684, "step": 118330 }, { "epoch": 0.24654166666666666, "grad_norm": 0.7189513444900513, "learning_rate": 0.00025824583646913315, "loss": 3.698, "step": 118340 }, { "epoch": 0.2465625, "grad_norm": 0.9049310088157654, "learning_rate": 0.0002582390114572668, "loss": 3.7851, "step": 118350 }, { "epoch": 0.24658333333333332, "grad_norm": 0.7991364002227783, "learning_rate": 0.0002582321859778507, "loss": 3.8576, "step": 118360 }, { "epoch": 0.24660416666666668, "grad_norm": 0.7606180310249329, "learning_rate": 0.00025822536003091437, "loss": 4.0814, "step": 118370 }, { "epoch": 0.246625, "grad_norm": 0.6880004405975342, "learning_rate": 0.00025821853361648737, "loss": 3.8324, "step": 118380 }, { "epoch": 0.24664583333333334, "grad_norm": 0.6642782092094421, "learning_rate": 0.0002582117067345991, "loss": 3.9126, "step": 118390 }, { "epoch": 0.24666666666666667, "grad_norm": 0.7893816828727722, "learning_rate": 0.0002582048793852791, "loss": 3.7172, "step": 118400 }, { "epoch": 0.2466875, "grad_norm": 0.7701625227928162, "learning_rate": 0.0002581980515685569, "loss": 3.8943, "step": 118410 }, { "epoch": 0.24670833333333334, "grad_norm": 0.7917223572731018, "learning_rate": 0.0002581912232844619, "loss": 3.9412, "step": 118420 }, { "epoch": 0.24672916666666667, "grad_norm": 0.6916700601577759, "learning_rate": 0.0002581843945330236, "loss": 4.0062, "step": 118430 }, { "epoch": 0.24675, "grad_norm": 0.7683937549591064, "learning_rate": 0.00025817756531427164, "loss": 3.9351, "step": 118440 }, { "epoch": 0.24677083333333333, "grad_norm": 0.7596041560173035, "learning_rate": 0.00025817073562823536, "loss": 3.9528, "step": 118450 }, { "epoch": 0.24679166666666666, "grad_norm": 0.7966545224189758, "learning_rate": 0.0002581639054749443, "loss": 3.8081, "step": 118460 }, { "epoch": 0.2468125, "grad_norm": 0.7783086895942688, "learning_rate": 0.000258157074854428, "loss": 3.9701, "step": 118470 }, { "epoch": 0.24683333333333332, "grad_norm": 0.7720364928245544, "learning_rate": 0.000258150243766716, "loss": 3.8943, "step": 118480 }, { "epoch": 0.24685416666666668, "grad_norm": 0.7991997003555298, "learning_rate": 0.0002581434122118377, "loss": 3.8773, "step": 118490 }, { "epoch": 0.246875, "grad_norm": 0.8031527400016785, "learning_rate": 0.00025813658018982263, "loss": 3.8566, "step": 118500 }, { "epoch": 0.24689583333333334, "grad_norm": 0.7115350961685181, "learning_rate": 0.0002581297477007004, "loss": 3.81, "step": 118510 }, { "epoch": 0.24691666666666667, "grad_norm": 0.8297569751739502, "learning_rate": 0.0002581229147445005, "loss": 3.9956, "step": 118520 }, { "epoch": 0.2469375, "grad_norm": 0.6959481239318848, "learning_rate": 0.0002581160813212523, "loss": 3.8531, "step": 118530 }, { "epoch": 0.24695833333333334, "grad_norm": 0.7457829117774963, "learning_rate": 0.0002581092474309855, "loss": 3.9337, "step": 118540 }, { "epoch": 0.24697916666666667, "grad_norm": 0.7139862179756165, "learning_rate": 0.0002581024130737295, "loss": 3.8651, "step": 118550 }, { "epoch": 0.247, "grad_norm": 0.8388549089431763, "learning_rate": 0.0002580955782495139, "loss": 3.8096, "step": 118560 }, { "epoch": 0.24702083333333333, "grad_norm": 0.8134562969207764, "learning_rate": 0.0002580887429583681, "loss": 3.8764, "step": 118570 }, { "epoch": 0.24704166666666666, "grad_norm": 0.7748236060142517, "learning_rate": 0.0002580819072003218, "loss": 3.9372, "step": 118580 }, { "epoch": 0.2470625, "grad_norm": 0.8163461685180664, "learning_rate": 0.00025807507097540445, "loss": 3.9046, "step": 118590 }, { "epoch": 0.24708333333333332, "grad_norm": 0.7864865064620972, "learning_rate": 0.0002580682342836455, "loss": 3.9183, "step": 118600 }, { "epoch": 0.24710416666666668, "grad_norm": 0.6933535933494568, "learning_rate": 0.00025806139712507465, "loss": 3.8614, "step": 118610 }, { "epoch": 0.247125, "grad_norm": 0.7521572709083557, "learning_rate": 0.0002580545594997213, "loss": 3.9273, "step": 118620 }, { "epoch": 0.24714583333333334, "grad_norm": 0.8213915824890137, "learning_rate": 0.00025804772140761503, "loss": 3.9741, "step": 118630 }, { "epoch": 0.24716666666666667, "grad_norm": 0.8198223114013672, "learning_rate": 0.00025804088284878536, "loss": 3.7938, "step": 118640 }, { "epoch": 0.2471875, "grad_norm": 0.7838565111160278, "learning_rate": 0.00025803404382326184, "loss": 3.6433, "step": 118650 }, { "epoch": 0.24720833333333334, "grad_norm": 0.7857825756072998, "learning_rate": 0.000258027204331074, "loss": 3.8687, "step": 118660 }, { "epoch": 0.24722916666666667, "grad_norm": 0.7897281646728516, "learning_rate": 0.0002580203643722514, "loss": 3.7845, "step": 118670 }, { "epoch": 0.24725, "grad_norm": 0.7169413566589355, "learning_rate": 0.0002580135239468236, "loss": 3.9585, "step": 118680 }, { "epoch": 0.24727083333333333, "grad_norm": 0.714391827583313, "learning_rate": 0.00025800668305482014, "loss": 3.9187, "step": 118690 }, { "epoch": 0.24729166666666666, "grad_norm": 0.874221920967102, "learning_rate": 0.00025799984169627054, "loss": 3.7858, "step": 118700 }, { "epoch": 0.2473125, "grad_norm": 0.9348215460777283, "learning_rate": 0.0002579929998712044, "loss": 3.8379, "step": 118710 }, { "epoch": 0.24733333333333332, "grad_norm": 0.7128881812095642, "learning_rate": 0.0002579861575796512, "loss": 3.8892, "step": 118720 }, { "epoch": 0.24735416666666668, "grad_norm": 0.785354495048523, "learning_rate": 0.0002579793148216406, "loss": 3.9584, "step": 118730 }, { "epoch": 0.247375, "grad_norm": 0.7651207447052002, "learning_rate": 0.000257972471597202, "loss": 3.8266, "step": 118740 }, { "epoch": 0.24739583333333334, "grad_norm": 0.7556189894676208, "learning_rate": 0.0002579656279063652, "loss": 3.9462, "step": 118750 }, { "epoch": 0.24741666666666667, "grad_norm": 0.7322025895118713, "learning_rate": 0.00025795878374915957, "loss": 3.966, "step": 118760 }, { "epoch": 0.2474375, "grad_norm": 0.7910550236701965, "learning_rate": 0.0002579519391256147, "loss": 3.9621, "step": 118770 }, { "epoch": 0.24745833333333334, "grad_norm": 0.8131060004234314, "learning_rate": 0.0002579450940357602, "loss": 3.7817, "step": 118780 }, { "epoch": 0.24747916666666667, "grad_norm": 0.7775981426239014, "learning_rate": 0.0002579382484796256, "loss": 3.7924, "step": 118790 }, { "epoch": 0.2475, "grad_norm": 0.7095739841461182, "learning_rate": 0.00025793140245724053, "loss": 3.919, "step": 118800 }, { "epoch": 0.24752083333333333, "grad_norm": 0.808732807636261, "learning_rate": 0.0002579245559686345, "loss": 3.6478, "step": 118810 }, { "epoch": 0.24754166666666666, "grad_norm": 0.7501935958862305, "learning_rate": 0.0002579177090138371, "loss": 4.0657, "step": 118820 }, { "epoch": 0.2475625, "grad_norm": 0.7679192423820496, "learning_rate": 0.0002579108615928779, "loss": 3.9001, "step": 118830 }, { "epoch": 0.24758333333333332, "grad_norm": 0.831760823726654, "learning_rate": 0.00025790401370578655, "loss": 3.9945, "step": 118840 }, { "epoch": 0.24760416666666665, "grad_norm": 0.7904289960861206, "learning_rate": 0.00025789716535259255, "loss": 3.8589, "step": 118850 }, { "epoch": 0.247625, "grad_norm": 0.7790654301643372, "learning_rate": 0.0002578903165333255, "loss": 3.8282, "step": 118860 }, { "epoch": 0.24764583333333334, "grad_norm": 0.7892662286758423, "learning_rate": 0.000257883467248015, "loss": 3.9182, "step": 118870 }, { "epoch": 0.24766666666666667, "grad_norm": 0.7266308069229126, "learning_rate": 0.0002578766174966906, "loss": 3.9661, "step": 118880 }, { "epoch": 0.2476875, "grad_norm": 0.8332687020301819, "learning_rate": 0.0002578697672793819, "loss": 4.0452, "step": 118890 }, { "epoch": 0.24770833333333334, "grad_norm": 0.8307802081108093, "learning_rate": 0.0002578629165961185, "loss": 3.9783, "step": 118900 }, { "epoch": 0.24772916666666667, "grad_norm": 0.7504441738128662, "learning_rate": 0.00025785606544693004, "loss": 4.0456, "step": 118910 }, { "epoch": 0.24775, "grad_norm": 0.9212787747383118, "learning_rate": 0.00025784921383184605, "loss": 3.9358, "step": 118920 }, { "epoch": 0.24777083333333333, "grad_norm": 0.8976601362228394, "learning_rate": 0.00025784236175089615, "loss": 3.8662, "step": 118930 }, { "epoch": 0.24779166666666666, "grad_norm": 0.8270803689956665, "learning_rate": 0.00025783550920410996, "loss": 3.9675, "step": 118940 }, { "epoch": 0.2478125, "grad_norm": 0.7403931021690369, "learning_rate": 0.00025782865619151696, "loss": 3.9215, "step": 118950 }, { "epoch": 0.24783333333333332, "grad_norm": 0.7046790719032288, "learning_rate": 0.0002578218027131469, "loss": 3.9054, "step": 118960 }, { "epoch": 0.24785416666666665, "grad_norm": 0.795700192451477, "learning_rate": 0.00025781494876902936, "loss": 3.8708, "step": 118970 }, { "epoch": 0.247875, "grad_norm": 0.7278501391410828, "learning_rate": 0.0002578080943591939, "loss": 3.8362, "step": 118980 }, { "epoch": 0.24789583333333334, "grad_norm": 0.7614150643348694, "learning_rate": 0.00025780123948367014, "loss": 3.8015, "step": 118990 }, { "epoch": 0.24791666666666667, "grad_norm": 0.7986441254615784, "learning_rate": 0.0002577943841424877, "loss": 3.7756, "step": 119000 }, { "epoch": 0.24791666666666667, "eval_loss": 4.25430965423584, "eval_runtime": 10.5281, "eval_samples_per_second": 0.95, "eval_steps_per_second": 0.285, "step": 119000 }, { "epoch": 0.2479375, "grad_norm": 0.7183091044425964, "learning_rate": 0.0002577875283356762, "loss": 3.9684, "step": 119010 }, { "epoch": 0.24795833333333334, "grad_norm": 0.7396254539489746, "learning_rate": 0.0002577806720632652, "loss": 3.8953, "step": 119020 }, { "epoch": 0.24797916666666667, "grad_norm": 0.8980370759963989, "learning_rate": 0.0002577738153252844, "loss": 3.9279, "step": 119030 }, { "epoch": 0.248, "grad_norm": 0.6665918827056885, "learning_rate": 0.0002577669581217634, "loss": 3.829, "step": 119040 }, { "epoch": 0.24802083333333333, "grad_norm": 0.7784817814826965, "learning_rate": 0.00025776010045273174, "loss": 3.906, "step": 119050 }, { "epoch": 0.24804166666666666, "grad_norm": 0.6717686653137207, "learning_rate": 0.00025775324231821914, "loss": 3.9668, "step": 119060 }, { "epoch": 0.2480625, "grad_norm": 0.7231533527374268, "learning_rate": 0.0002577463837182552, "loss": 3.9343, "step": 119070 }, { "epoch": 0.24808333333333332, "grad_norm": 0.8420966267585754, "learning_rate": 0.0002577395246528695, "loss": 3.9364, "step": 119080 }, { "epoch": 0.24810416666666665, "grad_norm": 0.6961618661880493, "learning_rate": 0.00025773266512209167, "loss": 3.9292, "step": 119090 }, { "epoch": 0.248125, "grad_norm": 0.7590980529785156, "learning_rate": 0.0002577258051259514, "loss": 3.8922, "step": 119100 }, { "epoch": 0.24814583333333334, "grad_norm": 0.7866113781929016, "learning_rate": 0.0002577189446644783, "loss": 4.0258, "step": 119110 }, { "epoch": 0.24816666666666667, "grad_norm": 0.7445114254951477, "learning_rate": 0.000257712083737702, "loss": 4.057, "step": 119120 }, { "epoch": 0.2481875, "grad_norm": 0.8174688816070557, "learning_rate": 0.00025770522234565214, "loss": 3.8783, "step": 119130 }, { "epoch": 0.24820833333333334, "grad_norm": 0.768875777721405, "learning_rate": 0.00025769836048835835, "loss": 3.8768, "step": 119140 }, { "epoch": 0.24822916666666667, "grad_norm": 0.7465024590492249, "learning_rate": 0.0002576914981658502, "loss": 3.9433, "step": 119150 }, { "epoch": 0.24825, "grad_norm": 0.7953804731369019, "learning_rate": 0.00025768463537815747, "loss": 3.8746, "step": 119160 }, { "epoch": 0.24827083333333333, "grad_norm": 0.8756990432739258, "learning_rate": 0.00025767777212530975, "loss": 3.9471, "step": 119170 }, { "epoch": 0.24829166666666666, "grad_norm": 0.6783236861228943, "learning_rate": 0.00025767090840733665, "loss": 3.7586, "step": 119180 }, { "epoch": 0.2483125, "grad_norm": 0.7433435916900635, "learning_rate": 0.00025766404422426786, "loss": 3.9846, "step": 119190 }, { "epoch": 0.24833333333333332, "grad_norm": 0.9738131761550903, "learning_rate": 0.00025765717957613305, "loss": 3.9793, "step": 119200 }, { "epoch": 0.24835416666666665, "grad_norm": 0.9018031358718872, "learning_rate": 0.0002576503144629618, "loss": 3.776, "step": 119210 }, { "epoch": 0.248375, "grad_norm": 0.8421837687492371, "learning_rate": 0.00025764344888478384, "loss": 3.8659, "step": 119220 }, { "epoch": 0.24839583333333334, "grad_norm": 0.7560642957687378, "learning_rate": 0.0002576365828416287, "loss": 3.9978, "step": 119230 }, { "epoch": 0.24841666666666667, "grad_norm": 0.9240201115608215, "learning_rate": 0.0002576297163335262, "loss": 3.7973, "step": 119240 }, { "epoch": 0.2484375, "grad_norm": 0.7427593469619751, "learning_rate": 0.0002576228493605059, "loss": 3.7976, "step": 119250 }, { "epoch": 0.24845833333333334, "grad_norm": 0.7888592481613159, "learning_rate": 0.00025761598192259753, "loss": 3.9443, "step": 119260 }, { "epoch": 0.24847916666666667, "grad_norm": 0.7696585655212402, "learning_rate": 0.00025760911401983064, "loss": 3.8123, "step": 119270 }, { "epoch": 0.2485, "grad_norm": 0.7770204544067383, "learning_rate": 0.000257602245652235, "loss": 3.6487, "step": 119280 }, { "epoch": 0.24852083333333333, "grad_norm": 0.8350966572761536, "learning_rate": 0.0002575953768198403, "loss": 3.9704, "step": 119290 }, { "epoch": 0.24854166666666666, "grad_norm": 0.8749803900718689, "learning_rate": 0.0002575885075226761, "loss": 4.0506, "step": 119300 }, { "epoch": 0.2485625, "grad_norm": 0.7713797092437744, "learning_rate": 0.0002575816377607722, "loss": 3.8592, "step": 119310 }, { "epoch": 0.24858333333333332, "grad_norm": 0.7840929627418518, "learning_rate": 0.00025757476753415814, "loss": 3.9434, "step": 119320 }, { "epoch": 0.24860416666666665, "grad_norm": 0.7748851776123047, "learning_rate": 0.0002575678968428637, "loss": 4.0439, "step": 119330 }, { "epoch": 0.248625, "grad_norm": 0.8977269530296326, "learning_rate": 0.00025756102568691853, "loss": 3.7257, "step": 119340 }, { "epoch": 0.24864583333333334, "grad_norm": 1.0532125234603882, "learning_rate": 0.0002575541540663523, "loss": 3.8985, "step": 119350 }, { "epoch": 0.24866666666666667, "grad_norm": 0.7944119572639465, "learning_rate": 0.0002575472819811947, "loss": 4.0293, "step": 119360 }, { "epoch": 0.2486875, "grad_norm": 0.7961151003837585, "learning_rate": 0.0002575404094314754, "loss": 3.7829, "step": 119370 }, { "epoch": 0.24870833333333334, "grad_norm": 0.8592562079429626, "learning_rate": 0.00025753353641722406, "loss": 3.8202, "step": 119380 }, { "epoch": 0.24872916666666667, "grad_norm": 0.7673205733299255, "learning_rate": 0.0002575266629384705, "loss": 3.7408, "step": 119390 }, { "epoch": 0.24875, "grad_norm": 0.7821853160858154, "learning_rate": 0.00025751978899524425, "loss": 4.0078, "step": 119400 }, { "epoch": 0.24877083333333333, "grad_norm": 0.80134117603302, "learning_rate": 0.0002575129145875751, "loss": 3.8949, "step": 119410 }, { "epoch": 0.24879166666666666, "grad_norm": 0.8038097023963928, "learning_rate": 0.0002575060397154927, "loss": 3.9979, "step": 119420 }, { "epoch": 0.2488125, "grad_norm": 0.698530912399292, "learning_rate": 0.0002574991643790268, "loss": 3.9226, "step": 119430 }, { "epoch": 0.24883333333333332, "grad_norm": 0.8223938345909119, "learning_rate": 0.00025749228857820697, "loss": 4.0191, "step": 119440 }, { "epoch": 0.24885416666666665, "grad_norm": 1.0998618602752686, "learning_rate": 0.0002574854123130631, "loss": 3.9105, "step": 119450 }, { "epoch": 0.248875, "grad_norm": 0.8840294480323792, "learning_rate": 0.0002574785355836247, "loss": 3.9844, "step": 119460 }, { "epoch": 0.24889583333333334, "grad_norm": 0.7713092565536499, "learning_rate": 0.00025747165838992163, "loss": 3.8983, "step": 119470 }, { "epoch": 0.24891666666666667, "grad_norm": 0.7873407006263733, "learning_rate": 0.00025746478073198357, "loss": 4.0182, "step": 119480 }, { "epoch": 0.2489375, "grad_norm": 0.8315816521644592, "learning_rate": 0.0002574579026098401, "loss": 3.9179, "step": 119490 }, { "epoch": 0.24895833333333334, "grad_norm": 0.7342570424079895, "learning_rate": 0.0002574510240235211, "loss": 3.8784, "step": 119500 }, { "epoch": 0.24897916666666667, "grad_norm": 0.6908738017082214, "learning_rate": 0.0002574441449730562, "loss": 3.7849, "step": 119510 }, { "epoch": 0.249, "grad_norm": 0.8053215742111206, "learning_rate": 0.00025743726545847514, "loss": 3.8258, "step": 119520 }, { "epoch": 0.24902083333333333, "grad_norm": 0.8010688424110413, "learning_rate": 0.0002574303854798076, "loss": 3.7594, "step": 119530 }, { "epoch": 0.24904166666666666, "grad_norm": 0.7700222134590149, "learning_rate": 0.0002574235050370833, "loss": 3.7725, "step": 119540 }, { "epoch": 0.2490625, "grad_norm": 0.7160970568656921, "learning_rate": 0.000257416624130332, "loss": 3.779, "step": 119550 }, { "epoch": 0.24908333333333332, "grad_norm": 0.8002211451530457, "learning_rate": 0.0002574097427595834, "loss": 3.9337, "step": 119560 }, { "epoch": 0.24910416666666665, "grad_norm": 0.8235437870025635, "learning_rate": 0.0002574028609248672, "loss": 3.8452, "step": 119570 }, { "epoch": 0.249125, "grad_norm": 0.7225263118743896, "learning_rate": 0.00025739597862621316, "loss": 3.7191, "step": 119580 }, { "epoch": 0.24914583333333334, "grad_norm": 0.6830423474311829, "learning_rate": 0.000257389095863651, "loss": 3.8314, "step": 119590 }, { "epoch": 0.24916666666666668, "grad_norm": 0.655307412147522, "learning_rate": 0.0002573822126372105, "loss": 4.003, "step": 119600 }, { "epoch": 0.2491875, "grad_norm": 0.6475358009338379, "learning_rate": 0.00025737532894692125, "loss": 3.9405, "step": 119610 }, { "epoch": 0.24920833333333334, "grad_norm": 0.7996302247047424, "learning_rate": 0.00025736844479281316, "loss": 3.9271, "step": 119620 }, { "epoch": 0.24922916666666667, "grad_norm": 0.7359477877616882, "learning_rate": 0.0002573615601749159, "loss": 3.7936, "step": 119630 }, { "epoch": 0.24925, "grad_norm": 0.7516186237335205, "learning_rate": 0.0002573546750932592, "loss": 3.9198, "step": 119640 }, { "epoch": 0.24927083333333333, "grad_norm": 0.7371119856834412, "learning_rate": 0.0002573477895478727, "loss": 4.0028, "step": 119650 }, { "epoch": 0.24929166666666666, "grad_norm": 0.6925827860832214, "learning_rate": 0.0002573409035387863, "loss": 3.868, "step": 119660 }, { "epoch": 0.2493125, "grad_norm": 0.7882235646247864, "learning_rate": 0.00025733401706602975, "loss": 3.8277, "step": 119670 }, { "epoch": 0.24933333333333332, "grad_norm": 0.696254312992096, "learning_rate": 0.00025732713012963267, "loss": 4.1132, "step": 119680 }, { "epoch": 0.24935416666666665, "grad_norm": 0.7049545049667358, "learning_rate": 0.0002573202427296249, "loss": 3.9165, "step": 119690 }, { "epoch": 0.249375, "grad_norm": 0.8547190427780151, "learning_rate": 0.00025731335486603614, "loss": 3.9967, "step": 119700 }, { "epoch": 0.24939583333333334, "grad_norm": 0.7897358536720276, "learning_rate": 0.0002573064665388961, "loss": 4.0586, "step": 119710 }, { "epoch": 0.24941666666666668, "grad_norm": 0.809725284576416, "learning_rate": 0.0002572995777482347, "loss": 3.9585, "step": 119720 }, { "epoch": 0.2494375, "grad_norm": 0.7695266604423523, "learning_rate": 0.0002572926884940815, "loss": 3.8964, "step": 119730 }, { "epoch": 0.24945833333333334, "grad_norm": 0.7468916773796082, "learning_rate": 0.00025728579877646647, "loss": 3.8965, "step": 119740 }, { "epoch": 0.24947916666666667, "grad_norm": 0.8666465282440186, "learning_rate": 0.00025727890859541917, "loss": 3.6965, "step": 119750 }, { "epoch": 0.2495, "grad_norm": 0.7638580799102783, "learning_rate": 0.0002572720179509695, "loss": 4.0191, "step": 119760 }, { "epoch": 0.24952083333333333, "grad_norm": 0.7271072268486023, "learning_rate": 0.00025726512684314716, "loss": 3.9314, "step": 119770 }, { "epoch": 0.24954166666666666, "grad_norm": 0.8101192116737366, "learning_rate": 0.0002572582352719819, "loss": 3.961, "step": 119780 }, { "epoch": 0.2495625, "grad_norm": 0.8703235387802124, "learning_rate": 0.00025725134323750353, "loss": 3.9955, "step": 119790 }, { "epoch": 0.24958333333333332, "grad_norm": 0.7605385780334473, "learning_rate": 0.00025724445073974187, "loss": 3.8108, "step": 119800 }, { "epoch": 0.24960416666666665, "grad_norm": 0.8410705327987671, "learning_rate": 0.00025723755777872653, "loss": 3.8291, "step": 119810 }, { "epoch": 0.249625, "grad_norm": 0.8532662987709045, "learning_rate": 0.00025723066435448744, "loss": 3.9263, "step": 119820 }, { "epoch": 0.24964583333333334, "grad_norm": 0.8252196311950684, "learning_rate": 0.00025722377046705436, "loss": 3.8751, "step": 119830 }, { "epoch": 0.24966666666666668, "grad_norm": 0.7906928062438965, "learning_rate": 0.000257216876116457, "loss": 3.8821, "step": 119840 }, { "epoch": 0.2496875, "grad_norm": 0.7223817110061646, "learning_rate": 0.00025720998130272516, "loss": 4.1374, "step": 119850 }, { "epoch": 0.24970833333333334, "grad_norm": 0.7797434329986572, "learning_rate": 0.0002572030860258887, "loss": 3.8997, "step": 119860 }, { "epoch": 0.24972916666666667, "grad_norm": 0.6658298373222351, "learning_rate": 0.00025719619028597725, "loss": 3.8031, "step": 119870 }, { "epoch": 0.24975, "grad_norm": 0.7384726405143738, "learning_rate": 0.00025718929408302075, "loss": 3.9821, "step": 119880 }, { "epoch": 0.24977083333333333, "grad_norm": 1.0788984298706055, "learning_rate": 0.00025718239741704893, "loss": 4.1502, "step": 119890 }, { "epoch": 0.24979166666666666, "grad_norm": 0.716058075428009, "learning_rate": 0.00025717550028809156, "loss": 4.0253, "step": 119900 }, { "epoch": 0.2498125, "grad_norm": 0.782516360282898, "learning_rate": 0.00025716860269617845, "loss": 3.8881, "step": 119910 }, { "epoch": 0.24983333333333332, "grad_norm": 0.7745581865310669, "learning_rate": 0.00025716170464133936, "loss": 3.7859, "step": 119920 }, { "epoch": 0.24985416666666665, "grad_norm": 0.73885178565979, "learning_rate": 0.0002571548061236042, "loss": 3.7987, "step": 119930 }, { "epoch": 0.249875, "grad_norm": 0.7535274624824524, "learning_rate": 0.00025714790714300264, "loss": 3.8836, "step": 119940 }, { "epoch": 0.24989583333333334, "grad_norm": 0.7769490480422974, "learning_rate": 0.0002571410076995646, "loss": 4.0735, "step": 119950 }, { "epoch": 0.24991666666666668, "grad_norm": 0.8473771214485168, "learning_rate": 0.0002571341077933197, "loss": 3.9483, "step": 119960 }, { "epoch": 0.2499375, "grad_norm": 0.7447115182876587, "learning_rate": 0.00025712720742429796, "loss": 3.8819, "step": 119970 }, { "epoch": 0.24995833333333334, "grad_norm": 0.7020084261894226, "learning_rate": 0.00025712030659252904, "loss": 3.8774, "step": 119980 }, { "epoch": 0.24997916666666667, "grad_norm": 0.8581231236457825, "learning_rate": 0.0002571134052980428, "loss": 3.939, "step": 119990 }, { "epoch": 0.25, "grad_norm": 0.8581737279891968, "learning_rate": 0.0002571065035408691, "loss": 3.9143, "step": 120000 }, { "epoch": 0.25, "eval_loss": 4.261592864990234, "eval_runtime": 10.3068, "eval_samples_per_second": 0.97, "eval_steps_per_second": 0.291, "step": 120000 } ], "logging_steps": 10, "max_steps": 480000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 120000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 4.4577633337344e+17, "train_batch_size": 4, "trial_name": null, "trial_params": null }