{
  "best_global_step": 34000,
  "best_metric": 2.479717493057251,
  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/google/gemma-3-1b-it/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_34/checkpoint-34000",
  "epoch": 0.68,
  "eval_steps": 100,
  "global_step": 34000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0005,
      "grad_norm": 96.04050869121504,
      "learning_rate": 4.8e-08,
      "loss": 3.4391,
      "step": 25
    },
    {
      "epoch": 0.001,
      "grad_norm": 78.95958818615539,
      "learning_rate": 9.8e-08,
      "loss": 3.397,
      "step": 50
    },
    {
      "epoch": 0.0015,
      "grad_norm": 61.45018428703237,
      "learning_rate": 1.4800000000000003e-07,
      "loss": 3.297,
      "step": 75
    },
    {
      "epoch": 0.002,
      "grad_norm": 22.353651858428393,
      "learning_rate": 1.9800000000000003e-07,
      "loss": 3.1733,
      "step": 100
    },
    {
      "epoch": 0.002,
      "eval_loss": 3.09375,
      "eval_runtime": 42.6579,
      "eval_samples_per_second": 2.438,
      "eval_steps_per_second": 1.219,
      "step": 100
    },
    {
      "epoch": 0.0025,
      "grad_norm": 9.835689068347888,
      "learning_rate": 2.48e-07,
      "loss": 3.0557,
      "step": 125
    },
    {
      "epoch": 0.003,
      "grad_norm": 8.293191220823632,
      "learning_rate": 2.9800000000000005e-07,
      "loss": 2.9954,
      "step": 150
    },
    {
      "epoch": 0.0035,
      "grad_norm": 6.660135091710579,
      "learning_rate": 3.48e-07,
      "loss": 2.9504,
      "step": 175
    },
    {
      "epoch": 0.004,
      "grad_norm": 13.605532098937575,
      "learning_rate": 3.9800000000000004e-07,
      "loss": 2.9363,
      "step": 200
    },
    {
      "epoch": 0.004,
      "eval_loss": 2.924128532409668,
      "eval_runtime": 42.5415,
      "eval_samples_per_second": 2.445,
      "eval_steps_per_second": 1.222,
      "step": 200
    },
    {
      "epoch": 0.0045,
      "grad_norm": 7.7985826788732435,
      "learning_rate": 4.4800000000000004e-07,
      "loss": 2.9223,
      "step": 225
    },
    {
      "epoch": 0.005,
      "grad_norm": 7.257382344220691,
      "learning_rate": 4.98e-07,
      "loss": 2.9043,
      "step": 250
    },
    {
      "epoch": 0.0055,
      "grad_norm": 9.049674458422025,
      "learning_rate": 5.480000000000001e-07,
      "loss": 2.8984,
      "step": 275
    },
    {
      "epoch": 0.006,
      "grad_norm": 5.766079229639856,
      "learning_rate": 5.98e-07,
      "loss": 2.8898,
      "step": 300
    },
    {
      "epoch": 0.006,
      "eval_loss": 2.877253532409668,
      "eval_runtime": 42.642,
      "eval_samples_per_second": 2.439,
      "eval_steps_per_second": 1.219,
      "step": 300
    },
    {
      "epoch": 0.0065,
      "grad_norm": 5.448754520618337,
      "learning_rate": 6.48e-07,
      "loss": 2.871,
      "step": 325
    },
    {
      "epoch": 0.007,
      "grad_norm": 6.866471472157179,
      "learning_rate": 6.98e-07,
      "loss": 2.8693,
      "step": 350
    },
    {
      "epoch": 0.0075,
      "grad_norm": 6.115788528016365,
      "learning_rate": 7.480000000000001e-07,
      "loss": 2.8601,
      "step": 375
    },
    {
      "epoch": 0.008,
      "grad_norm": 5.871468919197367,
      "learning_rate": 7.98e-07,
      "loss": 2.8555,
      "step": 400
    },
    {
      "epoch": 0.008,
      "eval_loss": 2.848106861114502,
      "eval_runtime": 42.3632,
      "eval_samples_per_second": 2.455,
      "eval_steps_per_second": 1.227,
      "step": 400
    },
    {
      "epoch": 0.0085,
      "grad_norm": 6.050804087803095,
      "learning_rate": 8.480000000000001e-07,
      "loss": 2.832,
      "step": 425
    },
    {
      "epoch": 0.009,
      "grad_norm": 4.634127162302958,
      "learning_rate": 8.980000000000001e-07,
      "loss": 2.8418,
      "step": 450
    },
    {
      "epoch": 0.0095,
      "grad_norm": 5.700549652048682,
      "learning_rate": 9.480000000000001e-07,
      "loss": 2.8351,
      "step": 475
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.462019159507559,
      "learning_rate": 9.98e-07,
      "loss": 2.8319,
      "step": 500
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.828125,
      "eval_runtime": 42.4078,
      "eval_samples_per_second": 2.452,
      "eval_steps_per_second": 1.226,
      "step": 500
    },
    {
      "epoch": 0.0105,
      "grad_norm": 5.100237356575638,
      "learning_rate": 1.0480000000000002e-06,
      "loss": 2.8368,
      "step": 525
    },
    {
      "epoch": 0.011,
      "grad_norm": 5.8591675831655134,
      "learning_rate": 1.0980000000000001e-06,
      "loss": 2.8262,
      "step": 550
    },
    {
      "epoch": 0.0115,
      "grad_norm": 4.582188259829454,
      "learning_rate": 1.148e-06,
      "loss": 2.8083,
      "step": 575
    },
    {
      "epoch": 0.012,
      "grad_norm": 4.853482247652135,
      "learning_rate": 1.1980000000000002e-06,
      "loss": 2.8187,
      "step": 600
    },
    {
      "epoch": 0.012,
      "eval_loss": 2.810246467590332,
      "eval_runtime": 42.429,
      "eval_samples_per_second": 2.451,
      "eval_steps_per_second": 1.226,
      "step": 600
    },
    {
      "epoch": 0.0125,
      "grad_norm": 4.813324366644894,
      "learning_rate": 1.248e-06,
      "loss": 2.8109,
      "step": 625
    },
    {
      "epoch": 0.013,
      "grad_norm": 4.680021008982155,
      "learning_rate": 1.2980000000000001e-06,
      "loss": 2.8071,
      "step": 650
    },
    {
      "epoch": 0.0135,
      "grad_norm": 4.232572917961915,
      "learning_rate": 1.348e-06,
      "loss": 2.7996,
      "step": 675
    },
    {
      "epoch": 0.014,
      "grad_norm": 4.140300235345937,
      "learning_rate": 1.3980000000000002e-06,
      "loss": 2.7965,
      "step": 700
    },
    {
      "epoch": 0.014,
      "eval_loss": 2.795973539352417,
      "eval_runtime": 42.2781,
      "eval_samples_per_second": 2.46,
      "eval_steps_per_second": 1.23,
      "step": 700
    },
    {
      "epoch": 0.0145,
      "grad_norm": 4.066322921244863,
      "learning_rate": 1.4480000000000002e-06,
      "loss": 2.7892,
      "step": 725
    },
    {
      "epoch": 0.015,
      "grad_norm": 4.790524346969656,
      "learning_rate": 1.498e-06,
      "loss": 2.7776,
      "step": 750
    },
    {
      "epoch": 0.0155,
      "grad_norm": 4.814208015592297,
      "learning_rate": 1.548e-06,
      "loss": 2.7904,
      "step": 775
    },
    {
      "epoch": 0.016,
      "grad_norm": 3.495397019361677,
      "learning_rate": 1.5980000000000002e-06,
      "loss": 2.7771,
      "step": 800
    },
    {
      "epoch": 0.016,
      "eval_loss": 2.783353328704834,
      "eval_runtime": 45.2475,
      "eval_samples_per_second": 2.298,
      "eval_steps_per_second": 1.149,
      "step": 800
    },
    {
      "epoch": 0.0165,
      "grad_norm": 4.509827964168959,
      "learning_rate": 1.6480000000000001e-06,
      "loss": 2.7864,
      "step": 825
    },
    {
      "epoch": 0.017,
      "grad_norm": 3.396755590212729,
      "learning_rate": 1.6980000000000003e-06,
      "loss": 2.7665,
      "step": 850
    },
    {
      "epoch": 0.0175,
      "grad_norm": 3.6908600934389364,
      "learning_rate": 1.7480000000000002e-06,
      "loss": 2.7784,
      "step": 875
    },
    {
      "epoch": 0.018,
      "grad_norm": 4.517092572588064,
      "learning_rate": 1.798e-06,
      "loss": 2.7718,
      "step": 900
    },
    {
      "epoch": 0.018,
      "eval_loss": 2.772385835647583,
      "eval_runtime": 42.1503,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 900
    },
    {
      "epoch": 0.0185,
      "grad_norm": 4.1527970820269635,
      "learning_rate": 1.8480000000000001e-06,
      "loss": 2.7592,
      "step": 925
    },
    {
      "epoch": 0.019,
      "grad_norm": 4.093946260210414,
      "learning_rate": 1.898e-06,
      "loss": 2.7728,
      "step": 950
    },
    {
      "epoch": 0.0195,
      "grad_norm": 3.794409923219389,
      "learning_rate": 1.9480000000000002e-06,
      "loss": 2.7757,
      "step": 975
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.128018180220031,
      "learning_rate": 1.998e-06,
      "loss": 2.7614,
      "step": 1000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.764573335647583,
      "eval_runtime": 42.2226,
      "eval_samples_per_second": 2.463,
      "eval_steps_per_second": 1.232,
      "step": 1000
    },
    {
      "epoch": 0.0205,
      "grad_norm": 3.8078874128993667,
      "learning_rate": 2.048e-06,
      "loss": 2.7629,
      "step": 1025
    },
    {
      "epoch": 0.021,
      "grad_norm": 3.50724949935112,
      "learning_rate": 2.098e-06,
      "loss": 2.776,
      "step": 1050
    },
    {
      "epoch": 0.0215,
      "grad_norm": 3.600343997799952,
      "learning_rate": 2.148e-06,
      "loss": 2.7503,
      "step": 1075
    },
    {
      "epoch": 0.022,
      "grad_norm": 3.4227590286591667,
      "learning_rate": 2.198e-06,
      "loss": 2.7522,
      "step": 1100
    },
    {
      "epoch": 0.022,
      "eval_loss": 2.754957914352417,
      "eval_runtime": 42.1456,
      "eval_samples_per_second": 2.468,
      "eval_steps_per_second": 1.234,
      "step": 1100
    },
    {
      "epoch": 0.0225,
      "grad_norm": 3.6214573340756178,
      "learning_rate": 2.2480000000000003e-06,
      "loss": 2.7423,
      "step": 1125
    },
    {
      "epoch": 0.023,
      "grad_norm": 4.963456774283441,
      "learning_rate": 2.2980000000000003e-06,
      "loss": 2.7473,
      "step": 1150
    },
    {
      "epoch": 0.0235,
      "grad_norm": 4.417511515875024,
      "learning_rate": 2.3480000000000002e-06,
      "loss": 2.7458,
      "step": 1175
    },
    {
      "epoch": 0.024,
      "grad_norm": 3.4640266757488054,
      "learning_rate": 2.398e-06,
      "loss": 2.755,
      "step": 1200
    },
    {
      "epoch": 0.024,
      "eval_loss": 2.744741678237915,
      "eval_runtime": 42.2958,
      "eval_samples_per_second": 2.459,
      "eval_steps_per_second": 1.229,
      "step": 1200
    },
    {
      "epoch": 0.0245,
      "grad_norm": 3.8906187945336637,
      "learning_rate": 2.448e-06,
      "loss": 2.7413,
      "step": 1225
    },
    {
      "epoch": 0.025,
      "grad_norm": 4.103531427287993,
      "learning_rate": 2.498e-06,
      "loss": 2.7464,
      "step": 1250
    },
    {
      "epoch": 0.0255,
      "grad_norm": 3.7381187683762565,
      "learning_rate": 2.5480000000000004e-06,
      "loss": 2.7383,
      "step": 1275
    },
    {
      "epoch": 0.026,
      "grad_norm": 4.019695597142381,
      "learning_rate": 2.598e-06,
      "loss": 2.7286,
      "step": 1300
    },
    {
      "epoch": 0.026,
      "eval_loss": 2.735727071762085,
      "eval_runtime": 42.1778,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 1300
    },
    {
      "epoch": 0.0265,
      "grad_norm": 3.761754015207239,
      "learning_rate": 2.648e-06,
      "loss": 2.7508,
      "step": 1325
    },
    {
      "epoch": 0.027,
      "grad_norm": 3.5172792845513023,
      "learning_rate": 2.6980000000000003e-06,
      "loss": 2.7396,
      "step": 1350
    },
    {
      "epoch": 0.0275,
      "grad_norm": 3.6926838130981556,
      "learning_rate": 2.748e-06,
      "loss": 2.7286,
      "step": 1375
    },
    {
      "epoch": 0.028,
      "grad_norm": 3.5018547073145,
      "learning_rate": 2.798e-06,
      "loss": 2.7247,
      "step": 1400
    },
    {
      "epoch": 0.028,
      "eval_loss": 2.728515625,
      "eval_runtime": 42.129,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.234,
      "step": 1400
    },
    {
      "epoch": 0.0285,
      "grad_norm": 3.575054037567428,
      "learning_rate": 2.848e-06,
      "loss": 2.7229,
      "step": 1425
    },
    {
      "epoch": 0.029,
      "grad_norm": 4.062924067051664,
      "learning_rate": 2.8980000000000005e-06,
      "loss": 2.7208,
      "step": 1450
    },
    {
      "epoch": 0.0295,
      "grad_norm": 3.5741121733868573,
      "learning_rate": 2.9480000000000004e-06,
      "loss": 2.7071,
      "step": 1475
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.9813713940318864,
      "learning_rate": 2.9980000000000003e-06,
      "loss": 2.729,
      "step": 1500
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.721153736114502,
      "eval_runtime": 42.058,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 1500
    },
    {
      "epoch": 0.0305,
      "grad_norm": 4.465898046671721,
      "learning_rate": 3.0480000000000003e-06,
      "loss": 2.7239,
      "step": 1525
    },
    {
      "epoch": 0.031,
      "grad_norm": 4.083780430751083,
      "learning_rate": 3.0980000000000007e-06,
      "loss": 2.7177,
      "step": 1550
    },
    {
      "epoch": 0.0315,
      "grad_norm": 3.259296223054617,
      "learning_rate": 3.1480000000000006e-06,
      "loss": 2.7149,
      "step": 1575
    },
    {
      "epoch": 0.032,
      "grad_norm": 4.118900376683919,
      "learning_rate": 3.198e-06,
      "loss": 2.7157,
      "step": 1600
    },
    {
      "epoch": 0.032,
      "eval_loss": 2.714693546295166,
      "eval_runtime": 42.155,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 1600
    },
    {
      "epoch": 0.0325,
      "grad_norm": 3.7685203077928335,
      "learning_rate": 3.248e-06,
      "loss": 2.7185,
      "step": 1625
    },
    {
      "epoch": 0.033,
      "grad_norm": 3.786239665874637,
      "learning_rate": 3.298e-06,
      "loss": 2.694,
      "step": 1650
    },
    {
      "epoch": 0.0335,
      "grad_norm": 4.0202339796786095,
      "learning_rate": 3.348e-06,
      "loss": 2.7076,
      "step": 1675
    },
    {
      "epoch": 0.034,
      "grad_norm": 3.220912468646897,
      "learning_rate": 3.3980000000000003e-06,
      "loss": 2.7086,
      "step": 1700
    },
    {
      "epoch": 0.034,
      "eval_loss": 2.708683967590332,
      "eval_runtime": 42.1812,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 1700
    },
    {
      "epoch": 0.0345,
      "grad_norm": 3.4236457763643964,
      "learning_rate": 3.4480000000000003e-06,
      "loss": 2.7107,
      "step": 1725
    },
    {
      "epoch": 0.035,
      "grad_norm": 3.428424878937346,
      "learning_rate": 3.4980000000000002e-06,
      "loss": 2.7033,
      "step": 1750
    },
    {
      "epoch": 0.0355,
      "grad_norm": 3.7064590041354597,
      "learning_rate": 3.548e-06,
      "loss": 2.7135,
      "step": 1775
    },
    {
      "epoch": 0.036,
      "grad_norm": 2.6935868617559127,
      "learning_rate": 3.5980000000000005e-06,
      "loss": 2.6977,
      "step": 1800
    },
    {
      "epoch": 0.036,
      "eval_loss": 2.702373743057251,
      "eval_runtime": 42.099,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 1800
    },
    {
      "epoch": 0.0365,
      "grad_norm": 3.1724624305272577,
      "learning_rate": 3.6480000000000005e-06,
      "loss": 2.6941,
      "step": 1825
    },
    {
      "epoch": 0.037,
      "grad_norm": 3.3947291376692967,
      "learning_rate": 3.6980000000000004e-06,
      "loss": 2.705,
      "step": 1850
    },
    {
      "epoch": 0.0375,
      "grad_norm": 3.2739522130247454,
      "learning_rate": 3.7480000000000004e-06,
      "loss": 2.6971,
      "step": 1875
    },
    {
      "epoch": 0.038,
      "grad_norm": 2.886346941239111,
      "learning_rate": 3.7980000000000007e-06,
      "loss": 2.6878,
      "step": 1900
    },
    {
      "epoch": 0.038,
      "eval_loss": 2.698768138885498,
      "eval_runtime": 42.2524,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.231,
      "step": 1900
    },
    {
      "epoch": 0.0385,
      "grad_norm": 2.961130539695273,
      "learning_rate": 3.848e-06,
      "loss": 2.6936,
      "step": 1925
    },
    {
      "epoch": 0.039,
      "grad_norm": 3.2300245788196884,
      "learning_rate": 3.898e-06,
      "loss": 2.6989,
      "step": 1950
    },
    {
      "epoch": 0.0395,
      "grad_norm": 3.2952386418656823,
      "learning_rate": 3.948e-06,
      "loss": 2.6937,
      "step": 1975
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.556435159379079,
      "learning_rate": 3.9980000000000005e-06,
      "loss": 2.6991,
      "step": 2000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.693058967590332,
      "eval_runtime": 42.2004,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 2000
    },
    {
      "epoch": 0.0405,
      "grad_norm": 2.975198340671437,
      "learning_rate": 4.048e-06,
      "loss": 2.6896,
      "step": 2025
    },
    {
      "epoch": 0.041,
      "grad_norm": 2.366572300776235,
      "learning_rate": 4.098e-06,
      "loss": 2.6903,
      "step": 2050
    },
    {
      "epoch": 0.0415,
      "grad_norm": 2.650575110326075,
      "learning_rate": 4.148000000000001e-06,
      "loss": 2.6974,
      "step": 2075
    },
    {
      "epoch": 0.042,
      "grad_norm": 2.844363978567716,
      "learning_rate": 4.198e-06,
      "loss": 2.6833,
      "step": 2100
    },
    {
      "epoch": 0.042,
      "eval_loss": 2.687650203704834,
      "eval_runtime": 42.1236,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.234,
      "step": 2100
    },
    {
      "epoch": 0.0425,
      "grad_norm": 2.5043519810203425,
      "learning_rate": 4.248000000000001e-06,
      "loss": 2.6848,
      "step": 2125
    },
    {
      "epoch": 0.043,
      "grad_norm": 2.442865859341675,
      "learning_rate": 4.298e-06,
      "loss": 2.6834,
      "step": 2150
    },
    {
      "epoch": 0.0435,
      "grad_norm": 2.396444505850839,
      "learning_rate": 4.3480000000000006e-06,
      "loss": 2.6842,
      "step": 2175
    },
    {
      "epoch": 0.044,
      "grad_norm": 2.467830621762353,
      "learning_rate": 4.398000000000001e-06,
      "loss": 2.6849,
      "step": 2200
    },
    {
      "epoch": 0.044,
      "eval_loss": 2.684495210647583,
      "eval_runtime": 42.337,
      "eval_samples_per_second": 2.456,
      "eval_steps_per_second": 1.228,
      "step": 2200
    },
    {
      "epoch": 0.0445,
      "grad_norm": 2.331183246577976,
      "learning_rate": 4.4480000000000004e-06,
      "loss": 2.6933,
      "step": 2225
    },
    {
      "epoch": 0.045,
      "grad_norm": 2.7108879126095995,
      "learning_rate": 4.498e-06,
      "loss": 2.6756,
      "step": 2250
    },
    {
      "epoch": 0.0455,
      "grad_norm": 2.297487473050839,
      "learning_rate": 4.548e-06,
      "loss": 2.6773,
      "step": 2275
    },
    {
      "epoch": 0.046,
      "grad_norm": 2.260013609826266,
      "learning_rate": 4.598e-06,
      "loss": 2.6869,
      "step": 2300
    },
    {
      "epoch": 0.046,
      "eval_loss": 2.680889368057251,
      "eval_runtime": 42.2308,
      "eval_samples_per_second": 2.463,
      "eval_steps_per_second": 1.231,
      "step": 2300
    },
    {
      "epoch": 0.0465,
      "grad_norm": 2.1362621908829964,
      "learning_rate": 4.648e-06,
      "loss": 2.674,
      "step": 2325
    },
    {
      "epoch": 0.047,
      "grad_norm": 2.530250306266186,
      "learning_rate": 4.698000000000001e-06,
      "loss": 2.6682,
      "step": 2350
    },
    {
      "epoch": 0.0475,
      "grad_norm": 2.284376818082532,
      "learning_rate": 4.748e-06,
      "loss": 2.6741,
      "step": 2375
    },
    {
      "epoch": 0.048,
      "grad_norm": 2.9431781004579403,
      "learning_rate": 4.7980000000000005e-06,
      "loss": 2.6793,
      "step": 2400
    },
    {
      "epoch": 0.048,
      "eval_loss": 2.676382303237915,
      "eval_runtime": 42.1755,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 2400
    },
    {
      "epoch": 0.0485,
      "grad_norm": 2.2501714313646,
      "learning_rate": 4.848000000000001e-06,
      "loss": 2.6836,
      "step": 2425
    },
    {
      "epoch": 0.049,
      "grad_norm": 2.520507270374293,
      "learning_rate": 4.898e-06,
      "loss": 2.6793,
      "step": 2450
    },
    {
      "epoch": 0.0495,
      "grad_norm": 2.3001609851463156,
      "learning_rate": 4.948000000000001e-06,
      "loss": 2.6825,
      "step": 2475
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.0060268631347973,
      "learning_rate": 4.998e-06,
      "loss": 2.6736,
      "step": 2500
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.671875,
      "eval_runtime": 42.1697,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 2500
    },
    {
      "epoch": 0.0505,
      "grad_norm": 2.1769919372211564,
      "learning_rate": 5.048000000000001e-06,
      "loss": 2.6741,
      "step": 2525
    },
    {
      "epoch": 0.051,
      "grad_norm": 2.1133782069189366,
      "learning_rate": 5.098000000000001e-06,
      "loss": 2.67,
      "step": 2550
    },
    {
      "epoch": 0.0515,
      "grad_norm": 2.242586565950932,
      "learning_rate": 5.1480000000000005e-06,
      "loss": 2.6835,
      "step": 2575
    },
    {
      "epoch": 0.052,
      "grad_norm": 2.4130154185332615,
      "learning_rate": 5.198000000000001e-06,
      "loss": 2.6752,
      "step": 2600
    },
    {
      "epoch": 0.052,
      "eval_loss": 2.669621467590332,
      "eval_runtime": 42.1123,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 2600
    },
    {
      "epoch": 0.0525,
      "grad_norm": 2.243339931731786,
      "learning_rate": 5.248000000000001e-06,
      "loss": 2.6631,
      "step": 2625
    },
    {
      "epoch": 0.053,
      "grad_norm": 2.1652170787894964,
      "learning_rate": 5.298000000000001e-06,
      "loss": 2.6653,
      "step": 2650
    },
    {
      "epoch": 0.0535,
      "grad_norm": 2.3514042691010077,
      "learning_rate": 5.348000000000001e-06,
      "loss": 2.6704,
      "step": 2675
    },
    {
      "epoch": 0.054,
      "grad_norm": 2.0555358311645104,
      "learning_rate": 5.398e-06,
      "loss": 2.6744,
      "step": 2700
    },
    {
      "epoch": 0.054,
      "eval_loss": 2.668419361114502,
      "eval_runtime": 42.1636,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.233,
      "step": 2700
    },
    {
      "epoch": 0.0545,
      "grad_norm": 2.504233096197935,
      "learning_rate": 5.448e-06,
      "loss": 2.6686,
      "step": 2725
    },
    {
      "epoch": 0.055,
      "grad_norm": 2.1966446495255014,
      "learning_rate": 5.498e-06,
      "loss": 2.6575,
      "step": 2750
    },
    {
      "epoch": 0.0555,
      "grad_norm": 3.4129666421130738,
      "learning_rate": 5.548e-06,
      "loss": 2.6624,
      "step": 2775
    },
    {
      "epoch": 0.056,
      "grad_norm": 2.5402178685422028,
      "learning_rate": 5.5980000000000004e-06,
      "loss": 2.6615,
      "step": 2800
    },
    {
      "epoch": 0.056,
      "eval_loss": 2.666015625,
      "eval_runtime": 42.1094,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 2800
    },
    {
      "epoch": 0.0565,
      "grad_norm": 2.5169534616209215,
      "learning_rate": 5.648e-06,
      "loss": 2.6745,
      "step": 2825
    },
    {
      "epoch": 0.057,
      "grad_norm": 2.4269096679582347,
      "learning_rate": 5.698e-06,
      "loss": 2.658,
      "step": 2850
    },
    {
      "epoch": 0.0575,
      "grad_norm": 2.2819396814928763,
      "learning_rate": 5.748e-06,
      "loss": 2.6694,
      "step": 2875
    },
    {
      "epoch": 0.058,
      "grad_norm": 3.0448163445232512,
      "learning_rate": 5.798e-06,
      "loss": 2.6587,
      "step": 2900
    },
    {
      "epoch": 0.058,
      "eval_loss": 2.662710428237915,
      "eval_runtime": 42.173,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 2900
    },
    {
      "epoch": 0.0585,
      "grad_norm": 3.2390472506289343,
      "learning_rate": 5.848000000000001e-06,
      "loss": 2.661,
      "step": 2925
    },
    {
      "epoch": 0.059,
      "grad_norm": 2.5836929915418194,
      "learning_rate": 5.898e-06,
      "loss": 2.6514,
      "step": 2950
    },
    {
      "epoch": 0.0595,
      "grad_norm": 2.5766876152500227,
      "learning_rate": 5.9480000000000005e-06,
      "loss": 2.6673,
      "step": 2975
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.507842811667469,
      "learning_rate": 5.998000000000001e-06,
      "loss": 2.6658,
      "step": 3000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.659705638885498,
      "eval_runtime": 42.0906,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 3000
    },
    {
      "epoch": 0.0605,
      "grad_norm": 2.291724100817165,
      "learning_rate": 6.048e-06,
      "loss": 2.6588,
      "step": 3025
    },
    {
      "epoch": 0.061,
      "grad_norm": 2.356775687250912,
      "learning_rate": 6.098000000000001e-06,
      "loss": 2.6519,
      "step": 3050
    },
    {
      "epoch": 0.0615,
      "grad_norm": 3.6009374683805553,
      "learning_rate": 6.148e-06,
      "loss": 2.6581,
      "step": 3075
    },
    {
      "epoch": 0.062,
      "grad_norm": 3.2760170273305724,
      "learning_rate": 6.198000000000001e-06,
      "loss": 2.6588,
      "step": 3100
    },
    {
      "epoch": 0.062,
      "eval_loss": 2.656700611114502,
      "eval_runtime": 42.0325,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 3100
    },
    {
      "epoch": 0.0625,
      "grad_norm": 2.5849236998041825,
      "learning_rate": 6.248000000000001e-06,
      "loss": 2.6548,
      "step": 3125
    },
    {
      "epoch": 0.063,
      "grad_norm": 2.3095505880624474,
      "learning_rate": 6.2980000000000005e-06,
      "loss": 2.6511,
      "step": 3150
    },
    {
      "epoch": 0.0635,
      "grad_norm": 2.5258255422234996,
      "learning_rate": 6.348000000000001e-06,
      "loss": 2.6589,
      "step": 3175
    },
    {
      "epoch": 0.064,
      "grad_norm": 2.3520030773681335,
      "learning_rate": 6.398000000000001e-06,
      "loss": 2.6462,
      "step": 3200
    },
    {
      "epoch": 0.064,
      "eval_loss": 2.652644157409668,
      "eval_runtime": 42.2271,
      "eval_samples_per_second": 2.463,
      "eval_steps_per_second": 1.231,
      "step": 3200
    },
    {
      "epoch": 0.0645,
      "grad_norm": 2.457532178302885,
      "learning_rate": 6.448000000000001e-06,
      "loss": 2.6495,
      "step": 3225
    },
    {
      "epoch": 0.065,
      "grad_norm": 2.3328730844475833,
      "learning_rate": 6.498000000000001e-06,
      "loss": 2.6384,
      "step": 3250
    },
    {
      "epoch": 0.0655,
      "grad_norm": 2.382459769400574,
      "learning_rate": 6.548000000000001e-06,
      "loss": 2.652,
      "step": 3275
    },
    {
      "epoch": 0.066,
      "grad_norm": 2.4287460984943707,
      "learning_rate": 6.598000000000001e-06,
      "loss": 2.655,
      "step": 3300
    },
    {
      "epoch": 0.066,
      "eval_loss": 2.650841236114502,
      "eval_runtime": 42.1822,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.233,
      "step": 3300
    },
    {
      "epoch": 0.0665,
      "grad_norm": 3.0374923212376963,
      "learning_rate": 6.648e-06,
      "loss": 2.6623,
      "step": 3325
    },
    {
      "epoch": 0.067,
      "grad_norm": 2.3072135476674127,
      "learning_rate": 6.698e-06,
      "loss": 2.6484,
      "step": 3350
    },
    {
      "epoch": 0.0675,
      "grad_norm": 2.3676328206176778,
      "learning_rate": 6.7480000000000004e-06,
      "loss": 2.6569,
      "step": 3375
    },
    {
      "epoch": 0.068,
      "grad_norm": 2.313390296186245,
      "learning_rate": 6.798e-06,
      "loss": 2.6393,
      "step": 3400
    },
    {
      "epoch": 0.068,
      "eval_loss": 2.648888111114502,
      "eval_runtime": 44.6877,
      "eval_samples_per_second": 2.327,
      "eval_steps_per_second": 1.164,
      "step": 3400
    },
    {
      "epoch": 0.0685,
      "grad_norm": 2.9181668179248033,
      "learning_rate": 6.848e-06,
      "loss": 2.6521,
      "step": 3425
    },
    {
      "epoch": 0.069,
      "grad_norm": 2.1972242976901457,
      "learning_rate": 6.898e-06,
      "loss": 2.6605,
      "step": 3450
    },
    {
      "epoch": 0.0695,
      "grad_norm": 2.514104559780915,
      "learning_rate": 6.948e-06,
      "loss": 2.6444,
      "step": 3475
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.463879404265904,
      "learning_rate": 6.998000000000001e-06,
      "loss": 2.6586,
      "step": 3500
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.644831657409668,
      "eval_runtime": 45.1164,
      "eval_samples_per_second": 2.305,
      "eval_steps_per_second": 1.153,
      "step": 3500
    },
    {
      "epoch": 0.0705,
      "grad_norm": 2.4337078135824126,
      "learning_rate": 7.048e-06,
      "loss": 2.6463,
      "step": 3525
    },
    {
      "epoch": 0.071,
      "grad_norm": 2.2908199130690257,
      "learning_rate": 7.0980000000000005e-06,
      "loss": 2.655,
      "step": 3550
    },
    {
      "epoch": 0.0715,
      "grad_norm": 2.4093156448180713,
      "learning_rate": 7.148000000000001e-06,
      "loss": 2.6479,
      "step": 3575
    },
    {
      "epoch": 0.072,
      "grad_norm": 2.3128290328516172,
      "learning_rate": 7.198e-06,
      "loss": 2.6342,
      "step": 3600
    },
    {
      "epoch": 0.072,
      "eval_loss": 2.643179178237915,
      "eval_runtime": 43.1012,
      "eval_samples_per_second": 2.413,
      "eval_steps_per_second": 1.206,
      "step": 3600
    },
    {
      "epoch": 0.0725,
      "grad_norm": 2.7714344541916165,
      "learning_rate": 7.248000000000001e-06,
      "loss": 2.6337,
      "step": 3625
    },
    {
      "epoch": 0.073,
      "grad_norm": 2.8399095157670486,
      "learning_rate": 7.298e-06,
      "loss": 2.6413,
      "step": 3650
    },
    {
      "epoch": 0.0735,
      "grad_norm": 2.6867409675260747,
      "learning_rate": 7.348000000000001e-06,
      "loss": 2.6314,
      "step": 3675
    },
    {
      "epoch": 0.074,
      "grad_norm": 2.853697365081861,
      "learning_rate": 7.398000000000001e-06,
      "loss": 2.6372,
      "step": 3700
    },
    {
      "epoch": 0.074,
      "eval_loss": 2.639573335647583,
      "eval_runtime": 45.0291,
      "eval_samples_per_second": 2.31,
      "eval_steps_per_second": 1.155,
      "step": 3700
    },
    {
      "epoch": 0.0745,
      "grad_norm": 1.998706410316405,
      "learning_rate": 7.4480000000000005e-06,
      "loss": 2.637,
      "step": 3725
    },
    {
      "epoch": 0.075,
      "grad_norm": 2.3172883792227417,
      "learning_rate": 7.498000000000001e-06,
      "loss": 2.6386,
      "step": 3750
    },
    {
      "epoch": 0.0755,
      "grad_norm": 2.2578618031758793,
      "learning_rate": 7.548000000000001e-06,
      "loss": 2.637,
      "step": 3775
    },
    {
      "epoch": 0.076,
      "grad_norm": 2.022866842989095,
      "learning_rate": 7.598000000000001e-06,
      "loss": 2.6303,
      "step": 3800
    },
    {
      "epoch": 0.076,
      "eval_loss": 2.63671875,
      "eval_runtime": 45.1006,
      "eval_samples_per_second": 2.306,
      "eval_steps_per_second": 1.153,
      "step": 3800
    },
    {
      "epoch": 0.0765,
      "grad_norm": 2.6019929572001987,
      "learning_rate": 7.648e-06,
      "loss": 2.6359,
      "step": 3825
    },
    {
      "epoch": 0.077,
      "grad_norm": 2.1777094054397343,
      "learning_rate": 7.698000000000002e-06,
      "loss": 2.6397,
      "step": 3850
    },
    {
      "epoch": 0.0775,
      "grad_norm": 2.0323537115489474,
      "learning_rate": 7.748000000000001e-06,
      "loss": 2.6321,
      "step": 3875
    },
    {
      "epoch": 0.078,
      "grad_norm": 2.1502944909614037,
      "learning_rate": 7.798e-06,
      "loss": 2.6373,
      "step": 3900
    },
    {
      "epoch": 0.078,
      "eval_loss": 2.634765625,
      "eval_runtime": 44.8775,
      "eval_samples_per_second": 2.317,
      "eval_steps_per_second": 1.159,
      "step": 3900
    },
    {
      "epoch": 0.0785,
      "grad_norm": 2.2895713962575748,
      "learning_rate": 7.848000000000002e-06,
      "loss": 2.6325,
      "step": 3925
    },
    {
      "epoch": 0.079,
      "grad_norm": 2.473180320397106,
      "learning_rate": 7.898e-06,
      "loss": 2.6306,
      "step": 3950
    },
    {
      "epoch": 0.0795,
      "grad_norm": 2.5774486324856865,
      "learning_rate": 7.948e-06,
      "loss": 2.6345,
      "step": 3975
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.282553852536701,
      "learning_rate": 7.998e-06,
      "loss": 2.641,
      "step": 4000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.630859375,
      "eval_runtime": 44.8187,
      "eval_samples_per_second": 2.32,
      "eval_steps_per_second": 1.16,
      "step": 4000
    },
    {
      "epoch": 0.0805,
      "grad_norm": 2.500864236641362,
      "learning_rate": 8.048e-06,
      "loss": 2.6309,
      "step": 4025
    },
    {
      "epoch": 0.081,
      "grad_norm": 2.5639376009370674,
      "learning_rate": 8.098000000000001e-06,
      "loss": 2.6211,
      "step": 4050
    },
    {
      "epoch": 0.0815,
      "grad_norm": 3.0035728334967926,
      "learning_rate": 8.148e-06,
      "loss": 2.6317,
      "step": 4075
    },
    {
      "epoch": 0.082,
      "grad_norm": 2.804391077504498,
      "learning_rate": 8.198e-06,
      "loss": 2.6273,
      "step": 4100
    },
    {
      "epoch": 0.082,
      "eval_loss": 2.627704381942749,
      "eval_runtime": 45.0778,
      "eval_samples_per_second": 2.307,
      "eval_steps_per_second": 1.154,
      "step": 4100
    },
    {
      "epoch": 0.0825,
      "grad_norm": 2.8025033751566975,
      "learning_rate": 8.248e-06,
      "loss": 2.6224,
      "step": 4125
    },
    {
      "epoch": 0.083,
      "grad_norm": 4.307364832973918,
      "learning_rate": 8.298000000000001e-06,
      "loss": 2.6217,
      "step": 4150
    },
    {
      "epoch": 0.0835,
      "grad_norm": 2.510945545421516,
      "learning_rate": 8.348e-06,
      "loss": 2.6158,
      "step": 4175
    },
    {
      "epoch": 0.084,
      "grad_norm": 2.874475964746802,
      "learning_rate": 8.398e-06,
      "loss": 2.6284,
      "step": 4200
    },
    {
      "epoch": 0.084,
      "eval_loss": 2.626352071762085,
      "eval_runtime": 44.9685,
      "eval_samples_per_second": 2.313,
      "eval_steps_per_second": 1.156,
      "step": 4200
    },
    {
      "epoch": 0.0845,
      "grad_norm": 2.687782456648974,
      "learning_rate": 8.448000000000001e-06,
      "loss": 2.613,
      "step": 4225
    },
    {
      "epoch": 0.085,
      "grad_norm": 2.290237147776631,
      "learning_rate": 8.498e-06,
      "loss": 2.6295,
      "step": 4250
    },
    {
      "epoch": 0.0855,
      "grad_norm": 2.5217231224578196,
      "learning_rate": 8.548e-06,
      "loss": 2.6194,
      "step": 4275
    },
    {
      "epoch": 0.086,
      "grad_norm": 2.478088396853028,
      "learning_rate": 8.598000000000001e-06,
      "loss": 2.6269,
      "step": 4300
    },
    {
      "epoch": 0.086,
      "eval_loss": 2.624098539352417,
      "eval_runtime": 45.0092,
      "eval_samples_per_second": 2.311,
      "eval_steps_per_second": 1.155,
      "step": 4300
    },
    {
      "epoch": 0.0865,
      "grad_norm": 3.160637138604565,
      "learning_rate": 8.648000000000001e-06,
      "loss": 2.6179,
      "step": 4325
    },
    {
      "epoch": 0.087,
      "grad_norm": 3.2730443987396787,
      "learning_rate": 8.698e-06,
      "loss": 2.6128,
      "step": 4350
    },
    {
      "epoch": 0.0875,
      "grad_norm": 2.1924980955006257,
      "learning_rate": 8.748000000000002e-06,
      "loss": 2.6237,
      "step": 4375
    },
    {
      "epoch": 0.088,
      "grad_norm": 2.2909495673616735,
      "learning_rate": 8.798000000000001e-06,
      "loss": 2.6183,
      "step": 4400
    },
    {
      "epoch": 0.088,
      "eval_loss": 2.622445821762085,
      "eval_runtime": 44.9844,
      "eval_samples_per_second": 2.312,
      "eval_steps_per_second": 1.156,
      "step": 4400
    },
    {
      "epoch": 0.0885,
      "grad_norm": 2.3275380340868543,
      "learning_rate": 8.848e-06,
      "loss": 2.6198,
      "step": 4425
    },
    {
      "epoch": 0.089,
      "grad_norm": 2.5451157769858135,
      "learning_rate": 8.898000000000002e-06,
      "loss": 2.6122,
      "step": 4450
    },
    {
      "epoch": 0.0895,
      "grad_norm": 2.626975380348867,
      "learning_rate": 8.948000000000001e-06,
      "loss": 2.6053,
      "step": 4475
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.163525010125433,
      "learning_rate": 8.998000000000001e-06,
      "loss": 2.616,
      "step": 4500
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.620342493057251,
      "eval_runtime": 45.1428,
      "eval_samples_per_second": 2.304,
      "eval_steps_per_second": 1.152,
      "step": 4500
    },
    {
      "epoch": 0.0905,
      "grad_norm": 3.0132623006335857,
      "learning_rate": 9.048e-06,
      "loss": 2.6168,
      "step": 4525
    },
    {
      "epoch": 0.091,
      "grad_norm": 2.671468374859406,
      "learning_rate": 9.098000000000002e-06,
      "loss": 2.6206,
      "step": 4550
    },
    {
      "epoch": 0.0915,
      "grad_norm": 3.043132564516197,
      "learning_rate": 9.148e-06,
      "loss": 2.6175,
      "step": 4575
    },
    {
      "epoch": 0.092,
      "grad_norm": 2.677082280124469,
      "learning_rate": 9.198e-06,
      "loss": 2.6051,
      "step": 4600
    },
    {
      "epoch": 0.092,
      "eval_loss": 2.617037296295166,
      "eval_runtime": 44.9042,
      "eval_samples_per_second": 2.316,
      "eval_steps_per_second": 1.158,
      "step": 4600
    },
    {
      "epoch": 0.0925,
      "grad_norm": 3.05152520766704,
      "learning_rate": 9.248e-06,
      "loss": 2.6086,
      "step": 4625
    },
    {
      "epoch": 0.093,
      "grad_norm": 2.751017986849495,
      "learning_rate": 9.298e-06,
      "loss": 2.6123,
      "step": 4650
    },
    {
      "epoch": 0.0935,
      "grad_norm": 2.6313524456080573,
      "learning_rate": 9.348000000000001e-06,
      "loss": 2.6168,
      "step": 4675
    },
    {
      "epoch": 0.094,
      "grad_norm": 3.186704450209755,
      "learning_rate": 9.398e-06,
      "loss": 2.6242,
      "step": 4700
    },
    {
      "epoch": 0.094,
      "eval_loss": 2.615835428237915,
      "eval_runtime": 44.9862,
      "eval_samples_per_second": 2.312,
      "eval_steps_per_second": 1.156,
      "step": 4700
    },
    {
      "epoch": 0.0945,
      "grad_norm": 2.9215133630797436,
      "learning_rate": 9.448e-06,
      "loss": 2.6154,
      "step": 4725
    },
    {
      "epoch": 0.095,
      "grad_norm": 2.7154053486577348,
      "learning_rate": 9.498000000000001e-06,
      "loss": 2.6133,
      "step": 4750
    },
    {
      "epoch": 0.0955,
      "grad_norm": 2.30215652369695,
      "learning_rate": 9.548e-06,
      "loss": 2.6166,
      "step": 4775
    },
    {
      "epoch": 0.096,
      "grad_norm": 2.534460541656069,
      "learning_rate": 9.598e-06,
      "loss": 2.6134,
      "step": 4800
    },
    {
      "epoch": 0.096,
      "eval_loss": 2.613731861114502,
      "eval_runtime": 45.1374,
      "eval_samples_per_second": 2.304,
      "eval_steps_per_second": 1.152,
      "step": 4800
    },
    {
      "epoch": 0.0965,
      "grad_norm": 3.363450369306592,
      "learning_rate": 9.648000000000001e-06,
      "loss": 2.6185,
      "step": 4825
    },
    {
      "epoch": 0.097,
      "grad_norm": 3.368913774523613,
      "learning_rate": 9.698000000000001e-06,
      "loss": 2.6158,
      "step": 4850
    },
    {
      "epoch": 0.0975,
      "grad_norm": 2.512742170578084,
      "learning_rate": 9.748e-06,
      "loss": 2.619,
      "step": 4875
    },
    {
      "epoch": 0.098,
      "grad_norm": 2.29528993458392,
      "learning_rate": 9.798e-06,
      "loss": 2.6124,
      "step": 4900
    },
    {
      "epoch": 0.098,
      "eval_loss": 2.611778736114502,
      "eval_runtime": 45.0967,
      "eval_samples_per_second": 2.306,
      "eval_steps_per_second": 1.153,
      "step": 4900
    },
    {
      "epoch": 0.0985,
      "grad_norm": 3.6741400808249542,
      "learning_rate": 9.848000000000001e-06,
      "loss": 2.6057,
      "step": 4925
    },
    {
      "epoch": 0.099,
      "grad_norm": 2.8877735323213987,
      "learning_rate": 9.898e-06,
      "loss": 2.5987,
      "step": 4950
    },
    {
      "epoch": 0.0995,
      "grad_norm": 3.5539935185996785,
      "learning_rate": 9.948e-06,
      "loss": 2.6116,
      "step": 4975
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.1496567211993156,
      "learning_rate": 9.998000000000002e-06,
      "loss": 2.6114,
      "step": 5000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.611027717590332,
      "eval_runtime": 44.9767,
      "eval_samples_per_second": 2.312,
      "eval_steps_per_second": 1.156,
      "step": 5000
    },
    {
      "epoch": 0.1005,
      "grad_norm": 3.416161880895133,
      "learning_rate": 9.994666666666668e-06,
      "loss": 2.6158,
      "step": 5025
    },
    {
      "epoch": 0.101,
      "grad_norm": 2.53372876835717,
      "learning_rate": 9.989111111111111e-06,
      "loss": 2.6012,
      "step": 5050
    },
    {
      "epoch": 0.1015,
      "grad_norm": 2.318152281282991,
      "learning_rate": 9.983555555555556e-06,
      "loss": 2.6136,
      "step": 5075
    },
    {
      "epoch": 0.102,
      "grad_norm": 2.5498343821152525,
      "learning_rate": 9.978000000000002e-06,
      "loss": 2.6052,
      "step": 5100
    },
    {
      "epoch": 0.102,
      "eval_loss": 2.610952615737915,
      "eval_runtime": 42.1019,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 5100
    },
    {
      "epoch": 0.1025,
      "grad_norm": 2.100345439803683,
      "learning_rate": 9.972444444444445e-06,
      "loss": 2.6084,
      "step": 5125
    },
    {
      "epoch": 0.103,
      "grad_norm": 2.4294233703328714,
      "learning_rate": 9.966888888888889e-06,
      "loss": 2.6041,
      "step": 5150
    },
    {
      "epoch": 0.1035,
      "grad_norm": 3.4299922452762353,
      "learning_rate": 9.961333333333334e-06,
      "loss": 2.5993,
      "step": 5175
    },
    {
      "epoch": 0.104,
      "grad_norm": 2.7096315724628273,
      "learning_rate": 9.95577777777778e-06,
      "loss": 2.6056,
      "step": 5200
    },
    {
      "epoch": 0.104,
      "eval_loss": 2.605543851852417,
      "eval_runtime": 42.1249,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.234,
      "step": 5200
    },
    {
      "epoch": 0.1045,
      "grad_norm": 3.520679800243995,
      "learning_rate": 9.950222222222223e-06,
      "loss": 2.6198,
      "step": 5225
    },
    {
      "epoch": 0.105,
      "grad_norm": 2.6207699649408145,
      "learning_rate": 9.944666666666668e-06,
      "loss": 2.5983,
      "step": 5250
    },
    {
      "epoch": 0.1055,
      "grad_norm": 3.81435491451506,
      "learning_rate": 9.939111111111112e-06,
      "loss": 2.5977,
      "step": 5275
    },
    {
      "epoch": 0.106,
      "grad_norm": 2.8442763110892058,
      "learning_rate": 9.933555555555557e-06,
      "loss": 2.5977,
      "step": 5300
    },
    {
      "epoch": 0.106,
      "eval_loss": 2.603515625,
      "eval_runtime": 42.1847,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.233,
      "step": 5300
    },
    {
      "epoch": 0.1065,
      "grad_norm": 2.3330569818751288,
      "learning_rate": 9.928e-06,
      "loss": 2.603,
      "step": 5325
    },
    {
      "epoch": 0.107,
      "grad_norm": 2.614504763128844,
      "learning_rate": 9.922444444444446e-06,
      "loss": 2.6075,
      "step": 5350
    },
    {
      "epoch": 0.1075,
      "grad_norm": 2.3761581342305336,
      "learning_rate": 9.91688888888889e-06,
      "loss": 2.598,
      "step": 5375
    },
    {
      "epoch": 0.108,
      "grad_norm": 2.9693890956012283,
      "learning_rate": 9.911333333333335e-06,
      "loss": 2.5939,
      "step": 5400
    },
    {
      "epoch": 0.108,
      "eval_loss": 2.6025390625,
      "eval_runtime": 42.1557,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 5400
    },
    {
      "epoch": 0.1085,
      "grad_norm": 2.3502354313235325,
      "learning_rate": 9.905777777777778e-06,
      "loss": 2.5977,
      "step": 5425
    },
    {
      "epoch": 0.109,
      "grad_norm": 4.244516912805596,
      "learning_rate": 9.900222222222223e-06,
      "loss": 2.6054,
      "step": 5450
    },
    {
      "epoch": 0.1095,
      "grad_norm": 2.240617110709866,
      "learning_rate": 9.894666666666669e-06,
      "loss": 2.6033,
      "step": 5475
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.208047893771693,
      "learning_rate": 9.889111111111112e-06,
      "loss": 2.5977,
      "step": 5500
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.602914571762085,
      "eval_runtime": 42.1365,
      "eval_samples_per_second": 2.468,
      "eval_steps_per_second": 1.234,
      "step": 5500
    },
    {
      "epoch": 0.1105,
      "grad_norm": 2.7978498351768364,
      "learning_rate": 9.883555555555556e-06,
      "loss": 2.5993,
      "step": 5525
    },
    {
      "epoch": 0.111,
      "grad_norm": 3.122377711007523,
      "learning_rate": 9.878000000000001e-06,
      "loss": 2.5935,
      "step": 5550
    },
    {
      "epoch": 0.1115,
      "grad_norm": 2.450318383908477,
      "learning_rate": 9.872444444444446e-06,
      "loss": 2.6025,
      "step": 5575
    },
    {
      "epoch": 0.112,
      "grad_norm": 3.0984127045589855,
      "learning_rate": 9.86688888888889e-06,
      "loss": 2.5952,
      "step": 5600
    },
    {
      "epoch": 0.112,
      "eval_loss": 2.599684476852417,
      "eval_runtime": 42.1446,
      "eval_samples_per_second": 2.468,
      "eval_steps_per_second": 1.234,
      "step": 5600
    },
    {
      "epoch": 0.1125,
      "grad_norm": 3.1706979497083667,
      "learning_rate": 9.861333333333333e-06,
      "loss": 2.5938,
      "step": 5625
    },
    {
      "epoch": 0.113,
      "grad_norm": 2.5819686451355977,
      "learning_rate": 9.855777777777779e-06,
      "loss": 2.6061,
      "step": 5650
    },
    {
      "epoch": 0.1135,
      "grad_norm": 2.1160033983420257,
      "learning_rate": 9.850222222222224e-06,
      "loss": 2.591,
      "step": 5675
    },
    {
      "epoch": 0.114,
      "grad_norm": 2.6757106700322053,
      "learning_rate": 9.844666666666667e-06,
      "loss": 2.5843,
      "step": 5700
    },
    {
      "epoch": 0.114,
      "eval_loss": 2.600059986114502,
      "eval_runtime": 42.1314,
      "eval_samples_per_second": 2.468,
      "eval_steps_per_second": 1.234,
      "step": 5700
    },
    {
      "epoch": 0.1145,
      "grad_norm": 3.0428400730526866,
      "learning_rate": 9.839111111111111e-06,
      "loss": 2.5889,
      "step": 5725
    },
    {
      "epoch": 0.115,
      "grad_norm": 3.0023332110537275,
      "learning_rate": 9.833555555555556e-06,
      "loss": 2.589,
      "step": 5750
    },
    {
      "epoch": 0.1155,
      "grad_norm": 2.4458242352411212,
      "learning_rate": 9.828000000000001e-06,
      "loss": 2.5912,
      "step": 5775
    },
    {
      "epoch": 0.116,
      "grad_norm": 2.9070566280503134,
      "learning_rate": 9.822444444444445e-06,
      "loss": 2.594,
      "step": 5800
    },
    {
      "epoch": 0.116,
      "eval_loss": 2.597205638885498,
      "eval_runtime": 42.2699,
      "eval_samples_per_second": 2.46,
      "eval_steps_per_second": 1.23,
      "step": 5800
    },
    {
      "epoch": 0.1165,
      "grad_norm": 1.9104821809183674,
      "learning_rate": 9.81688888888889e-06,
      "loss": 2.5945,
      "step": 5825
    },
    {
      "epoch": 0.117,
      "grad_norm": 2.9356670820687905,
      "learning_rate": 9.811333333333334e-06,
      "loss": 2.5964,
      "step": 5850
    },
    {
      "epoch": 0.1175,
      "grad_norm": 3.0014062286025682,
      "learning_rate": 9.805777777777779e-06,
      "loss": 2.5936,
      "step": 5875
    },
    {
      "epoch": 0.118,
      "grad_norm": 2.133789981650032,
      "learning_rate": 9.800222222222223e-06,
      "loss": 2.5931,
      "step": 5900
    },
    {
      "epoch": 0.118,
      "eval_loss": 2.597581148147583,
      "eval_runtime": 42.1405,
      "eval_samples_per_second": 2.468,
      "eval_steps_per_second": 1.234,
      "step": 5900
    },
    {
      "epoch": 0.1185,
      "grad_norm": 2.2715886568619674,
      "learning_rate": 9.794666666666668e-06,
      "loss": 2.5892,
      "step": 5925
    },
    {
      "epoch": 0.119,
      "grad_norm": 2.1629931013495747,
      "learning_rate": 9.789111111111111e-06,
      "loss": 2.6117,
      "step": 5950
    },
    {
      "epoch": 0.1195,
      "grad_norm": 2.611955604210334,
      "learning_rate": 9.783555555555557e-06,
      "loss": 2.5867,
      "step": 5975
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.2367470112792294,
      "learning_rate": 9.778e-06,
      "loss": 2.5978,
      "step": 6000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.594125509262085,
      "eval_runtime": 43.0331,
      "eval_samples_per_second": 2.417,
      "eval_steps_per_second": 1.208,
      "step": 6000
    },
    {
      "epoch": 0.1205,
      "grad_norm": 2.1932467610128166,
      "learning_rate": 9.772444444444445e-06,
      "loss": 2.5892,
      "step": 6025
    },
    {
      "epoch": 0.121,
      "grad_norm": 2.387425729108963,
      "learning_rate": 9.76688888888889e-06,
      "loss": 2.5918,
      "step": 6050
    },
    {
      "epoch": 0.1215,
      "grad_norm": 2.8624591702116313,
      "learning_rate": 9.761333333333334e-06,
      "loss": 2.5875,
      "step": 6075
    },
    {
      "epoch": 0.122,
      "grad_norm": 2.930012610934339,
      "learning_rate": 9.755777777777778e-06,
      "loss": 2.5906,
      "step": 6100
    },
    {
      "epoch": 0.122,
      "eval_loss": 2.592097282409668,
      "eval_runtime": 42.1118,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 6100
    },
    {
      "epoch": 0.1225,
      "grad_norm": 3.6585883804987596,
      "learning_rate": 9.750222222222223e-06,
      "loss": 2.5888,
      "step": 6125
    },
    {
      "epoch": 0.123,
      "grad_norm": 2.9636602337569213,
      "learning_rate": 9.744666666666668e-06,
      "loss": 2.5848,
      "step": 6150
    },
    {
      "epoch": 0.1235,
      "grad_norm": 2.6452546886265242,
      "learning_rate": 9.739111111111112e-06,
      "loss": 2.5875,
      "step": 6175
    },
    {
      "epoch": 0.124,
      "grad_norm": 2.230890007256631,
      "learning_rate": 9.733555555555555e-06,
      "loss": 2.5928,
      "step": 6200
    },
    {
      "epoch": 0.124,
      "eval_loss": 2.591871976852417,
      "eval_runtime": 42.2393,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 6200
    },
    {
      "epoch": 0.1245,
      "grad_norm": 2.2263966783946643,
      "learning_rate": 9.728e-06,
      "loss": 2.5913,
      "step": 6225
    },
    {
      "epoch": 0.125,
      "grad_norm": 3.0917521864623168,
      "learning_rate": 9.722444444444446e-06,
      "loss": 2.5858,
      "step": 6250
    },
    {
      "epoch": 0.1255,
      "grad_norm": 3.406162518240377,
      "learning_rate": 9.71688888888889e-06,
      "loss": 2.5824,
      "step": 6275
    },
    {
      "epoch": 0.126,
      "grad_norm": 1.9288658675383707,
      "learning_rate": 9.711333333333333e-06,
      "loss": 2.5881,
      "step": 6300
    },
    {
      "epoch": 0.126,
      "eval_loss": 2.588792085647583,
      "eval_runtime": 42.1993,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 6300
    },
    {
      "epoch": 0.1265,
      "grad_norm": 2.3054152552517557,
      "learning_rate": 9.705777777777778e-06,
      "loss": 2.5777,
      "step": 6325
    },
    {
      "epoch": 0.127,
      "grad_norm": 2.4215099152732438,
      "learning_rate": 9.700222222222224e-06,
      "loss": 2.5905,
      "step": 6350
    },
    {
      "epoch": 0.1275,
      "grad_norm": 2.1008082850001584,
      "learning_rate": 9.694666666666667e-06,
      "loss": 2.5891,
      "step": 6375
    },
    {
      "epoch": 0.128,
      "grad_norm": 2.548161937775528,
      "learning_rate": 9.68911111111111e-06,
      "loss": 2.5828,
      "step": 6400
    },
    {
      "epoch": 0.128,
      "eval_loss": 2.588566780090332,
      "eval_runtime": 42.2757,
      "eval_samples_per_second": 2.46,
      "eval_steps_per_second": 1.23,
      "step": 6400
    },
    {
      "epoch": 0.1285,
      "grad_norm": 2.1721864313913555,
      "learning_rate": 9.683555555555556e-06,
      "loss": 2.585,
      "step": 6425
    },
    {
      "epoch": 0.129,
      "grad_norm": 2.6656100643358567,
      "learning_rate": 9.678000000000001e-06,
      "loss": 2.5859,
      "step": 6450
    },
    {
      "epoch": 0.1295,
      "grad_norm": 2.14442087538069,
      "learning_rate": 9.672444444444445e-06,
      "loss": 2.5897,
      "step": 6475
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.544695719649347,
      "learning_rate": 9.66688888888889e-06,
      "loss": 2.5819,
      "step": 6500
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.585561990737915,
      "eval_runtime": 42.2362,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 6500
    },
    {
      "epoch": 0.1305,
      "grad_norm": 2.2451101114203724,
      "learning_rate": 9.661333333333334e-06,
      "loss": 2.5824,
      "step": 6525
    },
    {
      "epoch": 0.131,
      "grad_norm": 2.7518738527602182,
      "learning_rate": 9.655777777777779e-06,
      "loss": 2.5869,
      "step": 6550
    },
    {
      "epoch": 0.1315,
      "grad_norm": 2.2692401450967603,
      "learning_rate": 9.650222222222222e-06,
      "loss": 2.577,
      "step": 6575
    },
    {
      "epoch": 0.132,
      "grad_norm": 2.0929236367500295,
      "learning_rate": 9.644666666666668e-06,
      "loss": 2.5732,
      "step": 6600
    },
    {
      "epoch": 0.132,
      "eval_loss": 2.584359884262085,
      "eval_runtime": 42.3019,
      "eval_samples_per_second": 2.459,
      "eval_steps_per_second": 1.229,
      "step": 6600
    },
    {
      "epoch": 0.1325,
      "grad_norm": 2.5777548974093794,
      "learning_rate": 9.639111111111113e-06,
      "loss": 2.588,
      "step": 6625
    },
    {
      "epoch": 0.133,
      "grad_norm": 3.2457146266333083,
      "learning_rate": 9.633555555555556e-06,
      "loss": 2.581,
      "step": 6650
    },
    {
      "epoch": 0.1335,
      "grad_norm": 3.068905385924203,
      "learning_rate": 9.628e-06,
      "loss": 2.5819,
      "step": 6675
    },
    {
      "epoch": 0.134,
      "grad_norm": 2.450321782983477,
      "learning_rate": 9.622444444444445e-06,
      "loss": 2.5771,
      "step": 6700
    },
    {
      "epoch": 0.134,
      "eval_loss": 2.583233118057251,
      "eval_runtime": 42.2202,
      "eval_samples_per_second": 2.463,
      "eval_steps_per_second": 1.232,
      "step": 6700
    },
    {
      "epoch": 0.1345,
      "grad_norm": 3.3710381240286607,
      "learning_rate": 9.61688888888889e-06,
      "loss": 2.5708,
      "step": 6725
    },
    {
      "epoch": 0.135,
      "grad_norm": 2.498962635333121,
      "learning_rate": 9.611333333333334e-06,
      "loss": 2.5777,
      "step": 6750
    },
    {
      "epoch": 0.1355,
      "grad_norm": 2.9123144983870457,
      "learning_rate": 9.605777777777778e-06,
      "loss": 2.5754,
      "step": 6775
    },
    {
      "epoch": 0.136,
      "grad_norm": 2.3715808650825347,
      "learning_rate": 9.600222222222223e-06,
      "loss": 2.5774,
      "step": 6800
    },
    {
      "epoch": 0.136,
      "eval_loss": 2.583984375,
      "eval_runtime": 42.1504,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 6800
    },
    {
      "epoch": 0.1365,
      "grad_norm": 3.353836765177085,
      "learning_rate": 9.594666666666668e-06,
      "loss": 2.5802,
      "step": 6825
    },
    {
      "epoch": 0.137,
      "grad_norm": 2.186970794143448,
      "learning_rate": 9.589111111111112e-06,
      "loss": 2.5716,
      "step": 6850
    },
    {
      "epoch": 0.1375,
      "grad_norm": 2.561639852925048,
      "learning_rate": 9.583555555555555e-06,
      "loss": 2.5833,
      "step": 6875
    },
    {
      "epoch": 0.138,
      "grad_norm": 2.657433324295019,
      "learning_rate": 9.578e-06,
      "loss": 2.5804,
      "step": 6900
    },
    {
      "epoch": 0.138,
      "eval_loss": 2.581881046295166,
      "eval_runtime": 42.115,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.235,
      "step": 6900
    },
    {
      "epoch": 0.1385,
      "grad_norm": 3.0762488332335476,
      "learning_rate": 9.572444444444446e-06,
      "loss": 2.5849,
      "step": 6925
    },
    {
      "epoch": 0.139,
      "grad_norm": 3.407171936606543,
      "learning_rate": 9.56688888888889e-06,
      "loss": 2.5745,
      "step": 6950
    },
    {
      "epoch": 0.1395,
      "grad_norm": 2.343148272910383,
      "learning_rate": 9.561333333333333e-06,
      "loss": 2.5638,
      "step": 6975
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.183703414357588,
      "learning_rate": 9.555777777777778e-06,
      "loss": 2.5773,
      "step": 7000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.580303430557251,
      "eval_runtime": 42.2608,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.23,
      "step": 7000
    },
    {
      "epoch": 0.1405,
      "grad_norm": 2.090683861216703,
      "learning_rate": 9.550222222222223e-06,
      "loss": 2.5752,
      "step": 7025
    },
    {
      "epoch": 0.141,
      "grad_norm": 2.4462060701449575,
      "learning_rate": 9.544666666666667e-06,
      "loss": 2.5752,
      "step": 7050
    },
    {
      "epoch": 0.1415,
      "grad_norm": 2.354572863574847,
      "learning_rate": 9.539111111111112e-06,
      "loss": 2.5793,
      "step": 7075
    },
    {
      "epoch": 0.142,
      "grad_norm": 3.150188431313023,
      "learning_rate": 9.533555555555556e-06,
      "loss": 2.5829,
      "step": 7100
    },
    {
      "epoch": 0.142,
      "eval_loss": 2.578876256942749,
      "eval_runtime": 42.1571,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.233,
      "step": 7100
    },
    {
      "epoch": 0.1425,
      "grad_norm": 2.2958267675435264,
      "learning_rate": 9.528000000000001e-06,
      "loss": 2.5819,
      "step": 7125
    },
    {
      "epoch": 0.143,
      "grad_norm": 2.229576484389536,
      "learning_rate": 9.522444444444444e-06,
      "loss": 2.5699,
      "step": 7150
    },
    {
      "epoch": 0.1435,
      "grad_norm": 2.5755824313301185,
      "learning_rate": 9.51688888888889e-06,
      "loss": 2.5618,
      "step": 7175
    },
    {
      "epoch": 0.144,
      "grad_norm": 2.002723376168662,
      "learning_rate": 9.511333333333335e-06,
      "loss": 2.5765,
      "step": 7200
    },
    {
      "epoch": 0.144,
      "eval_loss": 2.578125,
      "eval_runtime": 42.1705,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 7200
    },
    {
      "epoch": 0.1445,
      "grad_norm": 2.4322674164363693,
      "learning_rate": 9.505777777777779e-06,
      "loss": 2.5787,
      "step": 7225
    },
    {
      "epoch": 0.145,
      "grad_norm": 2.3686555525010795,
      "learning_rate": 9.500222222222222e-06,
      "loss": 2.5675,
      "step": 7250
    },
    {
      "epoch": 0.1455,
      "grad_norm": 3.104821188519679,
      "learning_rate": 9.494666666666667e-06,
      "loss": 2.5746,
      "step": 7275
    },
    {
      "epoch": 0.146,
      "grad_norm": 2.8814875220913523,
      "learning_rate": 9.489111111111113e-06,
      "loss": 2.569,
      "step": 7300
    },
    {
      "epoch": 0.146,
      "eval_loss": 2.575345516204834,
      "eval_runtime": 42.4072,
      "eval_samples_per_second": 2.452,
      "eval_steps_per_second": 1.226,
      "step": 7300
    },
    {
      "epoch": 0.1465,
      "grad_norm": 2.431219059778247,
      "learning_rate": 9.483555555555556e-06,
      "loss": 2.5671,
      "step": 7325
    },
    {
      "epoch": 0.147,
      "grad_norm": 3.105679752764214,
      "learning_rate": 9.478e-06,
      "loss": 2.5735,
      "step": 7350
    },
    {
      "epoch": 0.1475,
      "grad_norm": 2.3844745428357528,
      "learning_rate": 9.472444444444445e-06,
      "loss": 2.5704,
      "step": 7375
    },
    {
      "epoch": 0.148,
      "grad_norm": 3.1780151194050537,
      "learning_rate": 9.46688888888889e-06,
      "loss": 2.5754,
      "step": 7400
    },
    {
      "epoch": 0.148,
      "eval_loss": 2.574970006942749,
      "eval_runtime": 42.2781,
      "eval_samples_per_second": 2.46,
      "eval_steps_per_second": 1.23,
      "step": 7400
    },
    {
      "epoch": 0.1485,
      "grad_norm": 2.8536998258405872,
      "learning_rate": 9.461333333333334e-06,
      "loss": 2.5737,
      "step": 7425
    },
    {
      "epoch": 0.149,
      "grad_norm": 1.929486707486442,
      "learning_rate": 9.455777777777777e-06,
      "loss": 2.5794,
      "step": 7450
    },
    {
      "epoch": 0.1495,
      "grad_norm": 2.3851860938995557,
      "learning_rate": 9.450222222222223e-06,
      "loss": 2.57,
      "step": 7475
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.274555727546256,
      "learning_rate": 9.444666666666668e-06,
      "loss": 2.5846,
      "step": 7500
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.575045108795166,
      "eval_runtime": 42.2565,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.231,
      "step": 7500
    },
    {
      "epoch": 0.1505,
      "grad_norm": 2.990595981559867,
      "learning_rate": 9.439111111111111e-06,
      "loss": 2.5635,
      "step": 7525
    },
    {
      "epoch": 0.151,
      "grad_norm": 2.342033024484832,
      "learning_rate": 9.433555555555557e-06,
      "loss": 2.5682,
      "step": 7550
    },
    {
      "epoch": 0.1515,
      "grad_norm": 3.278259902418593,
      "learning_rate": 9.428e-06,
      "loss": 2.5684,
      "step": 7575
    },
    {
      "epoch": 0.152,
      "grad_norm": 3.323218206618402,
      "learning_rate": 9.422444444444445e-06,
      "loss": 2.5657,
      "step": 7600
    },
    {
      "epoch": 0.152,
      "eval_loss": 2.574444055557251,
      "eval_runtime": 42.1106,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 7600
    },
    {
      "epoch": 0.1525,
      "grad_norm": 2.613661230948087,
      "learning_rate": 9.41688888888889e-06,
      "loss": 2.5677,
      "step": 7625
    },
    {
      "epoch": 0.153,
      "grad_norm": 2.1447049265831795,
      "learning_rate": 9.411333333333334e-06,
      "loss": 2.5772,
      "step": 7650
    },
    {
      "epoch": 0.1535,
      "grad_norm": 2.074773482377195,
      "learning_rate": 9.405777777777778e-06,
      "loss": 2.5676,
      "step": 7675
    },
    {
      "epoch": 0.154,
      "grad_norm": 2.2189972936163063,
      "learning_rate": 9.400222222222223e-06,
      "loss": 2.565,
      "step": 7700
    },
    {
      "epoch": 0.154,
      "eval_loss": 2.572340726852417,
      "eval_runtime": 42.163,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.233,
      "step": 7700
    },
    {
      "epoch": 0.1545,
      "grad_norm": 2.020007297414947,
      "learning_rate": 9.394666666666668e-06,
      "loss": 2.5758,
      "step": 7725
    },
    {
      "epoch": 0.155,
      "grad_norm": 2.6124546923876606,
      "learning_rate": 9.389111111111112e-06,
      "loss": 2.5723,
      "step": 7750
    },
    {
      "epoch": 0.1555,
      "grad_norm": 3.144872673868399,
      "learning_rate": 9.383555555555557e-06,
      "loss": 2.5642,
      "step": 7775
    },
    {
      "epoch": 0.156,
      "grad_norm": 2.3755756320446393,
      "learning_rate": 9.378e-06,
      "loss": 2.5684,
      "step": 7800
    },
    {
      "epoch": 0.156,
      "eval_loss": 2.571063756942749,
      "eval_runtime": 42.2055,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 7800
    },
    {
      "epoch": 0.1565,
      "grad_norm": 2.640695576224425,
      "learning_rate": 9.372444444444446e-06,
      "loss": 2.5735,
      "step": 7825
    },
    {
      "epoch": 0.157,
      "grad_norm": 2.063148667839031,
      "learning_rate": 9.36688888888889e-06,
      "loss": 2.5665,
      "step": 7850
    },
    {
      "epoch": 0.1575,
      "grad_norm": 2.016530541107887,
      "learning_rate": 9.361333333333335e-06,
      "loss": 2.5595,
      "step": 7875
    },
    {
      "epoch": 0.158,
      "grad_norm": 2.4121763950632578,
      "learning_rate": 9.355777777777778e-06,
      "loss": 2.5661,
      "step": 7900
    },
    {
      "epoch": 0.158,
      "eval_loss": 2.571364164352417,
      "eval_runtime": 42.2366,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 7900
    },
    {
      "epoch": 0.1585,
      "grad_norm": 3.1944792712012062,
      "learning_rate": 9.350222222222224e-06,
      "loss": 2.571,
      "step": 7925
    },
    {
      "epoch": 0.159,
      "grad_norm": 2.624931566803773,
      "learning_rate": 9.344666666666667e-06,
      "loss": 2.5659,
      "step": 7950
    },
    {
      "epoch": 0.1595,
      "grad_norm": 2.5196026490718086,
      "learning_rate": 9.339111111111112e-06,
      "loss": 2.5533,
      "step": 7975
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.466395654185627,
      "learning_rate": 9.333555555555558e-06,
      "loss": 2.5648,
      "step": 8000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.568809986114502,
      "eval_runtime": 45.0346,
      "eval_samples_per_second": 2.309,
      "eval_steps_per_second": 1.155,
      "step": 8000
    },
    {
      "epoch": 0.1605,
      "grad_norm": 2.6560367873629835,
      "learning_rate": 9.328000000000001e-06,
      "loss": 2.5588,
      "step": 8025
    },
    {
      "epoch": 0.161,
      "grad_norm": 2.2401297319157614,
      "learning_rate": 9.322444444444445e-06,
      "loss": 2.564,
      "step": 8050
    },
    {
      "epoch": 0.1615,
      "grad_norm": 2.2847898029930653,
      "learning_rate": 9.31688888888889e-06,
      "loss": 2.5643,
      "step": 8075
    },
    {
      "epoch": 0.162,
      "grad_norm": 2.798251121826375,
      "learning_rate": 9.311333333333335e-06,
      "loss": 2.5577,
      "step": 8100
    },
    {
      "epoch": 0.162,
      "eval_loss": 2.568058967590332,
      "eval_runtime": 42.5915,
      "eval_samples_per_second": 2.442,
      "eval_steps_per_second": 1.221,
      "step": 8100
    },
    {
      "epoch": 0.1625,
      "grad_norm": 2.0139748360698895,
      "learning_rate": 9.305777777777779e-06,
      "loss": 2.5716,
      "step": 8125
    },
    {
      "epoch": 0.163,
      "grad_norm": 2.052859658987244,
      "learning_rate": 9.300222222222222e-06,
      "loss": 2.5555,
      "step": 8150
    },
    {
      "epoch": 0.1635,
      "grad_norm": 2.6452792973388584,
      "learning_rate": 9.294666666666668e-06,
      "loss": 2.5545,
      "step": 8175
    },
    {
      "epoch": 0.164,
      "grad_norm": 2.8085427073848543,
      "learning_rate": 9.289111111111113e-06,
      "loss": 2.5575,
      "step": 8200
    },
    {
      "epoch": 0.164,
      "eval_loss": 2.56640625,
      "eval_runtime": 42.2476,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 8200
    },
    {
      "epoch": 0.1645,
      "grad_norm": 1.994417686652318,
      "learning_rate": 9.283555555555556e-06,
      "loss": 2.5634,
      "step": 8225
    },
    {
      "epoch": 0.165,
      "grad_norm": 2.8569259303287917,
      "learning_rate": 9.278e-06,
      "loss": 2.5711,
      "step": 8250
    },
    {
      "epoch": 0.1655,
      "grad_norm": 2.15031573602464,
      "learning_rate": 9.272444444444445e-06,
      "loss": 2.5515,
      "step": 8275
    },
    {
      "epoch": 0.166,
      "grad_norm": 2.1903087160864234,
      "learning_rate": 9.26688888888889e-06,
      "loss": 2.5588,
      "step": 8300
    },
    {
      "epoch": 0.166,
      "eval_loss": 2.565354585647583,
      "eval_runtime": 42.2533,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.231,
      "step": 8300
    },
    {
      "epoch": 0.1665,
      "grad_norm": 2.1661066402797697,
      "learning_rate": 9.261333333333334e-06,
      "loss": 2.5582,
      "step": 8325
    },
    {
      "epoch": 0.167,
      "grad_norm": 2.3738673472152603,
      "learning_rate": 9.25577777777778e-06,
      "loss": 2.5598,
      "step": 8350
    },
    {
      "epoch": 0.1675,
      "grad_norm": 1.893415788443222,
      "learning_rate": 9.250222222222223e-06,
      "loss": 2.5553,
      "step": 8375
    },
    {
      "epoch": 0.168,
      "grad_norm": 3.245074933027149,
      "learning_rate": 9.244666666666668e-06,
      "loss": 2.5632,
      "step": 8400
    },
    {
      "epoch": 0.168,
      "eval_loss": 2.565354585647583,
      "eval_runtime": 42.2015,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 8400
    },
    {
      "epoch": 0.1685,
      "grad_norm": 2.359910509969222,
      "learning_rate": 9.239111111111112e-06,
      "loss": 2.5564,
      "step": 8425
    },
    {
      "epoch": 0.169,
      "grad_norm": 2.1851033577602355,
      "learning_rate": 9.233555555555557e-06,
      "loss": 2.5532,
      "step": 8450
    },
    {
      "epoch": 0.1695,
      "grad_norm": 2.0954334474208443,
      "learning_rate": 9.228e-06,
      "loss": 2.5585,
      "step": 8475
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.326393982849659,
      "learning_rate": 9.222444444444446e-06,
      "loss": 2.5639,
      "step": 8500
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.564678430557251,
      "eval_runtime": 42.3289,
      "eval_samples_per_second": 2.457,
      "eval_steps_per_second": 1.228,
      "step": 8500
    },
    {
      "epoch": 0.1705,
      "grad_norm": 2.016190269867033,
      "learning_rate": 9.21688888888889e-06,
      "loss": 2.555,
      "step": 8525
    },
    {
      "epoch": 0.171,
      "grad_norm": 2.1491011270580294,
      "learning_rate": 9.211333333333334e-06,
      "loss": 2.5525,
      "step": 8550
    },
    {
      "epoch": 0.1715,
      "grad_norm": 2.401949244376787,
      "learning_rate": 9.20577777777778e-06,
      "loss": 2.5548,
      "step": 8575
    },
    {
      "epoch": 0.172,
      "grad_norm": 2.6617222137871894,
      "learning_rate": 9.200222222222223e-06,
      "loss": 2.5567,
      "step": 8600
    },
    {
      "epoch": 0.172,
      "eval_loss": 2.563025951385498,
      "eval_runtime": 42.4626,
      "eval_samples_per_second": 2.449,
      "eval_steps_per_second": 1.225,
      "step": 8600
    },
    {
      "epoch": 0.1725,
      "grad_norm": 1.939490462750623,
      "learning_rate": 9.194666666666667e-06,
      "loss": 2.5605,
      "step": 8625
    },
    {
      "epoch": 0.173,
      "grad_norm": 2.7453592449199395,
      "learning_rate": 9.189111111111112e-06,
      "loss": 2.5522,
      "step": 8650
    },
    {
      "epoch": 0.1735,
      "grad_norm": 2.669405830526754,
      "learning_rate": 9.183555555555557e-06,
      "loss": 2.5511,
      "step": 8675
    },
    {
      "epoch": 0.174,
      "grad_norm": 2.483852860875828,
      "learning_rate": 9.178000000000001e-06,
      "loss": 2.5374,
      "step": 8700
    },
    {
      "epoch": 0.174,
      "eval_loss": 2.562575101852417,
      "eval_runtime": 42.6032,
      "eval_samples_per_second": 2.441,
      "eval_steps_per_second": 1.221,
      "step": 8700
    },
    {
      "epoch": 0.1745,
      "grad_norm": 2.228436266030111,
      "learning_rate": 9.172444444444444e-06,
      "loss": 2.5469,
      "step": 8725
    },
    {
      "epoch": 0.175,
      "grad_norm": 2.4160405582786306,
      "learning_rate": 9.16688888888889e-06,
      "loss": 2.5665,
      "step": 8750
    },
    {
      "epoch": 0.1755,
      "grad_norm": 2.80965451621207,
      "learning_rate": 9.161333333333335e-06,
      "loss": 2.5542,
      "step": 8775
    },
    {
      "epoch": 0.176,
      "grad_norm": 2.4851305844565386,
      "learning_rate": 9.155777777777779e-06,
      "loss": 2.5642,
      "step": 8800
    },
    {
      "epoch": 0.176,
      "eval_loss": 2.561298131942749,
      "eval_runtime": 42.4008,
      "eval_samples_per_second": 2.453,
      "eval_steps_per_second": 1.226,
      "step": 8800
    },
    {
      "epoch": 0.1765,
      "grad_norm": 2.70253728592914,
      "learning_rate": 9.150222222222222e-06,
      "loss": 2.5653,
      "step": 8825
    },
    {
      "epoch": 0.177,
      "grad_norm": 1.9507837259092773,
      "learning_rate": 9.144666666666667e-06,
      "loss": 2.5711,
      "step": 8850
    },
    {
      "epoch": 0.1775,
      "grad_norm": 2.6311592623116926,
      "learning_rate": 9.139111111111113e-06,
      "loss": 2.5561,
      "step": 8875
    },
    {
      "epoch": 0.178,
      "grad_norm": 2.5742422293958125,
      "learning_rate": 9.133555555555556e-06,
      "loss": 2.5551,
      "step": 8900
    },
    {
      "epoch": 0.178,
      "eval_loss": 2.559945821762085,
      "eval_runtime": 42.3142,
      "eval_samples_per_second": 2.458,
      "eval_steps_per_second": 1.229,
      "step": 8900
    },
    {
      "epoch": 0.1785,
      "grad_norm": 2.017430018376759,
      "learning_rate": 9.128e-06,
      "loss": 2.5556,
      "step": 8925
    },
    {
      "epoch": 0.179,
      "grad_norm": 2.2568307097241616,
      "learning_rate": 9.122444444444445e-06,
      "loss": 2.5643,
      "step": 8950
    },
    {
      "epoch": 0.1795,
      "grad_norm": 2.7132996198893404,
      "learning_rate": 9.11688888888889e-06,
      "loss": 2.5469,
      "step": 8975
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.6678319001386117,
      "learning_rate": 9.111333333333334e-06,
      "loss": 2.5482,
      "step": 9000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.560246467590332,
      "eval_runtime": 42.2661,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.23,
      "step": 9000
    },
    {
      "epoch": 0.1805,
      "grad_norm": 2.7335192428299697,
      "learning_rate": 9.105777777777779e-06,
      "loss": 2.56,
      "step": 9025
    },
    {
      "epoch": 0.181,
      "grad_norm": 2.616833970329197,
      "learning_rate": 9.100222222222223e-06,
      "loss": 2.5659,
      "step": 9050
    },
    {
      "epoch": 0.1815,
      "grad_norm": 2.636296249975529,
      "learning_rate": 9.094666666666668e-06,
      "loss": 2.5605,
      "step": 9075
    },
    {
      "epoch": 0.182,
      "grad_norm": 2.1413102875849828,
      "learning_rate": 9.089111111111111e-06,
      "loss": 2.5454,
      "step": 9100
    },
    {
      "epoch": 0.182,
      "eval_loss": 2.558293342590332,
      "eval_runtime": 42.2294,
      "eval_samples_per_second": 2.463,
      "eval_steps_per_second": 1.231,
      "step": 9100
    },
    {
      "epoch": 0.1825,
      "grad_norm": 2.195374313863304,
      "learning_rate": 9.083555555555557e-06,
      "loss": 2.5584,
      "step": 9125
    },
    {
      "epoch": 0.183,
      "grad_norm": 2.9470418486379546,
      "learning_rate": 9.078000000000002e-06,
      "loss": 2.5604,
      "step": 9150
    },
    {
      "epoch": 0.1835,
      "grad_norm": 1.9289932950554558,
      "learning_rate": 9.072444444444445e-06,
      "loss": 2.5529,
      "step": 9175
    },
    {
      "epoch": 0.184,
      "grad_norm": 2.905671046574134,
      "learning_rate": 9.066888888888889e-06,
      "loss": 2.5551,
      "step": 9200
    },
    {
      "epoch": 0.184,
      "eval_loss": 2.558293342590332,
      "eval_runtime": 42.216,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 9200
    },
    {
      "epoch": 0.1845,
      "grad_norm": 2.8062526156064522,
      "learning_rate": 9.061333333333334e-06,
      "loss": 2.5438,
      "step": 9225
    },
    {
      "epoch": 0.185,
      "grad_norm": 2.543328123273362,
      "learning_rate": 9.05577777777778e-06,
      "loss": 2.5476,
      "step": 9250
    },
    {
      "epoch": 0.1855,
      "grad_norm": 2.396296044779414,
      "learning_rate": 9.050222222222223e-06,
      "loss": 2.5437,
      "step": 9275
    },
    {
      "epoch": 0.186,
      "grad_norm": 1.980055565462775,
      "learning_rate": 9.044666666666667e-06,
      "loss": 2.5552,
      "step": 9300
    },
    {
      "epoch": 0.186,
      "eval_loss": 2.557692289352417,
      "eval_runtime": 42.6636,
      "eval_samples_per_second": 2.438,
      "eval_steps_per_second": 1.219,
      "step": 9300
    },
    {
      "epoch": 0.1865,
      "grad_norm": 2.028891972183573,
      "learning_rate": 9.039111111111112e-06,
      "loss": 2.5603,
      "step": 9325
    },
    {
      "epoch": 0.187,
      "grad_norm": 2.244801606614392,
      "learning_rate": 9.033555555555557e-06,
      "loss": 2.5565,
      "step": 9350
    },
    {
      "epoch": 0.1875,
      "grad_norm": 2.6445168963619348,
      "learning_rate": 9.028e-06,
      "loss": 2.5453,
      "step": 9375
    },
    {
      "epoch": 0.188,
      "grad_norm": 2.2015819629656543,
      "learning_rate": 9.022444444444444e-06,
      "loss": 2.5463,
      "step": 9400
    },
    {
      "epoch": 0.188,
      "eval_loss": 2.555739164352417,
      "eval_runtime": 44.4913,
      "eval_samples_per_second": 2.338,
      "eval_steps_per_second": 1.169,
      "step": 9400
    },
    {
      "epoch": 0.1885,
      "grad_norm": 2.0871782907981076,
      "learning_rate": 9.01688888888889e-06,
      "loss": 2.5494,
      "step": 9425
    },
    {
      "epoch": 0.189,
      "grad_norm": 2.3339796044543006,
      "learning_rate": 9.011333333333335e-06,
      "loss": 2.562,
      "step": 9450
    },
    {
      "epoch": 0.1895,
      "grad_norm": 2.5447600145368257,
      "learning_rate": 9.005777777777778e-06,
      "loss": 2.5613,
      "step": 9475
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.2530767222642805,
      "learning_rate": 9.000222222222222e-06,
      "loss": 2.5561,
      "step": 9500
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.555588960647583,
      "eval_runtime": 42.3312,
      "eval_samples_per_second": 2.457,
      "eval_steps_per_second": 1.228,
      "step": 9500
    },
    {
      "epoch": 0.1905,
      "grad_norm": 2.2878227597512146,
      "learning_rate": 8.994666666666667e-06,
      "loss": 2.549,
      "step": 9525
    },
    {
      "epoch": 0.191,
      "grad_norm": 3.0478077786015088,
      "learning_rate": 8.989111111111112e-06,
      "loss": 2.5588,
      "step": 9550
    },
    {
      "epoch": 0.1915,
      "grad_norm": 2.499301869546187,
      "learning_rate": 8.983555555555556e-06,
      "loss": 2.5529,
      "step": 9575
    },
    {
      "epoch": 0.192,
      "grad_norm": 2.337747110130922,
      "learning_rate": 8.978000000000001e-06,
      "loss": 2.5485,
      "step": 9600
    },
    {
      "epoch": 0.192,
      "eval_loss": 2.554462194442749,
      "eval_runtime": 42.3,
      "eval_samples_per_second": 2.459,
      "eval_steps_per_second": 1.229,
      "step": 9600
    },
    {
      "epoch": 0.1925,
      "grad_norm": 2.199520541356511,
      "learning_rate": 8.972444444444445e-06,
      "loss": 2.5484,
      "step": 9625
    },
    {
      "epoch": 0.193,
      "grad_norm": 2.0965551340270663,
      "learning_rate": 8.96688888888889e-06,
      "loss": 2.5469,
      "step": 9650
    },
    {
      "epoch": 0.1935,
      "grad_norm": 2.299106466929266,
      "learning_rate": 8.961333333333333e-06,
      "loss": 2.5418,
      "step": 9675
    },
    {
      "epoch": 0.194,
      "grad_norm": 2.4569979839281446,
      "learning_rate": 8.955777777777779e-06,
      "loss": 2.5539,
      "step": 9700
    },
    {
      "epoch": 0.194,
      "eval_loss": 2.553786039352417,
      "eval_runtime": 42.2974,
      "eval_samples_per_second": 2.459,
      "eval_steps_per_second": 1.229,
      "step": 9700
    },
    {
      "epoch": 0.1945,
      "grad_norm": 2.041615655285428,
      "learning_rate": 8.950222222222224e-06,
      "loss": 2.5423,
      "step": 9725
    },
    {
      "epoch": 0.195,
      "grad_norm": 2.3161296628839434,
      "learning_rate": 8.944666666666668e-06,
      "loss": 2.5425,
      "step": 9750
    },
    {
      "epoch": 0.1955,
      "grad_norm": 1.9404726428231058,
      "learning_rate": 8.939111111111111e-06,
      "loss": 2.5574,
      "step": 9775
    },
    {
      "epoch": 0.196,
      "grad_norm": 2.1787807307174596,
      "learning_rate": 8.933555555555556e-06,
      "loss": 2.5601,
      "step": 9800
    },
    {
      "epoch": 0.196,
      "eval_loss": 2.553335428237915,
      "eval_runtime": 42.3156,
      "eval_samples_per_second": 2.458,
      "eval_steps_per_second": 1.229,
      "step": 9800
    },
    {
      "epoch": 0.1965,
      "grad_norm": 2.159828577335103,
      "learning_rate": 8.928000000000002e-06,
      "loss": 2.5374,
      "step": 9825
    },
    {
      "epoch": 0.197,
      "grad_norm": 2.212298780606798,
      "learning_rate": 8.922444444444445e-06,
      "loss": 2.5421,
      "step": 9850
    },
    {
      "epoch": 0.1975,
      "grad_norm": 2.4629384962810685,
      "learning_rate": 8.916888888888889e-06,
      "loss": 2.544,
      "step": 9875
    },
    {
      "epoch": 0.198,
      "grad_norm": 2.2323138923920145,
      "learning_rate": 8.911333333333334e-06,
      "loss": 2.5538,
      "step": 9900
    },
    {
      "epoch": 0.198,
      "eval_loss": 2.552133321762085,
      "eval_runtime": 42.0858,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.236,
      "step": 9900
    },
    {
      "epoch": 0.1985,
      "grad_norm": 2.2719465467364057,
      "learning_rate": 8.90577777777778e-06,
      "loss": 2.5478,
      "step": 9925
    },
    {
      "epoch": 0.199,
      "grad_norm": 2.705917304760513,
      "learning_rate": 8.900222222222223e-06,
      "loss": 2.5278,
      "step": 9950
    },
    {
      "epoch": 0.1995,
      "grad_norm": 1.7785859357117906,
      "learning_rate": 8.894666666666666e-06,
      "loss": 2.5477,
      "step": 9975
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.480488966768482,
      "learning_rate": 8.889111111111112e-06,
      "loss": 2.5415,
      "step": 10000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.552133321762085,
      "eval_runtime": 42.2581,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.231,
      "step": 10000
    },
    {
      "epoch": 0.2005,
      "grad_norm": 3.0378947508990453,
      "learning_rate": 8.883555555555557e-06,
      "loss": 2.5449,
      "step": 10025
    },
    {
      "epoch": 0.201,
      "grad_norm": 2.995635037144703,
      "learning_rate": 8.878e-06,
      "loss": 2.5406,
      "step": 10050
    },
    {
      "epoch": 0.2015,
      "grad_norm": 2.198045707343682,
      "learning_rate": 8.872444444444444e-06,
      "loss": 2.53,
      "step": 10075
    },
    {
      "epoch": 0.202,
      "grad_norm": 2.4083638230263946,
      "learning_rate": 8.86688888888889e-06,
      "loss": 2.5468,
      "step": 10100
    },
    {
      "epoch": 0.202,
      "eval_loss": 2.550405740737915,
      "eval_runtime": 42.0945,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 10100
    },
    {
      "epoch": 0.2025,
      "grad_norm": 2.0842503072786958,
      "learning_rate": 8.861333333333334e-06,
      "loss": 2.5342,
      "step": 10125
    },
    {
      "epoch": 0.203,
      "grad_norm": 2.1409770634433665,
      "learning_rate": 8.855777777777778e-06,
      "loss": 2.5459,
      "step": 10150
    },
    {
      "epoch": 0.2035,
      "grad_norm": 1.8019290797971257,
      "learning_rate": 8.850222222222223e-06,
      "loss": 2.5489,
      "step": 10175
    },
    {
      "epoch": 0.204,
      "grad_norm": 2.159224946702751,
      "learning_rate": 8.844666666666667e-06,
      "loss": 2.5402,
      "step": 10200
    },
    {
      "epoch": 0.204,
      "eval_loss": 2.550255298614502,
      "eval_runtime": 42.1763,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 10200
    },
    {
      "epoch": 0.2045,
      "grad_norm": 2.149785275250866,
      "learning_rate": 8.839111111111112e-06,
      "loss": 2.548,
      "step": 10225
    },
    {
      "epoch": 0.205,
      "grad_norm": 2.6911078360763874,
      "learning_rate": 8.833555555555556e-06,
      "loss": 2.5447,
      "step": 10250
    },
    {
      "epoch": 0.2055,
      "grad_norm": 2.254737041517942,
      "learning_rate": 8.828000000000001e-06,
      "loss": 2.548,
      "step": 10275
    },
    {
      "epoch": 0.206,
      "grad_norm": 2.2852857848915,
      "learning_rate": 8.822444444444446e-06,
      "loss": 2.5371,
      "step": 10300
    },
    {
      "epoch": 0.206,
      "eval_loss": 2.549729585647583,
      "eval_runtime": 42.1465,
      "eval_samples_per_second": 2.468,
      "eval_steps_per_second": 1.234,
      "step": 10300
    },
    {
      "epoch": 0.2065,
      "grad_norm": 2.5498279388836425,
      "learning_rate": 8.81688888888889e-06,
      "loss": 2.536,
      "step": 10325
    },
    {
      "epoch": 0.207,
      "grad_norm": 2.2620660537006385,
      "learning_rate": 8.811333333333333e-06,
      "loss": 2.5478,
      "step": 10350
    },
    {
      "epoch": 0.2075,
      "grad_norm": 2.06322927545459,
      "learning_rate": 8.805777777777778e-06,
      "loss": 2.5421,
      "step": 10375
    },
    {
      "epoch": 0.208,
      "grad_norm": 1.9770079692771143,
      "learning_rate": 8.800222222222224e-06,
      "loss": 2.5519,
      "step": 10400
    },
    {
      "epoch": 0.208,
      "eval_loss": 2.549504280090332,
      "eval_runtime": 42.0501,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.237,
      "step": 10400
    },
    {
      "epoch": 0.2085,
      "grad_norm": 2.837285948836536,
      "learning_rate": 8.794666666666667e-06,
      "loss": 2.5387,
      "step": 10425
    },
    {
      "epoch": 0.209,
      "grad_norm": 2.0428174767585086,
      "learning_rate": 8.78911111111111e-06,
      "loss": 2.5398,
      "step": 10450
    },
    {
      "epoch": 0.2095,
      "grad_norm": 1.826545976894172,
      "learning_rate": 8.783555555555556e-06,
      "loss": 2.5398,
      "step": 10475
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.335064875387599,
      "learning_rate": 8.778000000000001e-06,
      "loss": 2.5323,
      "step": 10500
    },
    {
      "epoch": 0.21,
      "eval_loss": 2.548001766204834,
      "eval_runtime": 44.9592,
      "eval_samples_per_second": 2.313,
      "eval_steps_per_second": 1.157,
      "step": 10500
    },
    {
      "epoch": 0.2105,
      "grad_norm": 2.1349530306908746,
      "learning_rate": 8.772444444444445e-06,
      "loss": 2.5322,
      "step": 10525
    },
    {
      "epoch": 0.211,
      "grad_norm": 2.2099539420109706,
      "learning_rate": 8.766888888888888e-06,
      "loss": 2.552,
      "step": 10550
    },
    {
      "epoch": 0.2115,
      "grad_norm": 2.185692829530028,
      "learning_rate": 8.761333333333334e-06,
      "loss": 2.537,
      "step": 10575
    },
    {
      "epoch": 0.212,
      "grad_norm": 2.2842207172577087,
      "learning_rate": 8.755777777777779e-06,
      "loss": 2.5373,
      "step": 10600
    },
    {
      "epoch": 0.212,
      "eval_loss": 2.547701358795166,
      "eval_runtime": 42.1838,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.233,
      "step": 10600
    },
    {
      "epoch": 0.2125,
      "grad_norm": 1.9972991885719102,
      "learning_rate": 8.750222222222223e-06,
      "loss": 2.5319,
      "step": 10625
    },
    {
      "epoch": 0.213,
      "grad_norm": 2.330105056727183,
      "learning_rate": 8.744666666666666e-06,
      "loss": 2.5388,
      "step": 10650
    },
    {
      "epoch": 0.2135,
      "grad_norm": 2.70628718016926,
      "learning_rate": 8.739111111111111e-06,
      "loss": 2.5303,
      "step": 10675
    },
    {
      "epoch": 0.214,
      "grad_norm": 2.4584947239335624,
      "learning_rate": 8.733555555555557e-06,
      "loss": 2.5342,
      "step": 10700
    },
    {
      "epoch": 0.214,
      "eval_loss": 2.546649694442749,
      "eval_runtime": 42.0732,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 10700
    },
    {
      "epoch": 0.2145,
      "grad_norm": 2.214087371322184,
      "learning_rate": 8.728e-06,
      "loss": 2.5421,
      "step": 10725
    },
    {
      "epoch": 0.215,
      "grad_norm": 2.6528158070317245,
      "learning_rate": 8.722444444444445e-06,
      "loss": 2.5444,
      "step": 10750
    },
    {
      "epoch": 0.2155,
      "grad_norm": 2.346998333067942,
      "learning_rate": 8.716888888888889e-06,
      "loss": 2.5443,
      "step": 10775
    },
    {
      "epoch": 0.216,
      "grad_norm": 2.3982005375452013,
      "learning_rate": 8.711333333333334e-06,
      "loss": 2.5355,
      "step": 10800
    },
    {
      "epoch": 0.216,
      "eval_loss": 2.546048641204834,
      "eval_runtime": 42.068,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 10800
    },
    {
      "epoch": 0.2165,
      "grad_norm": 3.0048318722769762,
      "learning_rate": 8.705777777777778e-06,
      "loss": 2.5394,
      "step": 10825
    },
    {
      "epoch": 0.217,
      "grad_norm": 2.0272377886620037,
      "learning_rate": 8.700222222222223e-06,
      "loss": 2.5464,
      "step": 10850
    },
    {
      "epoch": 0.2175,
      "grad_norm": 2.652472330601305,
      "learning_rate": 8.694666666666668e-06,
      "loss": 2.529,
      "step": 10875
    },
    {
      "epoch": 0.218,
      "grad_norm": 2.2445164925981307,
      "learning_rate": 8.689111111111112e-06,
      "loss": 2.5427,
      "step": 10900
    },
    {
      "epoch": 0.218,
      "eval_loss": 2.545748233795166,
      "eval_runtime": 42.3618,
      "eval_samples_per_second": 2.455,
      "eval_steps_per_second": 1.228,
      "step": 10900
    },
    {
      "epoch": 0.2185,
      "grad_norm": 2.201461546405023,
      "learning_rate": 8.683555555555555e-06,
      "loss": 2.5393,
      "step": 10925
    },
    {
      "epoch": 0.219,
      "grad_norm": 2.3583119593823674,
      "learning_rate": 8.678e-06,
      "loss": 2.5427,
      "step": 10950
    },
    {
      "epoch": 0.2195,
      "grad_norm": 2.1379039245727403,
      "learning_rate": 8.672444444444446e-06,
      "loss": 2.5356,
      "step": 10975
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.5685849750637084,
      "learning_rate": 8.66688888888889e-06,
      "loss": 2.5457,
      "step": 11000
    },
    {
      "epoch": 0.22,
      "eval_loss": 2.546349048614502,
      "eval_runtime": 42.135,
      "eval_samples_per_second": 2.468,
      "eval_steps_per_second": 1.234,
      "step": 11000
    },
    {
      "epoch": 0.2205,
      "grad_norm": 2.324853539087807,
      "learning_rate": 8.661333333333335e-06,
      "loss": 2.5285,
      "step": 11025
    },
    {
      "epoch": 0.221,
      "grad_norm": 1.9658509127735029,
      "learning_rate": 8.655777777777778e-06,
      "loss": 2.5219,
      "step": 11050
    },
    {
      "epoch": 0.2215,
      "grad_norm": 2.53943222758357,
      "learning_rate": 8.650222222222223e-06,
      "loss": 2.5272,
      "step": 11075
    },
    {
      "epoch": 0.222,
      "grad_norm": 2.3198644963527775,
      "learning_rate": 8.644666666666669e-06,
      "loss": 2.5409,
      "step": 11100
    },
    {
      "epoch": 0.222,
      "eval_loss": 2.544395923614502,
      "eval_runtime": 42.0045,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 11100
    },
    {
      "epoch": 0.2225,
      "grad_norm": 2.3120626804419375,
      "learning_rate": 8.639111111111112e-06,
      "loss": 2.547,
      "step": 11125
    },
    {
      "epoch": 0.223,
      "grad_norm": 2.3238512646839773,
      "learning_rate": 8.633555555555556e-06,
      "loss": 2.5378,
      "step": 11150
    },
    {
      "epoch": 0.2235,
      "grad_norm": 2.2746777774566107,
      "learning_rate": 8.628000000000001e-06,
      "loss": 2.5298,
      "step": 11175
    },
    {
      "epoch": 0.224,
      "grad_norm": 2.2756339157469934,
      "learning_rate": 8.622444444444446e-06,
      "loss": 2.5293,
      "step": 11200
    },
    {
      "epoch": 0.224,
      "eval_loss": 2.544095516204834,
      "eval_runtime": 42.2435,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 11200
    },
    {
      "epoch": 0.2245,
      "grad_norm": 2.069926826217822,
      "learning_rate": 8.61688888888889e-06,
      "loss": 2.5401,
      "step": 11225
    },
    {
      "epoch": 0.225,
      "grad_norm": 2.322441839423337,
      "learning_rate": 8.611333333333333e-06,
      "loss": 2.5417,
      "step": 11250
    },
    {
      "epoch": 0.2255,
      "grad_norm": 3.726100896647911,
      "learning_rate": 8.605777777777779e-06,
      "loss": 2.5311,
      "step": 11275
    },
    {
      "epoch": 0.226,
      "grad_norm": 3.3085164517610632,
      "learning_rate": 8.600222222222224e-06,
      "loss": 2.5433,
      "step": 11300
    },
    {
      "epoch": 0.226,
      "eval_loss": 2.541391134262085,
      "eval_runtime": 42.0958,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 11300
    },
    {
      "epoch": 0.2265,
      "grad_norm": 2.3467605461379324,
      "learning_rate": 8.594666666666668e-06,
      "loss": 2.5293,
      "step": 11325
    },
    {
      "epoch": 0.227,
      "grad_norm": 2.2566795917134637,
      "learning_rate": 8.589111111111111e-06,
      "loss": 2.5383,
      "step": 11350
    },
    {
      "epoch": 0.2275,
      "grad_norm": 1.9604293201194958,
      "learning_rate": 8.583555555555556e-06,
      "loss": 2.5466,
      "step": 11375
    },
    {
      "epoch": 0.228,
      "grad_norm": 2.7705828556158907,
      "learning_rate": 8.578000000000002e-06,
      "loss": 2.54,
      "step": 11400
    },
    {
      "epoch": 0.228,
      "eval_loss": 2.543344259262085,
      "eval_runtime": 42.1958,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.232,
      "step": 11400
    },
    {
      "epoch": 0.2285,
      "grad_norm": 2.1573913228005392,
      "learning_rate": 8.572444444444445e-06,
      "loss": 2.544,
      "step": 11425
    },
    {
      "epoch": 0.229,
      "grad_norm": 2.4499651434376264,
      "learning_rate": 8.56688888888889e-06,
      "loss": 2.543,
      "step": 11450
    },
    {
      "epoch": 0.2295,
      "grad_norm": 2.1343769951292204,
      "learning_rate": 8.561333333333334e-06,
      "loss": 2.5568,
      "step": 11475
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.930848949528708,
      "learning_rate": 8.55577777777778e-06,
      "loss": 2.5419,
      "step": 11500
    },
    {
      "epoch": 0.23,
      "eval_loss": 2.541316032409668,
      "eval_runtime": 42.2013,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 11500
    },
    {
      "epoch": 0.2305,
      "grad_norm": 2.155444422697904,
      "learning_rate": 8.550222222222223e-06,
      "loss": 2.543,
      "step": 11525
    },
    {
      "epoch": 0.231,
      "grad_norm": 2.5216609928964706,
      "learning_rate": 8.544666666666668e-06,
      "loss": 2.5339,
      "step": 11550
    },
    {
      "epoch": 0.2315,
      "grad_norm": 3.2141643729123826,
      "learning_rate": 8.539111111111112e-06,
      "loss": 2.5311,
      "step": 11575
    },
    {
      "epoch": 0.232,
      "grad_norm": 2.779033714093245,
      "learning_rate": 8.533555555555557e-06,
      "loss": 2.5367,
      "step": 11600
    },
    {
      "epoch": 0.232,
      "eval_loss": 2.539663553237915,
      "eval_runtime": 42.1104,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 11600
    },
    {
      "epoch": 0.2325,
      "grad_norm": 2.0599049344871134,
      "learning_rate": 8.528e-06,
      "loss": 2.5406,
      "step": 11625
    },
    {
      "epoch": 0.233,
      "grad_norm": 2.1617162796171536,
      "learning_rate": 8.522444444444446e-06,
      "loss": 2.5244,
      "step": 11650
    },
    {
      "epoch": 0.2335,
      "grad_norm": 2.4286224889340926,
      "learning_rate": 8.51688888888889e-06,
      "loss": 2.5364,
      "step": 11675
    },
    {
      "epoch": 0.234,
      "grad_norm": 2.0435359432545424,
      "learning_rate": 8.511333333333334e-06,
      "loss": 2.5332,
      "step": 11700
    },
    {
      "epoch": 0.234,
      "eval_loss": 2.539963960647583,
      "eval_runtime": 42.1502,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 11700
    },
    {
      "epoch": 0.2345,
      "grad_norm": 2.6031764141012195,
      "learning_rate": 8.505777777777778e-06,
      "loss": 2.5292,
      "step": 11725
    },
    {
      "epoch": 0.235,
      "grad_norm": 2.2484621657042427,
      "learning_rate": 8.500222222222223e-06,
      "loss": 2.523,
      "step": 11750
    },
    {
      "epoch": 0.2355,
      "grad_norm": 2.854177673999505,
      "learning_rate": 8.494666666666668e-06,
      "loss": 2.5218,
      "step": 11775
    },
    {
      "epoch": 0.236,
      "grad_norm": 2.0770100967771055,
      "learning_rate": 8.489111111111112e-06,
      "loss": 2.534,
      "step": 11800
    },
    {
      "epoch": 0.236,
      "eval_loss": 2.538536548614502,
      "eval_runtime": 42.3875,
      "eval_samples_per_second": 2.454,
      "eval_steps_per_second": 1.227,
      "step": 11800
    },
    {
      "epoch": 0.2365,
      "grad_norm": 2.391823444522325,
      "learning_rate": 8.483555555555556e-06,
      "loss": 2.5211,
      "step": 11825
    },
    {
      "epoch": 0.237,
      "grad_norm": 2.333238897849914,
      "learning_rate": 8.478e-06,
      "loss": 2.5238,
      "step": 11850
    },
    {
      "epoch": 0.2375,
      "grad_norm": 2.1636671466235256,
      "learning_rate": 8.472444444444446e-06,
      "loss": 2.5378,
      "step": 11875
    },
    {
      "epoch": 0.238,
      "grad_norm": 2.5877564973697607,
      "learning_rate": 8.46688888888889e-06,
      "loss": 2.5415,
      "step": 11900
    },
    {
      "epoch": 0.238,
      "eval_loss": 2.538837194442749,
      "eval_runtime": 42.2059,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 11900
    },
    {
      "epoch": 0.2385,
      "grad_norm": 2.1416643296031785,
      "learning_rate": 8.461333333333333e-06,
      "loss": 2.525,
      "step": 11925
    },
    {
      "epoch": 0.239,
      "grad_norm": 2.213813959028046,
      "learning_rate": 8.455777777777778e-06,
      "loss": 2.5416,
      "step": 11950
    },
    {
      "epoch": 0.2395,
      "grad_norm": 2.759854381361929,
      "learning_rate": 8.450222222222224e-06,
      "loss": 2.5355,
      "step": 11975
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.050520488248713,
      "learning_rate": 8.444666666666667e-06,
      "loss": 2.5263,
      "step": 12000
    },
    {
      "epoch": 0.24,
      "eval_loss": 2.538311243057251,
      "eval_runtime": 42.2256,
      "eval_samples_per_second": 2.463,
      "eval_steps_per_second": 1.231,
      "step": 12000
    },
    {
      "epoch": 0.2405,
      "grad_norm": 1.7936589101138234,
      "learning_rate": 8.43911111111111e-06,
      "loss": 2.5284,
      "step": 12025
    },
    {
      "epoch": 0.241,
      "grad_norm": 1.9363979159698028,
      "learning_rate": 8.433555555555556e-06,
      "loss": 2.5217,
      "step": 12050
    },
    {
      "epoch": 0.2415,
      "grad_norm": 2.0808153808443324,
      "learning_rate": 8.428000000000001e-06,
      "loss": 2.5151,
      "step": 12075
    },
    {
      "epoch": 0.242,
      "grad_norm": 2.6428939921225303,
      "learning_rate": 8.422444444444445e-06,
      "loss": 2.529,
      "step": 12100
    },
    {
      "epoch": 0.242,
      "eval_loss": 2.537259578704834,
      "eval_runtime": 42.2398,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 12100
    },
    {
      "epoch": 0.2425,
      "grad_norm": 2.317352818958468,
      "learning_rate": 8.41688888888889e-06,
      "loss": 2.5272,
      "step": 12125
    },
    {
      "epoch": 0.243,
      "grad_norm": 2.3625174954143717,
      "learning_rate": 8.411333333333334e-06,
      "loss": 2.5341,
      "step": 12150
    },
    {
      "epoch": 0.2435,
      "grad_norm": 2.385583283955561,
      "learning_rate": 8.405777777777779e-06,
      "loss": 2.5252,
      "step": 12175
    },
    {
      "epoch": 0.244,
      "grad_norm": 2.216512817161135,
      "learning_rate": 8.400222222222222e-06,
      "loss": 2.53,
      "step": 12200
    },
    {
      "epoch": 0.244,
      "eval_loss": 2.537409782409668,
      "eval_runtime": 43.0155,
      "eval_samples_per_second": 2.418,
      "eval_steps_per_second": 1.209,
      "step": 12200
    },
    {
      "epoch": 0.2445,
      "grad_norm": 2.851691032693815,
      "learning_rate": 8.394666666666668e-06,
      "loss": 2.5409,
      "step": 12225
    },
    {
      "epoch": 0.245,
      "grad_norm": 2.3667554446376085,
      "learning_rate": 8.389111111111113e-06,
      "loss": 2.5268,
      "step": 12250
    },
    {
      "epoch": 0.2455,
      "grad_norm": 2.1930831286302896,
      "learning_rate": 8.383555555555557e-06,
      "loss": 2.5308,
      "step": 12275
    },
    {
      "epoch": 0.246,
      "grad_norm": 2.4644858889937824,
      "learning_rate": 8.378e-06,
      "loss": 2.5279,
      "step": 12300
    },
    {
      "epoch": 0.246,
      "eval_loss": 2.537409782409668,
      "eval_runtime": 42.0899,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 12300
    },
    {
      "epoch": 0.2465,
      "grad_norm": 2.6684093247331555,
      "learning_rate": 8.372444444444445e-06,
      "loss": 2.5263,
      "step": 12325
    },
    {
      "epoch": 0.247,
      "grad_norm": 1.9552978346665313,
      "learning_rate": 8.36688888888889e-06,
      "loss": 2.5228,
      "step": 12350
    },
    {
      "epoch": 0.2475,
      "grad_norm": 2.8273236400537294,
      "learning_rate": 8.361333333333334e-06,
      "loss": 2.5305,
      "step": 12375
    },
    {
      "epoch": 0.248,
      "grad_norm": 2.052357534814466,
      "learning_rate": 8.355777777777778e-06,
      "loss": 2.5193,
      "step": 12400
    },
    {
      "epoch": 0.248,
      "eval_loss": 2.535456657409668,
      "eval_runtime": 42.1653,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 12400
    },
    {
      "epoch": 0.2485,
      "grad_norm": 2.410408330063049,
      "learning_rate": 8.350222222222223e-06,
      "loss": 2.5269,
      "step": 12425
    },
    {
      "epoch": 0.249,
      "grad_norm": 1.784156472071755,
      "learning_rate": 8.344666666666668e-06,
      "loss": 2.5258,
      "step": 12450
    },
    {
      "epoch": 0.2495,
      "grad_norm": 2.6880708020978368,
      "learning_rate": 8.339111111111112e-06,
      "loss": 2.5298,
      "step": 12475
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.2030168810534922,
      "learning_rate": 8.333555555555555e-06,
      "loss": 2.5201,
      "step": 12500
    },
    {
      "epoch": 0.25,
      "eval_loss": 2.535832405090332,
      "eval_runtime": 42.0482,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.237,
      "step": 12500
    },
    {
      "epoch": 0.2505,
      "grad_norm": 2.019140906115923,
      "learning_rate": 8.328e-06,
      "loss": 2.5241,
      "step": 12525
    },
    {
      "epoch": 0.251,
      "grad_norm": 1.9012303831260067,
      "learning_rate": 8.322444444444446e-06,
      "loss": 2.5354,
      "step": 12550
    },
    {
      "epoch": 0.2515,
      "grad_norm": 1.7607101331370496,
      "learning_rate": 8.31688888888889e-06,
      "loss": 2.5254,
      "step": 12575
    },
    {
      "epoch": 0.252,
      "grad_norm": 2.5505055208286933,
      "learning_rate": 8.311333333333333e-06,
      "loss": 2.5294,
      "step": 12600
    },
    {
      "epoch": 0.252,
      "eval_loss": 2.535231351852417,
      "eval_runtime": 41.9731,
      "eval_samples_per_second": 2.478,
      "eval_steps_per_second": 1.239,
      "step": 12600
    },
    {
      "epoch": 0.2525,
      "grad_norm": 1.6218420390627293,
      "learning_rate": 8.305777777777778e-06,
      "loss": 2.5262,
      "step": 12625
    },
    {
      "epoch": 0.253,
      "grad_norm": 2.0991897222525115,
      "learning_rate": 8.300222222222223e-06,
      "loss": 2.5206,
      "step": 12650
    },
    {
      "epoch": 0.2535,
      "grad_norm": 2.478785246720621,
      "learning_rate": 8.294666666666667e-06,
      "loss": 2.5275,
      "step": 12675
    },
    {
      "epoch": 0.254,
      "grad_norm": 2.141371973093057,
      "learning_rate": 8.289111111111112e-06,
      "loss": 2.5323,
      "step": 12700
    },
    {
      "epoch": 0.254,
      "eval_loss": 2.5341796875,
      "eval_runtime": 42.2622,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.23,
      "step": 12700
    },
    {
      "epoch": 0.2545,
      "grad_norm": 2.269733740633448,
      "learning_rate": 8.283555555555556e-06,
      "loss": 2.5367,
      "step": 12725
    },
    {
      "epoch": 0.255,
      "grad_norm": 1.893617133257015,
      "learning_rate": 8.278000000000001e-06,
      "loss": 2.5257,
      "step": 12750
    },
    {
      "epoch": 0.2555,
      "grad_norm": 1.751381032940087,
      "learning_rate": 8.272444444444445e-06,
      "loss": 2.5276,
      "step": 12775
    },
    {
      "epoch": 0.256,
      "grad_norm": 2.6264391487699545,
      "learning_rate": 8.26688888888889e-06,
      "loss": 2.5281,
      "step": 12800
    },
    {
      "epoch": 0.256,
      "eval_loss": 2.534780740737915,
      "eval_runtime": 42.0037,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 12800
    },
    {
      "epoch": 0.2565,
      "grad_norm": 2.9544216590918766,
      "learning_rate": 8.261333333333335e-06,
      "loss": 2.5159,
      "step": 12825
    },
    {
      "epoch": 0.257,
      "grad_norm": 1.703574826031134,
      "learning_rate": 8.255777777777779e-06,
      "loss": 2.5314,
      "step": 12850
    },
    {
      "epoch": 0.2575,
      "grad_norm": 2.23456733038464,
      "learning_rate": 8.250222222222222e-06,
      "loss": 2.5301,
      "step": 12875
    },
    {
      "epoch": 0.258,
      "grad_norm": 2.0236952351089132,
      "learning_rate": 8.244666666666667e-06,
      "loss": 2.5274,
      "step": 12900
    },
    {
      "epoch": 0.258,
      "eval_loss": 2.532827615737915,
      "eval_runtime": 42.2742,
      "eval_samples_per_second": 2.46,
      "eval_steps_per_second": 1.23,
      "step": 12900
    },
    {
      "epoch": 0.2585,
      "grad_norm": 1.9175658573019432,
      "learning_rate": 8.239111111111113e-06,
      "loss": 2.5293,
      "step": 12925
    },
    {
      "epoch": 0.259,
      "grad_norm": 2.227745372848629,
      "learning_rate": 8.233555555555556e-06,
      "loss": 2.5346,
      "step": 12950
    },
    {
      "epoch": 0.2595,
      "grad_norm": 2.0320264112024375,
      "learning_rate": 8.228e-06,
      "loss": 2.5133,
      "step": 12975
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.3254627331546636,
      "learning_rate": 8.222444444444445e-06,
      "loss": 2.5257,
      "step": 13000
    },
    {
      "epoch": 0.26,
      "eval_loss": 2.532376766204834,
      "eval_runtime": 42.0555,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 13000
    },
    {
      "epoch": 0.2605,
      "grad_norm": 1.9492007310542454,
      "learning_rate": 8.21688888888889e-06,
      "loss": 2.5246,
      "step": 13025
    },
    {
      "epoch": 0.261,
      "grad_norm": 2.3076187120913105,
      "learning_rate": 8.211333333333334e-06,
      "loss": 2.5287,
      "step": 13050
    },
    {
      "epoch": 0.2615,
      "grad_norm": 1.8076829520267466,
      "learning_rate": 8.205777777777777e-06,
      "loss": 2.5161,
      "step": 13075
    },
    {
      "epoch": 0.262,
      "grad_norm": 2.272592798843781,
      "learning_rate": 8.200222222222223e-06,
      "loss": 2.5272,
      "step": 13100
    },
    {
      "epoch": 0.262,
      "eval_loss": 2.532526969909668,
      "eval_runtime": 42.2261,
      "eval_samples_per_second": 2.463,
      "eval_steps_per_second": 1.231,
      "step": 13100
    },
    {
      "epoch": 0.2625,
      "grad_norm": 2.249412616356025,
      "learning_rate": 8.194666666666668e-06,
      "loss": 2.5268,
      "step": 13125
    },
    {
      "epoch": 0.263,
      "grad_norm": 2.054677758627288,
      "learning_rate": 8.189111111111111e-06,
      "loss": 2.5232,
      "step": 13150
    },
    {
      "epoch": 0.2635,
      "grad_norm": 2.3525307448487545,
      "learning_rate": 8.183555555555555e-06,
      "loss": 2.5186,
      "step": 13175
    },
    {
      "epoch": 0.264,
      "grad_norm": 2.0816994586757294,
      "learning_rate": 8.178e-06,
      "loss": 2.5249,
      "step": 13200
    },
    {
      "epoch": 0.264,
      "eval_loss": 2.531926155090332,
      "eval_runtime": 42.1448,
      "eval_samples_per_second": 2.468,
      "eval_steps_per_second": 1.234,
      "step": 13200
    },
    {
      "epoch": 0.2645,
      "grad_norm": 1.8771257650501383,
      "learning_rate": 8.172444444444446e-06,
      "loss": 2.5185,
      "step": 13225
    },
    {
      "epoch": 0.265,
      "grad_norm": 3.015360724178772,
      "learning_rate": 8.166888888888889e-06,
      "loss": 2.5236,
      "step": 13250
    },
    {
      "epoch": 0.2655,
      "grad_norm": 2.809533897542425,
      "learning_rate": 8.161333333333334e-06,
      "loss": 2.5207,
      "step": 13275
    },
    {
      "epoch": 0.266,
      "grad_norm": 2.0578110863684307,
      "learning_rate": 8.155777777777778e-06,
      "loss": 2.5133,
      "step": 13300
    },
    {
      "epoch": 0.266,
      "eval_loss": 2.531550407409668,
      "eval_runtime": 42.4297,
      "eval_samples_per_second": 2.451,
      "eval_steps_per_second": 1.226,
      "step": 13300
    },
    {
      "epoch": 0.2665,
      "grad_norm": 2.0416241200876533,
      "learning_rate": 8.150222222222223e-06,
      "loss": 2.5174,
      "step": 13325
    },
    {
      "epoch": 0.267,
      "grad_norm": 2.208631750373162,
      "learning_rate": 8.144666666666667e-06,
      "loss": 2.5218,
      "step": 13350
    },
    {
      "epoch": 0.2675,
      "grad_norm": 2.28882872372725,
      "learning_rate": 8.139111111111112e-06,
      "loss": 2.5249,
      "step": 13375
    },
    {
      "epoch": 0.268,
      "grad_norm": 2.0364230232228233,
      "learning_rate": 8.133555555555557e-06,
      "loss": 2.5235,
      "step": 13400
    },
    {
      "epoch": 0.268,
      "eval_loss": 2.530423641204834,
      "eval_runtime": 42.078,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 13400
    },
    {
      "epoch": 0.2685,
      "grad_norm": 2.6248839843381266,
      "learning_rate": 8.128e-06,
      "loss": 2.5163,
      "step": 13425
    },
    {
      "epoch": 0.269,
      "grad_norm": 1.7874079388176,
      "learning_rate": 8.122444444444444e-06,
      "loss": 2.5321,
      "step": 13450
    },
    {
      "epoch": 0.2695,
      "grad_norm": 2.464203238277693,
      "learning_rate": 8.11688888888889e-06,
      "loss": 2.5194,
      "step": 13475
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.120977146291401,
      "learning_rate": 8.111333333333335e-06,
      "loss": 2.5206,
      "step": 13500
    },
    {
      "epoch": 0.27,
      "eval_loss": 2.530874490737915,
      "eval_runtime": 42.0694,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 13500
    },
    {
      "epoch": 0.2705,
      "grad_norm": 2.1455954231359193,
      "learning_rate": 8.105777777777778e-06,
      "loss": 2.5175,
      "step": 13525
    },
    {
      "epoch": 0.271,
      "grad_norm": 2.139148836070426,
      "learning_rate": 8.100222222222222e-06,
      "loss": 2.5274,
      "step": 13550
    },
    {
      "epoch": 0.2715,
      "grad_norm": 2.79028405854528,
      "learning_rate": 8.094666666666667e-06,
      "loss": 2.5231,
      "step": 13575
    },
    {
      "epoch": 0.272,
      "grad_norm": 2.1128072564088227,
      "learning_rate": 8.089111111111112e-06,
      "loss": 2.5278,
      "step": 13600
    },
    {
      "epoch": 0.272,
      "eval_loss": 2.530573844909668,
      "eval_runtime": 42.0442,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 13600
    },
    {
      "epoch": 0.2725,
      "grad_norm": 2.3629134301910044,
      "learning_rate": 8.083555555555556e-06,
      "loss": 2.5214,
      "step": 13625
    },
    {
      "epoch": 0.273,
      "grad_norm": 1.8871218393029536,
      "learning_rate": 8.078e-06,
      "loss": 2.5068,
      "step": 13650
    },
    {
      "epoch": 0.2735,
      "grad_norm": 1.9782214927434483,
      "learning_rate": 8.072444444444445e-06,
      "loss": 2.5243,
      "step": 13675
    },
    {
      "epoch": 0.274,
      "grad_norm": 2.6328648420185927,
      "learning_rate": 8.06688888888889e-06,
      "loss": 2.5228,
      "step": 13700
    },
    {
      "epoch": 0.274,
      "eval_loss": 2.530573844909668,
      "eval_runtime": 42.1498,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 13700
    },
    {
      "epoch": 0.2745,
      "grad_norm": 1.7018004256507808,
      "learning_rate": 8.061333333333334e-06,
      "loss": 2.5178,
      "step": 13725
    },
    {
      "epoch": 0.275,
      "grad_norm": 1.9267466735782932,
      "learning_rate": 8.055777777777777e-06,
      "loss": 2.5079,
      "step": 13750
    },
    {
      "epoch": 0.2755,
      "grad_norm": 2.2443788597292778,
      "learning_rate": 8.050222222222222e-06,
      "loss": 2.5213,
      "step": 13775
    },
    {
      "epoch": 0.276,
      "grad_norm": 2.873399914185342,
      "learning_rate": 8.044666666666668e-06,
      "loss": 2.5212,
      "step": 13800
    },
    {
      "epoch": 0.276,
      "eval_loss": 2.529296875,
      "eval_runtime": 42.1115,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 13800
    },
    {
      "epoch": 0.2765,
      "grad_norm": 2.794454715063574,
      "learning_rate": 8.039111111111111e-06,
      "loss": 2.523,
      "step": 13825
    },
    {
      "epoch": 0.277,
      "grad_norm": 2.2530766498680244,
      "learning_rate": 8.033555555555556e-06,
      "loss": 2.5195,
      "step": 13850
    },
    {
      "epoch": 0.2775,
      "grad_norm": 2.357725394975894,
      "learning_rate": 8.028e-06,
      "loss": 2.509,
      "step": 13875
    },
    {
      "epoch": 0.278,
      "grad_norm": 1.896374018977524,
      "learning_rate": 8.022444444444445e-06,
      "loss": 2.5246,
      "step": 13900
    },
    {
      "epoch": 0.278,
      "eval_loss": 2.527794361114502,
      "eval_runtime": 42.2006,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 13900
    },
    {
      "epoch": 0.2785,
      "grad_norm": 1.9716064978040044,
      "learning_rate": 8.016888888888889e-06,
      "loss": 2.5325,
      "step": 13925
    },
    {
      "epoch": 0.279,
      "grad_norm": 2.113859123339066,
      "learning_rate": 8.011333333333334e-06,
      "loss": 2.5452,
      "step": 13950
    },
    {
      "epoch": 0.2795,
      "grad_norm": 1.802172403266005,
      "learning_rate": 8.00577777777778e-06,
      "loss": 2.5261,
      "step": 13975
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.6938868697398992,
      "learning_rate": 8.000222222222223e-06,
      "loss": 2.5194,
      "step": 14000
    },
    {
      "epoch": 0.28,
      "eval_loss": 2.527418851852417,
      "eval_runtime": 42.0495,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.237,
      "step": 14000
    },
    {
      "epoch": 0.2805,
      "grad_norm": 1.9206155343848852,
      "learning_rate": 7.994666666666666e-06,
      "loss": 2.5174,
      "step": 14025
    },
    {
      "epoch": 0.281,
      "grad_norm": 1.9163670696164357,
      "learning_rate": 7.989111111111112e-06,
      "loss": 2.5218,
      "step": 14050
    },
    {
      "epoch": 0.2815,
      "grad_norm": 2.1957343559480282,
      "learning_rate": 7.983555555555557e-06,
      "loss": 2.5142,
      "step": 14075
    },
    {
      "epoch": 0.282,
      "grad_norm": 2.9005827138609384,
      "learning_rate": 7.978e-06,
      "loss": 2.5155,
      "step": 14100
    },
    {
      "epoch": 0.282,
      "eval_loss": 2.528921365737915,
      "eval_runtime": 42.2668,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.23,
      "step": 14100
    },
    {
      "epoch": 0.2825,
      "grad_norm": 4.884030765991706,
      "learning_rate": 7.972444444444444e-06,
      "loss": 2.5143,
      "step": 14125
    },
    {
      "epoch": 0.283,
      "grad_norm": 2.0081632524431554,
      "learning_rate": 7.96688888888889e-06,
      "loss": 2.5172,
      "step": 14150
    },
    {
      "epoch": 0.2835,
      "grad_norm": 2.3165975884171486,
      "learning_rate": 7.961333333333335e-06,
      "loss": 2.5233,
      "step": 14175
    },
    {
      "epoch": 0.284,
      "grad_norm": 2.005489337596923,
      "learning_rate": 7.955777777777778e-06,
      "loss": 2.5157,
      "step": 14200
    },
    {
      "epoch": 0.284,
      "eval_loss": 2.527418851852417,
      "eval_runtime": 42.0837,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.236,
      "step": 14200
    },
    {
      "epoch": 0.2845,
      "grad_norm": 2.303681854850733,
      "learning_rate": 7.950222222222222e-06,
      "loss": 2.5172,
      "step": 14225
    },
    {
      "epoch": 0.285,
      "grad_norm": 2.2641902611937668,
      "learning_rate": 7.944666666666667e-06,
      "loss": 2.5231,
      "step": 14250
    },
    {
      "epoch": 0.2855,
      "grad_norm": 2.387021962258487,
      "learning_rate": 7.939111111111112e-06,
      "loss": 2.5212,
      "step": 14275
    },
    {
      "epoch": 0.286,
      "grad_norm": 2.544895006524076,
      "learning_rate": 7.933555555555556e-06,
      "loss": 2.5145,
      "step": 14300
    },
    {
      "epoch": 0.286,
      "eval_loss": 2.526592493057251,
      "eval_runtime": 44.9666,
      "eval_samples_per_second": 2.313,
      "eval_steps_per_second": 1.156,
      "step": 14300
    },
    {
      "epoch": 0.2865,
      "grad_norm": 2.472331608658759,
      "learning_rate": 7.928e-06,
      "loss": 2.5201,
      "step": 14325
    },
    {
      "epoch": 0.287,
      "grad_norm": 1.9064183491076525,
      "learning_rate": 7.922444444444445e-06,
      "loss": 2.5229,
      "step": 14350
    },
    {
      "epoch": 0.2875,
      "grad_norm": 2.3050539823905285,
      "learning_rate": 7.91688888888889e-06,
      "loss": 2.5228,
      "step": 14375
    },
    {
      "epoch": 0.288,
      "grad_norm": 2.214319723588106,
      "learning_rate": 7.911333333333333e-06,
      "loss": 2.534,
      "step": 14400
    },
    {
      "epoch": 0.288,
      "eval_loss": 2.526817798614502,
      "eval_runtime": 42.0616,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 14400
    },
    {
      "epoch": 0.2885,
      "grad_norm": 2.1428403670979943,
      "learning_rate": 7.905777777777779e-06,
      "loss": 2.522,
      "step": 14425
    },
    {
      "epoch": 0.289,
      "grad_norm": 2.263936323826227,
      "learning_rate": 7.900222222222222e-06,
      "loss": 2.5206,
      "step": 14450
    },
    {
      "epoch": 0.2895,
      "grad_norm": 2.075645640857708,
      "learning_rate": 7.894666666666667e-06,
      "loss": 2.5352,
      "step": 14475
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.8902386684163655,
      "learning_rate": 7.889111111111113e-06,
      "loss": 2.5251,
      "step": 14500
    },
    {
      "epoch": 0.29,
      "eval_loss": 2.525615930557251,
      "eval_runtime": 42.0095,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 14500
    },
    {
      "epoch": 0.2905,
      "grad_norm": 2.3355641284029467,
      "learning_rate": 7.883555555555556e-06,
      "loss": 2.5174,
      "step": 14525
    },
    {
      "epoch": 0.291,
      "grad_norm": 2.1495485890182975,
      "learning_rate": 7.878e-06,
      "loss": 2.5179,
      "step": 14550
    },
    {
      "epoch": 0.2915,
      "grad_norm": 1.7404099071460826,
      "learning_rate": 7.872444444444445e-06,
      "loss": 2.5213,
      "step": 14575
    },
    {
      "epoch": 0.292,
      "grad_norm": 2.1088011783758214,
      "learning_rate": 7.86688888888889e-06,
      "loss": 2.5291,
      "step": 14600
    },
    {
      "epoch": 0.292,
      "eval_loss": 2.526817798614502,
      "eval_runtime": 42.1137,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 14600
    },
    {
      "epoch": 0.2925,
      "grad_norm": 1.9191582836450942,
      "learning_rate": 7.861333333333334e-06,
      "loss": 2.5136,
      "step": 14625
    },
    {
      "epoch": 0.293,
      "grad_norm": 2.170187142648467,
      "learning_rate": 7.855777777777779e-06,
      "loss": 2.5154,
      "step": 14650
    },
    {
      "epoch": 0.2935,
      "grad_norm": 2.1827849490324818,
      "learning_rate": 7.850222222222223e-06,
      "loss": 2.5148,
      "step": 14675
    },
    {
      "epoch": 0.294,
      "grad_norm": 1.8889045711310728,
      "learning_rate": 7.844666666666668e-06,
      "loss": 2.5243,
      "step": 14700
    },
    {
      "epoch": 0.294,
      "eval_loss": 2.524789571762085,
      "eval_runtime": 42.2043,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 14700
    },
    {
      "epoch": 0.2945,
      "grad_norm": 2.300765480762392,
      "learning_rate": 7.839111111111111e-06,
      "loss": 2.5113,
      "step": 14725
    },
    {
      "epoch": 0.295,
      "grad_norm": 1.8592375512863117,
      "learning_rate": 7.833555555555557e-06,
      "loss": 2.5035,
      "step": 14750
    },
    {
      "epoch": 0.2955,
      "grad_norm": 2.1320059866269947,
      "learning_rate": 7.828000000000002e-06,
      "loss": 2.5211,
      "step": 14775
    },
    {
      "epoch": 0.296,
      "grad_norm": 2.092097277863368,
      "learning_rate": 7.822444444444446e-06,
      "loss": 2.5317,
      "step": 14800
    },
    {
      "epoch": 0.296,
      "eval_loss": 2.525165319442749,
      "eval_runtime": 42.1155,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.235,
      "step": 14800
    },
    {
      "epoch": 0.2965,
      "grad_norm": 1.7110558968692005,
      "learning_rate": 7.816888888888889e-06,
      "loss": 2.5205,
      "step": 14825
    },
    {
      "epoch": 0.297,
      "grad_norm": 1.8877376829331443,
      "learning_rate": 7.811333333333334e-06,
      "loss": 2.5233,
      "step": 14850
    },
    {
      "epoch": 0.2975,
      "grad_norm": 1.8557712187316577,
      "learning_rate": 7.80577777777778e-06,
      "loss": 2.5174,
      "step": 14875
    },
    {
      "epoch": 0.298,
      "grad_norm": 2.9009616943521617,
      "learning_rate": 7.800222222222223e-06,
      "loss": 2.5193,
      "step": 14900
    },
    {
      "epoch": 0.298,
      "eval_loss": 2.523963451385498,
      "eval_runtime": 41.9998,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 14900
    },
    {
      "epoch": 0.2985,
      "grad_norm": 1.9360195788547445,
      "learning_rate": 7.794666666666667e-06,
      "loss": 2.5162,
      "step": 14925
    },
    {
      "epoch": 0.299,
      "grad_norm": 1.7031958167435228,
      "learning_rate": 7.789111111111112e-06,
      "loss": 2.5234,
      "step": 14950
    },
    {
      "epoch": 0.2995,
      "grad_norm": 1.993394395232149,
      "learning_rate": 7.783555555555557e-06,
      "loss": 2.511,
      "step": 14975
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.830102522975684,
      "learning_rate": 7.778e-06,
      "loss": 2.5105,
      "step": 15000
    },
    {
      "epoch": 0.3,
      "eval_loss": 2.524489164352417,
      "eval_runtime": 41.9815,
      "eval_samples_per_second": 2.477,
      "eval_steps_per_second": 1.239,
      "step": 15000
    },
    {
      "epoch": 0.3005,
      "grad_norm": 2.0436120564987115,
      "learning_rate": 7.772444444444444e-06,
      "loss": 2.5124,
      "step": 15025
    },
    {
      "epoch": 0.301,
      "grad_norm": 1.9219241308919925,
      "learning_rate": 7.76688888888889e-06,
      "loss": 2.521,
      "step": 15050
    },
    {
      "epoch": 0.3015,
      "grad_norm": 1.976472351053411,
      "learning_rate": 7.761333333333335e-06,
      "loss": 2.5201,
      "step": 15075
    },
    {
      "epoch": 0.302,
      "grad_norm": 2.361771616579668,
      "learning_rate": 7.755777777777778e-06,
      "loss": 2.5284,
      "step": 15100
    },
    {
      "epoch": 0.302,
      "eval_loss": 2.523061990737915,
      "eval_runtime": 42.0005,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 15100
    },
    {
      "epoch": 0.3025,
      "grad_norm": 2.1746537767770566,
      "learning_rate": 7.750222222222222e-06,
      "loss": 2.5103,
      "step": 15125
    },
    {
      "epoch": 0.303,
      "grad_norm": 1.78504965116489,
      "learning_rate": 7.744666666666667e-06,
      "loss": 2.5223,
      "step": 15150
    },
    {
      "epoch": 0.3035,
      "grad_norm": 2.06150659134149,
      "learning_rate": 7.739111111111112e-06,
      "loss": 2.5089,
      "step": 15175
    },
    {
      "epoch": 0.304,
      "grad_norm": 2.3381296024088907,
      "learning_rate": 7.733555555555556e-06,
      "loss": 2.517,
      "step": 15200
    },
    {
      "epoch": 0.304,
      "eval_loss": 2.522385835647583,
      "eval_runtime": 42.0432,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 15200
    },
    {
      "epoch": 0.3045,
      "grad_norm": 2.3792958985671837,
      "learning_rate": 7.728000000000001e-06,
      "loss": 2.5106,
      "step": 15225
    },
    {
      "epoch": 0.305,
      "grad_norm": 1.8975959016774784,
      "learning_rate": 7.722444444444445e-06,
      "loss": 2.5141,
      "step": 15250
    },
    {
      "epoch": 0.3055,
      "grad_norm": 1.881493964703112,
      "learning_rate": 7.71688888888889e-06,
      "loss": 2.5128,
      "step": 15275
    },
    {
      "epoch": 0.306,
      "grad_norm": 2.5954586690019044,
      "learning_rate": 7.711333333333334e-06,
      "loss": 2.519,
      "step": 15300
    },
    {
      "epoch": 0.306,
      "eval_loss": 2.521934986114502,
      "eval_runtime": 42.0934,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 15300
    },
    {
      "epoch": 0.3065,
      "grad_norm": 2.6009175102257642,
      "learning_rate": 7.705777777777779e-06,
      "loss": 2.5217,
      "step": 15325
    },
    {
      "epoch": 0.307,
      "grad_norm": 2.188090613081598,
      "learning_rate": 7.700222222222224e-06,
      "loss": 2.5154,
      "step": 15350
    },
    {
      "epoch": 0.3075,
      "grad_norm": 2.554678491169772,
      "learning_rate": 7.694666666666668e-06,
      "loss": 2.5124,
      "step": 15375
    },
    {
      "epoch": 0.308,
      "grad_norm": 2.0520868506997907,
      "learning_rate": 7.689111111111111e-06,
      "loss": 2.5117,
      "step": 15400
    },
    {
      "epoch": 0.308,
      "eval_loss": 2.521634578704834,
      "eval_runtime": 42.1517,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 15400
    },
    {
      "epoch": 0.3085,
      "grad_norm": 1.8869916857975375,
      "learning_rate": 7.683555555555556e-06,
      "loss": 2.517,
      "step": 15425
    },
    {
      "epoch": 0.309,
      "grad_norm": 1.7246402114440813,
      "learning_rate": 7.678000000000002e-06,
      "loss": 2.511,
      "step": 15450
    },
    {
      "epoch": 0.3095,
      "grad_norm": 1.8936796431629073,
      "learning_rate": 7.672444444444445e-06,
      "loss": 2.5148,
      "step": 15475
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.8697695642971626,
      "learning_rate": 7.666888888888889e-06,
      "loss": 2.524,
      "step": 15500
    },
    {
      "epoch": 0.31,
      "eval_loss": 2.521484375,
      "eval_runtime": 45.1493,
      "eval_samples_per_second": 2.303,
      "eval_steps_per_second": 1.152,
      "step": 15500
    },
    {
      "epoch": 0.3105,
      "grad_norm": 2.4049785767023137,
      "learning_rate": 7.661333333333334e-06,
      "loss": 2.5139,
      "step": 15525
    },
    {
      "epoch": 0.311,
      "grad_norm": 2.3114390798535114,
      "learning_rate": 7.65577777777778e-06,
      "loss": 2.5118,
      "step": 15550
    },
    {
      "epoch": 0.3115,
      "grad_norm": 1.8798560983068835,
      "learning_rate": 7.650222222222223e-06,
      "loss": 2.5175,
      "step": 15575
    },
    {
      "epoch": 0.312,
      "grad_norm": 2.178491283142358,
      "learning_rate": 7.644666666666666e-06,
      "loss": 2.5164,
      "step": 15600
    },
    {
      "epoch": 0.312,
      "eval_loss": 2.520582914352417,
      "eval_runtime": 42.1294,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.234,
      "step": 15600
    },
    {
      "epoch": 0.3125,
      "grad_norm": 1.9413529565750491,
      "learning_rate": 7.639111111111112e-06,
      "loss": 2.5223,
      "step": 15625
    },
    {
      "epoch": 0.313,
      "grad_norm": 1.8503364133298008,
      "learning_rate": 7.633555555555557e-06,
      "loss": 2.5194,
      "step": 15650
    },
    {
      "epoch": 0.3135,
      "grad_norm": 1.7716422632022657,
      "learning_rate": 7.628000000000001e-06,
      "loss": 2.5345,
      "step": 15675
    },
    {
      "epoch": 0.314,
      "grad_norm": 1.962523250305579,
      "learning_rate": 7.622444444444445e-06,
      "loss": 2.5117,
      "step": 15700
    },
    {
      "epoch": 0.314,
      "eval_loss": 2.520282506942749,
      "eval_runtime": 42.1641,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.233,
      "step": 15700
    },
    {
      "epoch": 0.3145,
      "grad_norm": 2.1086737683635977,
      "learning_rate": 7.616888888888889e-06,
      "loss": 2.5158,
      "step": 15725
    },
    {
      "epoch": 0.315,
      "grad_norm": 2.111826545832905,
      "learning_rate": 7.611333333333334e-06,
      "loss": 2.5156,
      "step": 15750
    },
    {
      "epoch": 0.3155,
      "grad_norm": 2.01347469257081,
      "learning_rate": 7.605777777777779e-06,
      "loss": 2.5072,
      "step": 15775
    },
    {
      "epoch": 0.316,
      "grad_norm": 2.078425236676423,
      "learning_rate": 7.600222222222223e-06,
      "loss": 2.5195,
      "step": 15800
    },
    {
      "epoch": 0.316,
      "eval_loss": 2.520132303237915,
      "eval_runtime": 42.1424,
      "eval_samples_per_second": 2.468,
      "eval_steps_per_second": 1.234,
      "step": 15800
    },
    {
      "epoch": 0.3165,
      "grad_norm": 1.8363678584905914,
      "learning_rate": 7.594666666666667e-06,
      "loss": 2.5176,
      "step": 15825
    },
    {
      "epoch": 0.317,
      "grad_norm": 1.7632726597499968,
      "learning_rate": 7.589111111111111e-06,
      "loss": 2.5235,
      "step": 15850
    },
    {
      "epoch": 0.3175,
      "grad_norm": 1.7730192616298444,
      "learning_rate": 7.5835555555555566e-06,
      "loss": 2.5244,
      "step": 15875
    },
    {
      "epoch": 0.318,
      "grad_norm": 1.5938950015599187,
      "learning_rate": 7.578000000000001e-06,
      "loss": 2.5049,
      "step": 15900
    },
    {
      "epoch": 0.318,
      "eval_loss": 2.519681453704834,
      "eval_runtime": 42.1048,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 15900
    },
    {
      "epoch": 0.3185,
      "grad_norm": 2.0317467178650093,
      "learning_rate": 7.572444444444445e-06,
      "loss": 2.5157,
      "step": 15925
    },
    {
      "epoch": 0.319,
      "grad_norm": 2.0761520516316025,
      "learning_rate": 7.566888888888889e-06,
      "loss": 2.5107,
      "step": 15950
    },
    {
      "epoch": 0.3195,
      "grad_norm": 1.9535394032301723,
      "learning_rate": 7.561333333333334e-06,
      "loss": 2.4988,
      "step": 15975
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.8350655903073643,
      "learning_rate": 7.555777777777779e-06,
      "loss": 2.5113,
      "step": 16000
    },
    {
      "epoch": 0.32,
      "eval_loss": 2.518930196762085,
      "eval_runtime": 42.0513,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.237,
      "step": 16000
    },
    {
      "epoch": 0.3205,
      "grad_norm": 2.3917840211305372,
      "learning_rate": 7.550222222222223e-06,
      "loss": 2.5181,
      "step": 16025
    },
    {
      "epoch": 0.321,
      "grad_norm": 2.574323856887343,
      "learning_rate": 7.5446666666666665e-06,
      "loss": 2.5229,
      "step": 16050
    },
    {
      "epoch": 0.3215,
      "grad_norm": 1.7530018700037047,
      "learning_rate": 7.539111111111112e-06,
      "loss": 2.5272,
      "step": 16075
    },
    {
      "epoch": 0.322,
      "grad_norm": 2.7182387096008727,
      "learning_rate": 7.533555555555556e-06,
      "loss": 2.5204,
      "step": 16100
    },
    {
      "epoch": 0.322,
      "eval_loss": 2.518479585647583,
      "eval_runtime": 42.1171,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.235,
      "step": 16100
    },
    {
      "epoch": 0.3225,
      "grad_norm": 1.901789317840353,
      "learning_rate": 7.528000000000001e-06,
      "loss": 2.5148,
      "step": 16125
    },
    {
      "epoch": 0.323,
      "grad_norm": 2.025759760067275,
      "learning_rate": 7.522444444444446e-06,
      "loss": 2.5259,
      "step": 16150
    },
    {
      "epoch": 0.3235,
      "grad_norm": 2.9484639788139284,
      "learning_rate": 7.516888888888889e-06,
      "loss": 2.5238,
      "step": 16175
    },
    {
      "epoch": 0.324,
      "grad_norm": 1.9706332715462684,
      "learning_rate": 7.511333333333334e-06,
      "loss": 2.5049,
      "step": 16200
    },
    {
      "epoch": 0.324,
      "eval_loss": 2.517503023147583,
      "eval_runtime": 42.1957,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.232,
      "step": 16200
    },
    {
      "epoch": 0.3245,
      "grad_norm": 1.9933943635777756,
      "learning_rate": 7.505777777777778e-06,
      "loss": 2.5112,
      "step": 16225
    },
    {
      "epoch": 0.325,
      "grad_norm": 2.05811674372011,
      "learning_rate": 7.5002222222222235e-06,
      "loss": 2.5075,
      "step": 16250
    },
    {
      "epoch": 0.3255,
      "grad_norm": 1.7082380703631432,
      "learning_rate": 7.494666666666667e-06,
      "loss": 2.5127,
      "step": 16275
    },
    {
      "epoch": 0.326,
      "grad_norm": 2.3312634306846625,
      "learning_rate": 7.4891111111111114e-06,
      "loss": 2.5154,
      "step": 16300
    },
    {
      "epoch": 0.326,
      "eval_loss": 2.517953634262085,
      "eval_runtime": 42.1241,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.234,
      "step": 16300
    },
    {
      "epoch": 0.3265,
      "grad_norm": 2.241757030127593,
      "learning_rate": 7.483555555555556e-06,
      "loss": 2.5191,
      "step": 16325
    },
    {
      "epoch": 0.327,
      "grad_norm": 1.9973869760281289,
      "learning_rate": 7.478000000000001e-06,
      "loss": 2.5039,
      "step": 16350
    },
    {
      "epoch": 0.3275,
      "grad_norm": 2.1863937129234254,
      "learning_rate": 7.4724444444444455e-06,
      "loss": 2.5166,
      "step": 16375
    },
    {
      "epoch": 0.328,
      "grad_norm": 2.2559965835658433,
      "learning_rate": 7.466888888888889e-06,
      "loss": 2.5142,
      "step": 16400
    },
    {
      "epoch": 0.328,
      "eval_loss": 2.517653226852417,
      "eval_runtime": 42.0607,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 16400
    },
    {
      "epoch": 0.3285,
      "grad_norm": 1.965074686227921,
      "learning_rate": 7.4613333333333334e-06,
      "loss": 2.511,
      "step": 16425
    },
    {
      "epoch": 0.329,
      "grad_norm": 1.726687750309682,
      "learning_rate": 7.455777777777779e-06,
      "loss": 2.5073,
      "step": 16450
    },
    {
      "epoch": 0.3295,
      "grad_norm": 2.063369498521408,
      "learning_rate": 7.450222222222223e-06,
      "loss": 2.5163,
      "step": 16475
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.1329147385991365,
      "learning_rate": 7.4446666666666675e-06,
      "loss": 2.5072,
      "step": 16500
    },
    {
      "epoch": 0.33,
      "eval_loss": 2.517202615737915,
      "eval_runtime": 42.0368,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 16500
    },
    {
      "epoch": 0.3305,
      "grad_norm": 1.9936495962847698,
      "learning_rate": 7.439111111111111e-06,
      "loss": 2.5063,
      "step": 16525
    },
    {
      "epoch": 0.331,
      "grad_norm": 1.7467728898868724,
      "learning_rate": 7.433555555555556e-06,
      "loss": 2.5101,
      "step": 16550
    },
    {
      "epoch": 0.3315,
      "grad_norm": 1.7720019591563843,
      "learning_rate": 7.428000000000001e-06,
      "loss": 2.5074,
      "step": 16575
    },
    {
      "epoch": 0.332,
      "grad_norm": 1.6074736525203075,
      "learning_rate": 7.422444444444445e-06,
      "loss": 2.5115,
      "step": 16600
    },
    {
      "epoch": 0.332,
      "eval_loss": 2.517052173614502,
      "eval_runtime": 42.0145,
      "eval_samples_per_second": 2.475,
      "eval_steps_per_second": 1.238,
      "step": 16600
    },
    {
      "epoch": 0.3325,
      "grad_norm": 1.5976271347700126,
      "learning_rate": 7.416888888888889e-06,
      "loss": 2.5111,
      "step": 16625
    },
    {
      "epoch": 0.333,
      "grad_norm": 1.6744673814486986,
      "learning_rate": 7.411333333333334e-06,
      "loss": 2.5046,
      "step": 16650
    },
    {
      "epoch": 0.3335,
      "grad_norm": 1.9997148487188952,
      "learning_rate": 7.405777777777778e-06,
      "loss": 2.5112,
      "step": 16675
    },
    {
      "epoch": 0.334,
      "grad_norm": 1.6683469094296997,
      "learning_rate": 7.400222222222223e-06,
      "loss": 2.5084,
      "step": 16700
    },
    {
      "epoch": 0.334,
      "eval_loss": 2.517503023147583,
      "eval_runtime": 42.1958,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.232,
      "step": 16700
    },
    {
      "epoch": 0.3345,
      "grad_norm": 2.0669387668680543,
      "learning_rate": 7.394666666666668e-06,
      "loss": 2.5046,
      "step": 16725
    },
    {
      "epoch": 0.335,
      "grad_norm": 2.420289515208527,
      "learning_rate": 7.3891111111111115e-06,
      "loss": 2.5185,
      "step": 16750
    },
    {
      "epoch": 0.3355,
      "grad_norm": 1.595680841746304,
      "learning_rate": 7.383555555555556e-06,
      "loss": 2.5051,
      "step": 16775
    },
    {
      "epoch": 0.336,
      "grad_norm": 2.1345704319984664,
      "learning_rate": 7.378e-06,
      "loss": 2.5147,
      "step": 16800
    },
    {
      "epoch": 0.336,
      "eval_loss": 2.516451358795166,
      "eval_runtime": 42.3585,
      "eval_samples_per_second": 2.455,
      "eval_steps_per_second": 1.228,
      "step": 16800
    },
    {
      "epoch": 0.3365,
      "grad_norm": 2.637720523475707,
      "learning_rate": 7.372444444444446e-06,
      "loss": 2.5178,
      "step": 16825
    },
    {
      "epoch": 0.337,
      "grad_norm": 2.5139552719034204,
      "learning_rate": 7.366888888888889e-06,
      "loss": 2.5246,
      "step": 16850
    },
    {
      "epoch": 0.3375,
      "grad_norm": 2.8548940863583767,
      "learning_rate": 7.3613333333333336e-06,
      "loss": 2.5069,
      "step": 16875
    },
    {
      "epoch": 0.338,
      "grad_norm": 1.8307310235009042,
      "learning_rate": 7.355777777777778e-06,
      "loss": 2.5057,
      "step": 16900
    },
    {
      "epoch": 0.338,
      "eval_loss": 2.516000509262085,
      "eval_runtime": 42.1776,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 16900
    },
    {
      "epoch": 0.3385,
      "grad_norm": 1.7066671057483607,
      "learning_rate": 7.350222222222223e-06,
      "loss": 2.5058,
      "step": 16925
    },
    {
      "epoch": 0.339,
      "grad_norm": 2.027630204748659,
      "learning_rate": 7.344666666666668e-06,
      "loss": 2.5013,
      "step": 16950
    },
    {
      "epoch": 0.3395,
      "grad_norm": 1.818417192211672,
      "learning_rate": 7.339111111111111e-06,
      "loss": 2.5078,
      "step": 16975
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.8441719951363813,
      "learning_rate": 7.3335555555555556e-06,
      "loss": 2.5102,
      "step": 17000
    },
    {
      "epoch": 0.34,
      "eval_loss": 2.515625,
      "eval_runtime": 42.1836,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.233,
      "step": 17000
    },
    {
      "epoch": 0.3405,
      "grad_norm": 2.5812460852931394,
      "learning_rate": 7.328000000000001e-06,
      "loss": 2.5102,
      "step": 17025
    },
    {
      "epoch": 0.341,
      "grad_norm": 1.7837946418286326,
      "learning_rate": 7.322444444444445e-06,
      "loss": 2.4983,
      "step": 17050
    },
    {
      "epoch": 0.3415,
      "grad_norm": 2.4469905127529783,
      "learning_rate": 7.31688888888889e-06,
      "loss": 2.5114,
      "step": 17075
    },
    {
      "epoch": 0.342,
      "grad_norm": 1.781597149259476,
      "learning_rate": 7.311333333333334e-06,
      "loss": 2.5262,
      "step": 17100
    },
    {
      "epoch": 0.342,
      "eval_loss": 2.515549898147583,
      "eval_runtime": 42.1298,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.234,
      "step": 17100
    },
    {
      "epoch": 0.3425,
      "grad_norm": 1.9756879995966319,
      "learning_rate": 7.3057777777777784e-06,
      "loss": 2.5096,
      "step": 17125
    },
    {
      "epoch": 0.343,
      "grad_norm": 2.217089243792843,
      "learning_rate": 7.300222222222223e-06,
      "loss": 2.503,
      "step": 17150
    },
    {
      "epoch": 0.3435,
      "grad_norm": 2.0904963092056996,
      "learning_rate": 7.294666666666668e-06,
      "loss": 2.5213,
      "step": 17175
    },
    {
      "epoch": 0.344,
      "grad_norm": 1.75609656882204,
      "learning_rate": 7.289111111111112e-06,
      "loss": 2.5137,
      "step": 17200
    },
    {
      "epoch": 0.344,
      "eval_loss": 2.516451358795166,
      "eval_runtime": 42.1731,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 17200
    },
    {
      "epoch": 0.3445,
      "grad_norm": 1.9799478803379273,
      "learning_rate": 7.283555555555556e-06,
      "loss": 2.5176,
      "step": 17225
    },
    {
      "epoch": 0.345,
      "grad_norm": 2.0588623036824285,
      "learning_rate": 7.2780000000000005e-06,
      "loss": 2.4923,
      "step": 17250
    },
    {
      "epoch": 0.3455,
      "grad_norm": 1.8761307318259903,
      "learning_rate": 7.272444444444446e-06,
      "loss": 2.5002,
      "step": 17275
    },
    {
      "epoch": 0.346,
      "grad_norm": 2.0006810172281173,
      "learning_rate": 7.26688888888889e-06,
      "loss": 2.5099,
      "step": 17300
    },
    {
      "epoch": 0.346,
      "eval_loss": 2.5146484375,
      "eval_runtime": 42.0471,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.237,
      "step": 17300
    },
    {
      "epoch": 0.3465,
      "grad_norm": 1.8979792085400782,
      "learning_rate": 7.261333333333334e-06,
      "loss": 2.4991,
      "step": 17325
    },
    {
      "epoch": 0.347,
      "grad_norm": 2.272654113596227,
      "learning_rate": 7.255777777777778e-06,
      "loss": 2.5002,
      "step": 17350
    },
    {
      "epoch": 0.3475,
      "grad_norm": 1.7116630193206952,
      "learning_rate": 7.250222222222223e-06,
      "loss": 2.487,
      "step": 17375
    },
    {
      "epoch": 0.348,
      "grad_norm": 2.052713135875401,
      "learning_rate": 7.244666666666668e-06,
      "loss": 2.5089,
      "step": 17400
    },
    {
      "epoch": 0.348,
      "eval_loss": 2.515099048614502,
      "eval_runtime": 42.0305,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 17400
    },
    {
      "epoch": 0.3485,
      "grad_norm": 1.8826781724560566,
      "learning_rate": 7.239111111111111e-06,
      "loss": 2.5142,
      "step": 17425
    },
    {
      "epoch": 0.349,
      "grad_norm": 1.7808793194757784,
      "learning_rate": 7.233555555555556e-06,
      "loss": 2.5067,
      "step": 17450
    },
    {
      "epoch": 0.3495,
      "grad_norm": 1.9311062133414862,
      "learning_rate": 7.228000000000001e-06,
      "loss": 2.5047,
      "step": 17475
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.4743755103088487,
      "learning_rate": 7.222444444444445e-06,
      "loss": 2.5075,
      "step": 17500
    },
    {
      "epoch": 0.35,
      "eval_loss": 2.514948844909668,
      "eval_runtime": 42.1309,
      "eval_samples_per_second": 2.468,
      "eval_steps_per_second": 1.234,
      "step": 17500
    },
    {
      "epoch": 0.3505,
      "grad_norm": 1.704716010907641,
      "learning_rate": 7.21688888888889e-06,
      "loss": 2.5096,
      "step": 17525
    },
    {
      "epoch": 0.351,
      "grad_norm": 1.9112484749710794,
      "learning_rate": 7.211333333333333e-06,
      "loss": 2.5174,
      "step": 17550
    },
    {
      "epoch": 0.3515,
      "grad_norm": 2.0756054669985753,
      "learning_rate": 7.2057777777777785e-06,
      "loss": 2.5131,
      "step": 17575
    },
    {
      "epoch": 0.352,
      "grad_norm": 2.141516740782696,
      "learning_rate": 7.200222222222223e-06,
      "loss": 2.5187,
      "step": 17600
    },
    {
      "epoch": 0.352,
      "eval_loss": 2.513746976852417,
      "eval_runtime": 42.2589,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.231,
      "step": 17600
    },
    {
      "epoch": 0.3525,
      "grad_norm": 2.0817180379918456,
      "learning_rate": 7.194666666666667e-06,
      "loss": 2.5033,
      "step": 17625
    },
    {
      "epoch": 0.353,
      "grad_norm": 1.5668371092899054,
      "learning_rate": 7.189111111111111e-06,
      "loss": 2.5005,
      "step": 17650
    },
    {
      "epoch": 0.3535,
      "grad_norm": 1.886507272481958,
      "learning_rate": 7.183555555555556e-06,
      "loss": 2.5128,
      "step": 17675
    },
    {
      "epoch": 0.354,
      "grad_norm": 2.150780731684859,
      "learning_rate": 7.1780000000000006e-06,
      "loss": 2.5082,
      "step": 17700
    },
    {
      "epoch": 0.354,
      "eval_loss": 2.514197826385498,
      "eval_runtime": 42.112,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 17700
    },
    {
      "epoch": 0.3545,
      "grad_norm": 2.006048519626739,
      "learning_rate": 7.172444444444445e-06,
      "loss": 2.4991,
      "step": 17725
    },
    {
      "epoch": 0.355,
      "grad_norm": 1.6682928363773013,
      "learning_rate": 7.16688888888889e-06,
      "loss": 2.5064,
      "step": 17750
    },
    {
      "epoch": 0.3555,
      "grad_norm": 1.698825227093393,
      "learning_rate": 7.161333333333334e-06,
      "loss": 2.5064,
      "step": 17775
    },
    {
      "epoch": 0.356,
      "grad_norm": 2.1351279086243102,
      "learning_rate": 7.155777777777778e-06,
      "loss": 2.5095,
      "step": 17800
    },
    {
      "epoch": 0.356,
      "eval_loss": 2.513296365737915,
      "eval_runtime": 42.015,
      "eval_samples_per_second": 2.475,
      "eval_steps_per_second": 1.238,
      "step": 17800
    },
    {
      "epoch": 0.3565,
      "grad_norm": 2.022128502337699,
      "learning_rate": 7.150222222222223e-06,
      "loss": 2.5154,
      "step": 17825
    },
    {
      "epoch": 0.357,
      "grad_norm": 2.086806218735891,
      "learning_rate": 7.144666666666668e-06,
      "loss": 2.5034,
      "step": 17850
    },
    {
      "epoch": 0.3575,
      "grad_norm": 1.6498144286183376,
      "learning_rate": 7.139111111111112e-06,
      "loss": 2.4954,
      "step": 17875
    },
    {
      "epoch": 0.358,
      "grad_norm": 2.2323141580573185,
      "learning_rate": 7.133555555555556e-06,
      "loss": 2.5076,
      "step": 17900
    },
    {
      "epoch": 0.358,
      "eval_loss": 2.513070821762085,
      "eval_runtime": 41.9683,
      "eval_samples_per_second": 2.478,
      "eval_steps_per_second": 1.239,
      "step": 17900
    },
    {
      "epoch": 0.3585,
      "grad_norm": 1.6204566941259055,
      "learning_rate": 7.128e-06,
      "loss": 2.5062,
      "step": 17925
    },
    {
      "epoch": 0.359,
      "grad_norm": 2.311671723617483,
      "learning_rate": 7.1224444444444454e-06,
      "loss": 2.5039,
      "step": 17950
    },
    {
      "epoch": 0.3595,
      "grad_norm": 2.3890642393886057,
      "learning_rate": 7.11688888888889e-06,
      "loss": 2.4965,
      "step": 17975
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.0807603373326837,
      "learning_rate": 7.111333333333333e-06,
      "loss": 2.5197,
      "step": 18000
    },
    {
      "epoch": 0.36,
      "eval_loss": 2.5126953125,
      "eval_runtime": 42.0739,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 18000
    },
    {
      "epoch": 0.3605,
      "grad_norm": 1.672936131535447,
      "learning_rate": 7.105777777777778e-06,
      "loss": 2.5015,
      "step": 18025
    },
    {
      "epoch": 0.361,
      "grad_norm": 7.63166977005947,
      "learning_rate": 7.100222222222223e-06,
      "loss": 2.5053,
      "step": 18050
    },
    {
      "epoch": 0.3615,
      "grad_norm": 2.011729948123627,
      "learning_rate": 7.0946666666666675e-06,
      "loss": 2.501,
      "step": 18075
    },
    {
      "epoch": 0.362,
      "grad_norm": 1.7658178043007162,
      "learning_rate": 7.089111111111112e-06,
      "loss": 2.5013,
      "step": 18100
    },
    {
      "epoch": 0.362,
      "eval_loss": 2.511343240737915,
      "eval_runtime": 42.1636,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.233,
      "step": 18100
    },
    {
      "epoch": 0.3625,
      "grad_norm": 1.5557930051027455,
      "learning_rate": 7.083555555555555e-06,
      "loss": 2.5117,
      "step": 18125
    },
    {
      "epoch": 0.363,
      "grad_norm": 1.7300277561576762,
      "learning_rate": 7.078000000000001e-06,
      "loss": 2.4987,
      "step": 18150
    },
    {
      "epoch": 0.3635,
      "grad_norm": 2.0848504417272666,
      "learning_rate": 7.072444444444445e-06,
      "loss": 2.4919,
      "step": 18175
    },
    {
      "epoch": 0.364,
      "grad_norm": 2.5157779327127976,
      "learning_rate": 7.0668888888888895e-06,
      "loss": 2.4999,
      "step": 18200
    },
    {
      "epoch": 0.364,
      "eval_loss": 2.512094259262085,
      "eval_runtime": 42.0563,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 18200
    },
    {
      "epoch": 0.3645,
      "grad_norm": 1.7066611135389327,
      "learning_rate": 7.061333333333333e-06,
      "loss": 2.5104,
      "step": 18225
    },
    {
      "epoch": 0.365,
      "grad_norm": 3.0741705640871944,
      "learning_rate": 7.055777777777778e-06,
      "loss": 2.5021,
      "step": 18250
    },
    {
      "epoch": 0.3655,
      "grad_norm": 1.9226302287728896,
      "learning_rate": 7.050222222222223e-06,
      "loss": 2.5023,
      "step": 18275
    },
    {
      "epoch": 0.366,
      "grad_norm": 2.2499683264142836,
      "learning_rate": 7.044666666666667e-06,
      "loss": 2.5029,
      "step": 18300
    },
    {
      "epoch": 0.366,
      "eval_loss": 2.51171875,
      "eval_runtime": 42.07,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 18300
    },
    {
      "epoch": 0.3665,
      "grad_norm": 1.7430689902866676,
      "learning_rate": 7.039111111111112e-06,
      "loss": 2.4945,
      "step": 18325
    },
    {
      "epoch": 0.367,
      "grad_norm": 2.671854904010972,
      "learning_rate": 7.033555555555556e-06,
      "loss": 2.5097,
      "step": 18350
    },
    {
      "epoch": 0.3675,
      "grad_norm": 2.13101453881424,
      "learning_rate": 7.028e-06,
      "loss": 2.5103,
      "step": 18375
    },
    {
      "epoch": 0.368,
      "grad_norm": 1.835798600308224,
      "learning_rate": 7.022444444444445e-06,
      "loss": 2.4947,
      "step": 18400
    },
    {
      "epoch": 0.368,
      "eval_loss": 2.511343240737915,
      "eval_runtime": 42.342,
      "eval_samples_per_second": 2.456,
      "eval_steps_per_second": 1.228,
      "step": 18400
    },
    {
      "epoch": 0.3685,
      "grad_norm": 2.114226886614621,
      "learning_rate": 7.01688888888889e-06,
      "loss": 2.5052,
      "step": 18425
    },
    {
      "epoch": 0.369,
      "grad_norm": 2.1437843710775017,
      "learning_rate": 7.011333333333334e-06,
      "loss": 2.51,
      "step": 18450
    },
    {
      "epoch": 0.3695,
      "grad_norm": 2.33661889250256,
      "learning_rate": 7.005777777777778e-06,
      "loss": 2.5038,
      "step": 18475
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.210498744099829,
      "learning_rate": 7.000222222222222e-06,
      "loss": 2.5007,
      "step": 18500
    },
    {
      "epoch": 0.37,
      "eval_loss": 2.511042594909668,
      "eval_runtime": 45.1198,
      "eval_samples_per_second": 2.305,
      "eval_steps_per_second": 1.152,
      "step": 18500
    },
    {
      "epoch": 0.3705,
      "grad_norm": 2.3931045575779724,
      "learning_rate": 6.9946666666666676e-06,
      "loss": 2.5192,
      "step": 18525
    },
    {
      "epoch": 0.371,
      "grad_norm": 1.785144340917075,
      "learning_rate": 6.989111111111112e-06,
      "loss": 2.5,
      "step": 18550
    },
    {
      "epoch": 0.3715,
      "grad_norm": 2.1028563452811193,
      "learning_rate": 6.9835555555555555e-06,
      "loss": 2.5025,
      "step": 18575
    },
    {
      "epoch": 0.372,
      "grad_norm": 1.678669645828695,
      "learning_rate": 6.978e-06,
      "loss": 2.4938,
      "step": 18600
    },
    {
      "epoch": 0.372,
      "eval_loss": 2.511493444442749,
      "eval_runtime": 42.2124,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 18600
    },
    {
      "epoch": 0.3725,
      "grad_norm": 1.7585250293152135,
      "learning_rate": 6.972444444444445e-06,
      "loss": 2.5067,
      "step": 18625
    },
    {
      "epoch": 0.373,
      "grad_norm": 1.7184349161337287,
      "learning_rate": 6.96688888888889e-06,
      "loss": 2.493,
      "step": 18650
    },
    {
      "epoch": 0.3735,
      "grad_norm": 1.832039709611763,
      "learning_rate": 6.961333333333334e-06,
      "loss": 2.5004,
      "step": 18675
    },
    {
      "epoch": 0.374,
      "grad_norm": 1.854099125628459,
      "learning_rate": 6.9557777777777776e-06,
      "loss": 2.5027,
      "step": 18700
    },
    {
      "epoch": 0.374,
      "eval_loss": 2.509690523147583,
      "eval_runtime": 42.2288,
      "eval_samples_per_second": 2.463,
      "eval_steps_per_second": 1.231,
      "step": 18700
    },
    {
      "epoch": 0.3745,
      "grad_norm": 1.9130507722977972,
      "learning_rate": 6.950222222222223e-06,
      "loss": 2.5107,
      "step": 18725
    },
    {
      "epoch": 0.375,
      "grad_norm": 1.88554691684168,
      "learning_rate": 6.944666666666667e-06,
      "loss": 2.5135,
      "step": 18750
    },
    {
      "epoch": 0.3755,
      "grad_norm": 1.94307129072252,
      "learning_rate": 6.939111111111112e-06,
      "loss": 2.4949,
      "step": 18775
    },
    {
      "epoch": 0.376,
      "grad_norm": 1.721596530279275,
      "learning_rate": 6.933555555555556e-06,
      "loss": 2.506,
      "step": 18800
    },
    {
      "epoch": 0.376,
      "eval_loss": 2.509540319442749,
      "eval_runtime": 42.203,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 18800
    },
    {
      "epoch": 0.3765,
      "grad_norm": 2.153899347925268,
      "learning_rate": 6.928e-06,
      "loss": 2.4969,
      "step": 18825
    },
    {
      "epoch": 0.377,
      "grad_norm": 1.8568457027472212,
      "learning_rate": 6.922444444444445e-06,
      "loss": 2.5084,
      "step": 18850
    },
    {
      "epoch": 0.3775,
      "grad_norm": 1.7907179558007489,
      "learning_rate": 6.91688888888889e-06,
      "loss": 2.5016,
      "step": 18875
    },
    {
      "epoch": 0.378,
      "grad_norm": 2.131440251146516,
      "learning_rate": 6.9113333333333345e-06,
      "loss": 2.5116,
      "step": 18900
    },
    {
      "epoch": 0.378,
      "eval_loss": 2.509690523147583,
      "eval_runtime": 42.0451,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 18900
    },
    {
      "epoch": 0.3785,
      "grad_norm": 1.6391543906566126,
      "learning_rate": 6.905777777777778e-06,
      "loss": 2.4989,
      "step": 18925
    },
    {
      "epoch": 0.379,
      "grad_norm": 2.581007478336363,
      "learning_rate": 6.9002222222222224e-06,
      "loss": 2.508,
      "step": 18950
    },
    {
      "epoch": 0.3795,
      "grad_norm": 2.253062507207986,
      "learning_rate": 6.894666666666668e-06,
      "loss": 2.4991,
      "step": 18975
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.8974431434162304,
      "learning_rate": 6.889111111111112e-06,
      "loss": 2.5046,
      "step": 19000
    },
    {
      "epoch": 0.38,
      "eval_loss": 2.508112907409668,
      "eval_runtime": 42.0143,
      "eval_samples_per_second": 2.475,
      "eval_steps_per_second": 1.238,
      "step": 19000
    },
    {
      "epoch": 0.3805,
      "grad_norm": 1.923105761277657,
      "learning_rate": 6.8835555555555565e-06,
      "loss": 2.51,
      "step": 19025
    },
    {
      "epoch": 0.381,
      "grad_norm": 1.8862560501377512,
      "learning_rate": 6.878e-06,
      "loss": 2.5059,
      "step": 19050
    },
    {
      "epoch": 0.3815,
      "grad_norm": 1.8703922961817268,
      "learning_rate": 6.872444444444445e-06,
      "loss": 2.5035,
      "step": 19075
    },
    {
      "epoch": 0.382,
      "grad_norm": 1.7565881005868478,
      "learning_rate": 6.86688888888889e-06,
      "loss": 2.5095,
      "step": 19100
    },
    {
      "epoch": 0.382,
      "eval_loss": 2.507887601852417,
      "eval_runtime": 42.1951,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.232,
      "step": 19100
    },
    {
      "epoch": 0.3825,
      "grad_norm": 1.8725717193187708,
      "learning_rate": 6.861333333333334e-06,
      "loss": 2.4777,
      "step": 19125
    },
    {
      "epoch": 0.383,
      "grad_norm": 1.958270573421661,
      "learning_rate": 6.855777777777778e-06,
      "loss": 2.5046,
      "step": 19150
    },
    {
      "epoch": 0.3835,
      "grad_norm": 2.671776359194106,
      "learning_rate": 6.850222222222223e-06,
      "loss": 2.5043,
      "step": 19175
    },
    {
      "epoch": 0.384,
      "grad_norm": 1.9929841359418,
      "learning_rate": 6.844666666666667e-06,
      "loss": 2.499,
      "step": 19200
    },
    {
      "epoch": 0.384,
      "eval_loss": 2.508112907409668,
      "eval_runtime": 42.1138,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.235,
      "step": 19200
    },
    {
      "epoch": 0.3845,
      "grad_norm": 1.850264833141848,
      "learning_rate": 6.839111111111112e-06,
      "loss": 2.4948,
      "step": 19225
    },
    {
      "epoch": 0.385,
      "grad_norm": 1.767603233133004,
      "learning_rate": 6.833555555555557e-06,
      "loss": 2.5033,
      "step": 19250
    },
    {
      "epoch": 0.3855,
      "grad_norm": 2.024969313594746,
      "learning_rate": 6.8280000000000005e-06,
      "loss": 2.5082,
      "step": 19275
    },
    {
      "epoch": 0.386,
      "grad_norm": 1.7036113222429146,
      "learning_rate": 6.822444444444445e-06,
      "loss": 2.4913,
      "step": 19300
    },
    {
      "epoch": 0.386,
      "eval_loss": 2.507361888885498,
      "eval_runtime": 42.3183,
      "eval_samples_per_second": 2.458,
      "eval_steps_per_second": 1.229,
      "step": 19300
    },
    {
      "epoch": 0.3865,
      "grad_norm": 1.7230547062528065,
      "learning_rate": 6.816888888888889e-06,
      "loss": 2.4938,
      "step": 19325
    },
    {
      "epoch": 0.387,
      "grad_norm": 1.8787683847293455,
      "learning_rate": 6.811333333333335e-06,
      "loss": 2.4949,
      "step": 19350
    },
    {
      "epoch": 0.3875,
      "grad_norm": 2.4055578073110193,
      "learning_rate": 6.805777777777778e-06,
      "loss": 2.497,
      "step": 19375
    },
    {
      "epoch": 0.388,
      "grad_norm": 2.23665715855738,
      "learning_rate": 6.8002222222222225e-06,
      "loss": 2.5056,
      "step": 19400
    },
    {
      "epoch": 0.388,
      "eval_loss": 2.507512092590332,
      "eval_runtime": 44.7452,
      "eval_samples_per_second": 2.324,
      "eval_steps_per_second": 1.162,
      "step": 19400
    },
    {
      "epoch": 0.3885,
      "grad_norm": 1.7238782509592703,
      "learning_rate": 6.794666666666667e-06,
      "loss": 2.5046,
      "step": 19425
    },
    {
      "epoch": 0.389,
      "grad_norm": 1.7214947798448734,
      "learning_rate": 6.789111111111112e-06,
      "loss": 2.5059,
      "step": 19450
    },
    {
      "epoch": 0.3895,
      "grad_norm": 2.262859292838032,
      "learning_rate": 6.783555555555557e-06,
      "loss": 2.512,
      "step": 19475
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.6179674955654688,
      "learning_rate": 6.778e-06,
      "loss": 2.5002,
      "step": 19500
    },
    {
      "epoch": 0.39,
      "eval_loss": 2.507211446762085,
      "eval_runtime": 42.2469,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 19500
    },
    {
      "epoch": 0.3905,
      "grad_norm": 1.671945858830702,
      "learning_rate": 6.7724444444444446e-06,
      "loss": 2.5015,
      "step": 19525
    },
    {
      "epoch": 0.391,
      "grad_norm": 1.8861757936685928,
      "learning_rate": 6.76688888888889e-06,
      "loss": 2.5017,
      "step": 19550
    },
    {
      "epoch": 0.3915,
      "grad_norm": 1.8014331656284734,
      "learning_rate": 6.761333333333334e-06,
      "loss": 2.5011,
      "step": 19575
    },
    {
      "epoch": 0.392,
      "grad_norm": 1.7518385048423128,
      "learning_rate": 6.755777777777779e-06,
      "loss": 2.4927,
      "step": 19600
    },
    {
      "epoch": 0.392,
      "eval_loss": 2.507361888885498,
      "eval_runtime": 42.0599,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 19600
    },
    {
      "epoch": 0.3925,
      "grad_norm": 2.839327045051914,
      "learning_rate": 6.750222222222222e-06,
      "loss": 2.5083,
      "step": 19625
    },
    {
      "epoch": 0.393,
      "grad_norm": 1.7547039623030893,
      "learning_rate": 6.7446666666666674e-06,
      "loss": 2.4849,
      "step": 19650
    },
    {
      "epoch": 0.3935,
      "grad_norm": 1.9358305406181069,
      "learning_rate": 6.739111111111112e-06,
      "loss": 2.5045,
      "step": 19675
    },
    {
      "epoch": 0.394,
      "grad_norm": 1.935286127692469,
      "learning_rate": 6.733555555555556e-06,
      "loss": 2.4971,
      "step": 19700
    },
    {
      "epoch": 0.394,
      "eval_loss": 2.506460428237915,
      "eval_runtime": 42.0928,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 19700
    },
    {
      "epoch": 0.3945,
      "grad_norm": 1.6151612552016674,
      "learning_rate": 6.728e-06,
      "loss": 2.4931,
      "step": 19725
    },
    {
      "epoch": 0.395,
      "grad_norm": 1.7988587718646638,
      "learning_rate": 6.722444444444445e-06,
      "loss": 2.4975,
      "step": 19750
    },
    {
      "epoch": 0.3955,
      "grad_norm": 1.6852241386784819,
      "learning_rate": 6.7168888888888894e-06,
      "loss": 2.5068,
      "step": 19775
    },
    {
      "epoch": 0.396,
      "grad_norm": 2.1998364723752073,
      "learning_rate": 6.711333333333334e-06,
      "loss": 2.4994,
      "step": 19800
    },
    {
      "epoch": 0.396,
      "eval_loss": 2.505408763885498,
      "eval_runtime": 45.2089,
      "eval_samples_per_second": 2.3,
      "eval_steps_per_second": 1.15,
      "step": 19800
    },
    {
      "epoch": 0.3965,
      "grad_norm": 1.8253486122629183,
      "learning_rate": 6.705777777777779e-06,
      "loss": 2.4919,
      "step": 19825
    },
    {
      "epoch": 0.397,
      "grad_norm": 1.8593534939056278,
      "learning_rate": 6.700222222222223e-06,
      "loss": 2.4933,
      "step": 19850
    },
    {
      "epoch": 0.3975,
      "grad_norm": 1.8457119088600489,
      "learning_rate": 6.694666666666667e-06,
      "loss": 2.4904,
      "step": 19875
    },
    {
      "epoch": 0.398,
      "grad_norm": 1.893324540889724,
      "learning_rate": 6.6891111111111115e-06,
      "loss": 2.5023,
      "step": 19900
    },
    {
      "epoch": 0.398,
      "eval_loss": 2.506009578704834,
      "eval_runtime": 42.1523,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 19900
    },
    {
      "epoch": 0.3985,
      "grad_norm": 1.7916632829749912,
      "learning_rate": 6.683555555555557e-06,
      "loss": 2.4895,
      "step": 19925
    },
    {
      "epoch": 0.399,
      "grad_norm": 1.8178118396333696,
      "learning_rate": 6.678e-06,
      "loss": 2.4899,
      "step": 19950
    },
    {
      "epoch": 0.3995,
      "grad_norm": 2.069809597588081,
      "learning_rate": 6.672444444444445e-06,
      "loss": 2.4974,
      "step": 19975
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.9558517508006683,
      "learning_rate": 6.666888888888889e-06,
      "loss": 2.5053,
      "step": 20000
    },
    {
      "epoch": 0.4,
      "eval_loss": 2.505859375,
      "eval_runtime": 42.0552,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 20000
    },
    {
      "epoch": 0.4005,
      "grad_norm": 1.7236926272593514,
      "learning_rate": 6.661333333333334e-06,
      "loss": 2.501,
      "step": 20025
    },
    {
      "epoch": 0.401,
      "grad_norm": 1.946218929855428,
      "learning_rate": 6.655777777777779e-06,
      "loss": 2.4943,
      "step": 20050
    },
    {
      "epoch": 0.4015,
      "grad_norm": 2.4811615857344003,
      "learning_rate": 6.650222222222222e-06,
      "loss": 2.4968,
      "step": 20075
    },
    {
      "epoch": 0.402,
      "grad_norm": 1.949451720117598,
      "learning_rate": 6.644666666666667e-06,
      "loss": 2.495,
      "step": 20100
    },
    {
      "epoch": 0.402,
      "eval_loss": 2.504807710647583,
      "eval_runtime": 42.197,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.232,
      "step": 20100
    },
    {
      "epoch": 0.4025,
      "grad_norm": 1.9265844913799484,
      "learning_rate": 6.639111111111112e-06,
      "loss": 2.5135,
      "step": 20125
    },
    {
      "epoch": 0.403,
      "grad_norm": 2.054023468678705,
      "learning_rate": 6.633555555555556e-06,
      "loss": 2.5046,
      "step": 20150
    },
    {
      "epoch": 0.4035,
      "grad_norm": 1.6166537761717794,
      "learning_rate": 6.628e-06,
      "loss": 2.4957,
      "step": 20175
    },
    {
      "epoch": 0.404,
      "grad_norm": 2.0355223054498732,
      "learning_rate": 6.622444444444444e-06,
      "loss": 2.504,
      "step": 20200
    },
    {
      "epoch": 0.404,
      "eval_loss": 2.505859375,
      "eval_runtime": 44.9224,
      "eval_samples_per_second": 2.315,
      "eval_steps_per_second": 1.158,
      "step": 20200
    },
    {
      "epoch": 0.4045,
      "grad_norm": 1.5161914213134315,
      "learning_rate": 6.6168888888888896e-06,
      "loss": 2.4948,
      "step": 20225
    },
    {
      "epoch": 0.405,
      "grad_norm": 1.7583686986898994,
      "learning_rate": 6.611333333333334e-06,
      "loss": 2.5008,
      "step": 20250
    },
    {
      "epoch": 0.4055,
      "grad_norm": 1.731014778812637,
      "learning_rate": 6.605777777777778e-06,
      "loss": 2.4967,
      "step": 20275
    },
    {
      "epoch": 0.406,
      "grad_norm": 1.8260539180442565,
      "learning_rate": 6.600222222222222e-06,
      "loss": 2.4972,
      "step": 20300
    },
    {
      "epoch": 0.406,
      "eval_loss": 2.505558967590332,
      "eval_runtime": 42.2598,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.23,
      "step": 20300
    },
    {
      "epoch": 0.4065,
      "grad_norm": 1.7677515065539133,
      "learning_rate": 6.594666666666667e-06,
      "loss": 2.4896,
      "step": 20325
    },
    {
      "epoch": 0.407,
      "grad_norm": 1.7142624346714377,
      "learning_rate": 6.5891111111111116e-06,
      "loss": 2.4904,
      "step": 20350
    },
    {
      "epoch": 0.4075,
      "grad_norm": 2.125035436617442,
      "learning_rate": 6.583555555555556e-06,
      "loss": 2.4919,
      "step": 20375
    },
    {
      "epoch": 0.408,
      "grad_norm": 1.5424091223096417,
      "learning_rate": 6.578000000000001e-06,
      "loss": 2.4846,
      "step": 20400
    },
    {
      "epoch": 0.408,
      "eval_loss": 2.504281759262085,
      "eval_runtime": 41.9793,
      "eval_samples_per_second": 2.477,
      "eval_steps_per_second": 1.239,
      "step": 20400
    },
    {
      "epoch": 0.4085,
      "grad_norm": 2.0209929386964602,
      "learning_rate": 6.572444444444445e-06,
      "loss": 2.5018,
      "step": 20425
    },
    {
      "epoch": 0.409,
      "grad_norm": 1.9117850348117913,
      "learning_rate": 6.566888888888889e-06,
      "loss": 2.4988,
      "step": 20450
    },
    {
      "epoch": 0.4095,
      "grad_norm": 1.8894092033113463,
      "learning_rate": 6.561333333333334e-06,
      "loss": 2.4924,
      "step": 20475
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.7305098583371674,
      "learning_rate": 6.555777777777779e-06,
      "loss": 2.4842,
      "step": 20500
    },
    {
      "epoch": 0.41,
      "eval_loss": 2.504206657409668,
      "eval_runtime": 42.0992,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 20500
    },
    {
      "epoch": 0.4105,
      "grad_norm": 1.600509904540498,
      "learning_rate": 6.550222222222222e-06,
      "loss": 2.4958,
      "step": 20525
    },
    {
      "epoch": 0.411,
      "grad_norm": 1.913704709563173,
      "learning_rate": 6.544666666666667e-06,
      "loss": 2.503,
      "step": 20550
    },
    {
      "epoch": 0.4115,
      "grad_norm": 1.6442978141689542,
      "learning_rate": 6.539111111111112e-06,
      "loss": 2.5035,
      "step": 20575
    },
    {
      "epoch": 0.412,
      "grad_norm": 1.7242720787655847,
      "learning_rate": 6.5335555555555565e-06,
      "loss": 2.5013,
      "step": 20600
    },
    {
      "epoch": 0.412,
      "eval_loss": 2.505108118057251,
      "eval_runtime": 45.0277,
      "eval_samples_per_second": 2.31,
      "eval_steps_per_second": 1.155,
      "step": 20600
    },
    {
      "epoch": 0.4125,
      "grad_norm": 1.9563461802275306,
      "learning_rate": 6.528000000000001e-06,
      "loss": 2.4936,
      "step": 20625
    },
    {
      "epoch": 0.413,
      "grad_norm": 1.9878386361754394,
      "learning_rate": 6.522444444444444e-06,
      "loss": 2.4998,
      "step": 20650
    },
    {
      "epoch": 0.4135,
      "grad_norm": 1.7770534296253566,
      "learning_rate": 6.51688888888889e-06,
      "loss": 2.4824,
      "step": 20675
    },
    {
      "epoch": 0.414,
      "grad_norm": 2.0065579706905807,
      "learning_rate": 6.511333333333334e-06,
      "loss": 2.4839,
      "step": 20700
    },
    {
      "epoch": 0.414,
      "eval_loss": 2.503756046295166,
      "eval_runtime": 42.1845,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.233,
      "step": 20700
    },
    {
      "epoch": 0.4145,
      "grad_norm": 1.6235153521359182,
      "learning_rate": 6.5057777777777785e-06,
      "loss": 2.4936,
      "step": 20725
    },
    {
      "epoch": 0.415,
      "grad_norm": 1.648489419306219,
      "learning_rate": 6.500222222222222e-06,
      "loss": 2.5015,
      "step": 20750
    },
    {
      "epoch": 0.4155,
      "grad_norm": 1.6396880643712355,
      "learning_rate": 6.494666666666667e-06,
      "loss": 2.4989,
      "step": 20775
    },
    {
      "epoch": 0.416,
      "grad_norm": 1.5830336527364546,
      "learning_rate": 6.489111111111112e-06,
      "loss": 2.4985,
      "step": 20800
    },
    {
      "epoch": 0.416,
      "eval_loss": 2.504507303237915,
      "eval_runtime": 42.0669,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 20800
    },
    {
      "epoch": 0.4165,
      "grad_norm": 1.837879971214479,
      "learning_rate": 6.483555555555556e-06,
      "loss": 2.5004,
      "step": 20825
    },
    {
      "epoch": 0.417,
      "grad_norm": 1.6825057902135725,
      "learning_rate": 6.478000000000001e-06,
      "loss": 2.503,
      "step": 20850
    },
    {
      "epoch": 0.4175,
      "grad_norm": 2.101275560647434,
      "learning_rate": 6.472444444444445e-06,
      "loss": 2.4982,
      "step": 20875
    },
    {
      "epoch": 0.418,
      "grad_norm": 1.9631389278072708,
      "learning_rate": 6.466888888888889e-06,
      "loss": 2.4952,
      "step": 20900
    },
    {
      "epoch": 0.418,
      "eval_loss": 2.503455638885498,
      "eval_runtime": 42.0594,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 20900
    },
    {
      "epoch": 0.4185,
      "grad_norm": 1.6706760636288072,
      "learning_rate": 6.461333333333334e-06,
      "loss": 2.5128,
      "step": 20925
    },
    {
      "epoch": 0.419,
      "grad_norm": 1.8729475296775202,
      "learning_rate": 6.455777777777779e-06,
      "loss": 2.4945,
      "step": 20950
    },
    {
      "epoch": 0.4195,
      "grad_norm": 1.9098045123380558,
      "learning_rate": 6.450222222222223e-06,
      "loss": 2.5131,
      "step": 20975
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.71247039920753,
      "learning_rate": 6.444666666666667e-06,
      "loss": 2.5114,
      "step": 21000
    },
    {
      "epoch": 0.42,
      "eval_loss": 2.504206657409668,
      "eval_runtime": 45.016,
      "eval_samples_per_second": 2.31,
      "eval_steps_per_second": 1.155,
      "step": 21000
    },
    {
      "epoch": 0.4205,
      "grad_norm": 1.7437210977122388,
      "learning_rate": 6.439111111111111e-06,
      "loss": 2.5052,
      "step": 21025
    },
    {
      "epoch": 0.421,
      "grad_norm": 1.5496277495446542,
      "learning_rate": 6.4335555555555566e-06,
      "loss": 2.4902,
      "step": 21050
    },
    {
      "epoch": 0.4215,
      "grad_norm": 1.6440373917009932,
      "learning_rate": 6.428000000000001e-06,
      "loss": 2.4872,
      "step": 21075
    },
    {
      "epoch": 0.422,
      "grad_norm": 1.969462241870104,
      "learning_rate": 6.4224444444444445e-06,
      "loss": 2.4928,
      "step": 21100
    },
    {
      "epoch": 0.422,
      "eval_loss": 2.503455638885498,
      "eval_runtime": 42.3176,
      "eval_samples_per_second": 2.458,
      "eval_steps_per_second": 1.229,
      "step": 21100
    },
    {
      "epoch": 0.4225,
      "grad_norm": 2.12519599031017,
      "learning_rate": 6.416888888888889e-06,
      "loss": 2.5014,
      "step": 21125
    },
    {
      "epoch": 0.423,
      "grad_norm": 2.1601088508794977,
      "learning_rate": 6.411333333333334e-06,
      "loss": 2.4993,
      "step": 21150
    },
    {
      "epoch": 0.4235,
      "grad_norm": 2.010875076788802,
      "learning_rate": 6.405777777777779e-06,
      "loss": 2.4944,
      "step": 21175
    },
    {
      "epoch": 0.424,
      "grad_norm": 1.7332849332984985,
      "learning_rate": 6.400222222222223e-06,
      "loss": 2.4903,
      "step": 21200
    },
    {
      "epoch": 0.424,
      "eval_loss": 2.503230094909668,
      "eval_runtime": 42.0957,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 21200
    },
    {
      "epoch": 0.4245,
      "grad_norm": 1.5979423801448365,
      "learning_rate": 6.3946666666666665e-06,
      "loss": 2.4947,
      "step": 21225
    },
    {
      "epoch": 0.425,
      "grad_norm": 1.6710000848233604,
      "learning_rate": 6.389111111111112e-06,
      "loss": 2.5019,
      "step": 21250
    },
    {
      "epoch": 0.4255,
      "grad_norm": 2.105770996109973,
      "learning_rate": 6.383555555555556e-06,
      "loss": 2.503,
      "step": 21275
    },
    {
      "epoch": 0.426,
      "grad_norm": 1.8382069468375162,
      "learning_rate": 6.378000000000001e-06,
      "loss": 2.5099,
      "step": 21300
    },
    {
      "epoch": 0.426,
      "eval_loss": 2.502629280090332,
      "eval_runtime": 42.2658,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.23,
      "step": 21300
    },
    {
      "epoch": 0.4265,
      "grad_norm": 1.6501470424285034,
      "learning_rate": 6.372444444444444e-06,
      "loss": 2.4922,
      "step": 21325
    },
    {
      "epoch": 0.427,
      "grad_norm": 1.6710615194657286,
      "learning_rate": 6.366888888888889e-06,
      "loss": 2.4901,
      "step": 21350
    },
    {
      "epoch": 0.4275,
      "grad_norm": 1.8221731897525266,
      "learning_rate": 6.361333333333334e-06,
      "loss": 2.4836,
      "step": 21375
    },
    {
      "epoch": 0.428,
      "grad_norm": 2.155422093888149,
      "learning_rate": 6.355777777777778e-06,
      "loss": 2.5034,
      "step": 21400
    },
    {
      "epoch": 0.428,
      "eval_loss": 2.502028226852417,
      "eval_runtime": 42.186,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.233,
      "step": 21400
    },
    {
      "epoch": 0.4285,
      "grad_norm": 1.5454418239785808,
      "learning_rate": 6.3502222222222235e-06,
      "loss": 2.5025,
      "step": 21425
    },
    {
      "epoch": 0.429,
      "grad_norm": 1.7718884455227981,
      "learning_rate": 6.344666666666667e-06,
      "loss": 2.5063,
      "step": 21450
    },
    {
      "epoch": 0.4295,
      "grad_norm": 1.7630981417050515,
      "learning_rate": 6.339111111111111e-06,
      "loss": 2.4921,
      "step": 21475
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.7498269103951625,
      "learning_rate": 6.333555555555556e-06,
      "loss": 2.4806,
      "step": 21500
    },
    {
      "epoch": 0.43,
      "eval_loss": 2.502028226852417,
      "eval_runtime": 42.6293,
      "eval_samples_per_second": 2.44,
      "eval_steps_per_second": 1.22,
      "step": 21500
    },
    {
      "epoch": 0.4305,
      "grad_norm": 1.7024371950570076,
      "learning_rate": 6.328000000000001e-06,
      "loss": 2.4999,
      "step": 21525
    },
    {
      "epoch": 0.431,
      "grad_norm": 1.6558686602263217,
      "learning_rate": 6.3224444444444455e-06,
      "loss": 2.4979,
      "step": 21550
    },
    {
      "epoch": 0.4315,
      "grad_norm": 1.6358034284705516,
      "learning_rate": 6.316888888888889e-06,
      "loss": 2.4994,
      "step": 21575
    },
    {
      "epoch": 0.432,
      "grad_norm": 1.6602405464343,
      "learning_rate": 6.3113333333333334e-06,
      "loss": 2.5034,
      "step": 21600
    },
    {
      "epoch": 0.432,
      "eval_loss": 2.5029296875,
      "eval_runtime": 42.2795,
      "eval_samples_per_second": 2.46,
      "eval_steps_per_second": 1.23,
      "step": 21600
    },
    {
      "epoch": 0.4325,
      "grad_norm": 1.6835666808870098,
      "learning_rate": 6.305777777777779e-06,
      "loss": 2.5033,
      "step": 21625
    },
    {
      "epoch": 0.433,
      "grad_norm": 1.9743617796296073,
      "learning_rate": 6.300222222222223e-06,
      "loss": 2.489,
      "step": 21650
    },
    {
      "epoch": 0.4335,
      "grad_norm": 2.5793956475548643,
      "learning_rate": 6.294666666666667e-06,
      "loss": 2.489,
      "step": 21675
    },
    {
      "epoch": 0.434,
      "grad_norm": 2.0835285983879634,
      "learning_rate": 6.289111111111111e-06,
      "loss": 2.4881,
      "step": 21700
    },
    {
      "epoch": 0.434,
      "eval_loss": 2.501126766204834,
      "eval_runtime": 42.2635,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.23,
      "step": 21700
    },
    {
      "epoch": 0.4345,
      "grad_norm": 1.6407581837818335,
      "learning_rate": 6.283555555555556e-06,
      "loss": 2.4823,
      "step": 21725
    },
    {
      "epoch": 0.435,
      "grad_norm": 2.0331729564315784,
      "learning_rate": 6.278000000000001e-06,
      "loss": 2.4838,
      "step": 21750
    },
    {
      "epoch": 0.4355,
      "grad_norm": 1.9849514884242987,
      "learning_rate": 6.272444444444445e-06,
      "loss": 2.4966,
      "step": 21775
    },
    {
      "epoch": 0.436,
      "grad_norm": 1.9954697995494386,
      "learning_rate": 6.266888888888889e-06,
      "loss": 2.4856,
      "step": 21800
    },
    {
      "epoch": 0.436,
      "eval_loss": 2.501126766204834,
      "eval_runtime": 42.2367,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 21800
    },
    {
      "epoch": 0.4365,
      "grad_norm": 1.49047854325645,
      "learning_rate": 6.261333333333334e-06,
      "loss": 2.4865,
      "step": 21825
    },
    {
      "epoch": 0.437,
      "grad_norm": 1.9044444415385662,
      "learning_rate": 6.255777777777778e-06,
      "loss": 2.4946,
      "step": 21850
    },
    {
      "epoch": 0.4375,
      "grad_norm": 1.7364917152450856,
      "learning_rate": 6.250222222222223e-06,
      "loss": 2.4962,
      "step": 21875
    },
    {
      "epoch": 0.438,
      "grad_norm": 1.8024064204586725,
      "learning_rate": 6.244666666666666e-06,
      "loss": 2.5021,
      "step": 21900
    },
    {
      "epoch": 0.438,
      "eval_loss": 2.500751256942749,
      "eval_runtime": 42.1058,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 21900
    },
    {
      "epoch": 0.4385,
      "grad_norm": 1.71662152868435,
      "learning_rate": 6.2391111111111115e-06,
      "loss": 2.495,
      "step": 21925
    },
    {
      "epoch": 0.439,
      "grad_norm": 1.5009498354640052,
      "learning_rate": 6.233555555555556e-06,
      "loss": 2.4778,
      "step": 21950
    },
    {
      "epoch": 0.4395,
      "grad_norm": 1.8025510305958468,
      "learning_rate": 6.228e-06,
      "loss": 2.4979,
      "step": 21975
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.9995650966286722,
      "learning_rate": 6.222444444444446e-06,
      "loss": 2.496,
      "step": 22000
    },
    {
      "epoch": 0.44,
      "eval_loss": 2.5009765625,
      "eval_runtime": 42.1137,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 22000
    },
    {
      "epoch": 0.4405,
      "grad_norm": 1.7182937943162142,
      "learning_rate": 6.216888888888889e-06,
      "loss": 2.4807,
      "step": 22025
    },
    {
      "epoch": 0.441,
      "grad_norm": 1.9369167503090519,
      "learning_rate": 6.2113333333333336e-06,
      "loss": 2.487,
      "step": 22050
    },
    {
      "epoch": 0.4415,
      "grad_norm": 1.904510037861696,
      "learning_rate": 6.205777777777778e-06,
      "loss": 2.4913,
      "step": 22075
    },
    {
      "epoch": 0.442,
      "grad_norm": 2.9817662848291153,
      "learning_rate": 6.200222222222223e-06,
      "loss": 2.4951,
      "step": 22100
    },
    {
      "epoch": 0.442,
      "eval_loss": 2.499323844909668,
      "eval_runtime": 42.052,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.237,
      "step": 22100
    },
    {
      "epoch": 0.4425,
      "grad_norm": 2.8855918956907862,
      "learning_rate": 6.194666666666668e-06,
      "loss": 2.4922,
      "step": 22125
    },
    {
      "epoch": 0.443,
      "grad_norm": 2.8284308490308736,
      "learning_rate": 6.189111111111111e-06,
      "loss": 2.4996,
      "step": 22150
    },
    {
      "epoch": 0.4435,
      "grad_norm": 4.262638547096628,
      "learning_rate": 6.1835555555555556e-06,
      "loss": 2.4933,
      "step": 22175
    },
    {
      "epoch": 0.444,
      "grad_norm": 2.652782486854368,
      "learning_rate": 6.178000000000001e-06,
      "loss": 2.4911,
      "step": 22200
    },
    {
      "epoch": 0.444,
      "eval_loss": 2.497821569442749,
      "eval_runtime": 42.0123,
      "eval_samples_per_second": 2.475,
      "eval_steps_per_second": 1.238,
      "step": 22200
    },
    {
      "epoch": 0.4445,
      "grad_norm": 2.5914196543911134,
      "learning_rate": 6.172444444444445e-06,
      "loss": 2.4841,
      "step": 22225
    },
    {
      "epoch": 0.445,
      "grad_norm": 2.300348107829589,
      "learning_rate": 6.166888888888889e-06,
      "loss": 2.4815,
      "step": 22250
    },
    {
      "epoch": 0.4455,
      "grad_norm": 1.7776487382978978,
      "learning_rate": 6.161333333333334e-06,
      "loss": 2.4977,
      "step": 22275
    },
    {
      "epoch": 0.446,
      "grad_norm": 1.7296099191162206,
      "learning_rate": 6.1557777777777784e-06,
      "loss": 2.4852,
      "step": 22300
    },
    {
      "epoch": 0.446,
      "eval_loss": 2.499624490737915,
      "eval_runtime": 42.1152,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.235,
      "step": 22300
    },
    {
      "epoch": 0.4465,
      "grad_norm": 1.7315634884808537,
      "learning_rate": 6.150222222222223e-06,
      "loss": 2.4778,
      "step": 22325
    },
    {
      "epoch": 0.447,
      "grad_norm": 2.1450334863555938,
      "learning_rate": 6.144666666666668e-06,
      "loss": 2.489,
      "step": 22350
    },
    {
      "epoch": 0.4475,
      "grad_norm": 1.6688618734168348,
      "learning_rate": 6.139111111111112e-06,
      "loss": 2.5015,
      "step": 22375
    },
    {
      "epoch": 0.448,
      "grad_norm": 1.6731981411810088,
      "learning_rate": 6.133555555555556e-06,
      "loss": 2.4915,
      "step": 22400
    },
    {
      "epoch": 0.448,
      "eval_loss": 2.500450611114502,
      "eval_runtime": 41.9438,
      "eval_samples_per_second": 2.48,
      "eval_steps_per_second": 1.24,
      "step": 22400
    },
    {
      "epoch": 0.4485,
      "grad_norm": 1.4930290513767255,
      "learning_rate": 6.1280000000000005e-06,
      "loss": 2.4854,
      "step": 22425
    },
    {
      "epoch": 0.449,
      "grad_norm": 1.5715846387500014,
      "learning_rate": 6.122444444444446e-06,
      "loss": 2.4921,
      "step": 22450
    },
    {
      "epoch": 0.4495,
      "grad_norm": 1.8953079381485411,
      "learning_rate": 6.116888888888889e-06,
      "loss": 2.4897,
      "step": 22475
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.7504930863172978,
      "learning_rate": 6.111333333333334e-06,
      "loss": 2.5011,
      "step": 22500
    },
    {
      "epoch": 0.45,
      "eval_loss": 2.499474048614502,
      "eval_runtime": 42.1748,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 22500
    },
    {
      "epoch": 0.4505,
      "grad_norm": 1.7680580925814586,
      "learning_rate": 6.105777777777778e-06,
      "loss": 2.4908,
      "step": 22525
    },
    {
      "epoch": 0.451,
      "grad_norm": 1.7036933374539573,
      "learning_rate": 6.100222222222223e-06,
      "loss": 2.497,
      "step": 22550
    },
    {
      "epoch": 0.4515,
      "grad_norm": 1.605227242528875,
      "learning_rate": 6.094666666666668e-06,
      "loss": 2.4886,
      "step": 22575
    },
    {
      "epoch": 0.452,
      "grad_norm": 1.605521800515293,
      "learning_rate": 6.089111111111111e-06,
      "loss": 2.4855,
      "step": 22600
    },
    {
      "epoch": 0.452,
      "eval_loss": 2.499474048614502,
      "eval_runtime": 42.1539,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 22600
    },
    {
      "epoch": 0.4525,
      "grad_norm": 2.078041232556651,
      "learning_rate": 6.083555555555556e-06,
      "loss": 2.4958,
      "step": 22625
    },
    {
      "epoch": 0.453,
      "grad_norm": 2.0707511120144604,
      "learning_rate": 6.078000000000001e-06,
      "loss": 2.494,
      "step": 22650
    },
    {
      "epoch": 0.4535,
      "grad_norm": 1.9477507652984543,
      "learning_rate": 6.072444444444445e-06,
      "loss": 2.4935,
      "step": 22675
    },
    {
      "epoch": 0.454,
      "grad_norm": 2.2326783753768167,
      "learning_rate": 6.06688888888889e-06,
      "loss": 2.4882,
      "step": 22700
    },
    {
      "epoch": 0.454,
      "eval_loss": 2.499849796295166,
      "eval_runtime": 42.1034,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 22700
    },
    {
      "epoch": 0.4545,
      "grad_norm": 1.6285789494338494,
      "learning_rate": 6.061333333333333e-06,
      "loss": 2.4938,
      "step": 22725
    },
    {
      "epoch": 0.455,
      "grad_norm": 2.1419847147568465,
      "learning_rate": 6.0557777777777785e-06,
      "loss": 2.4926,
      "step": 22750
    },
    {
      "epoch": 0.4555,
      "grad_norm": 1.519225217551388,
      "learning_rate": 6.050222222222223e-06,
      "loss": 2.503,
      "step": 22775
    },
    {
      "epoch": 0.456,
      "grad_norm": 1.703532096292405,
      "learning_rate": 6.044666666666667e-06,
      "loss": 2.4898,
      "step": 22800
    },
    {
      "epoch": 0.456,
      "eval_loss": 2.500525951385498,
      "eval_runtime": 42.1936,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.232,
      "step": 22800
    },
    {
      "epoch": 0.4565,
      "grad_norm": 1.6325074757443048,
      "learning_rate": 6.039111111111111e-06,
      "loss": 2.4914,
      "step": 22825
    },
    {
      "epoch": 0.457,
      "grad_norm": 1.7600574975013221,
      "learning_rate": 6.033555555555556e-06,
      "loss": 2.5009,
      "step": 22850
    },
    {
      "epoch": 0.4575,
      "grad_norm": 1.920051862012797,
      "learning_rate": 6.0280000000000006e-06,
      "loss": 2.4837,
      "step": 22875
    },
    {
      "epoch": 0.458,
      "grad_norm": 1.6070724998781074,
      "learning_rate": 6.022444444444445e-06,
      "loss": 2.4973,
      "step": 22900
    },
    {
      "epoch": 0.458,
      "eval_loss": 2.499248743057251,
      "eval_runtime": 42.0331,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 22900
    },
    {
      "epoch": 0.4585,
      "grad_norm": 1.7243469183694384,
      "learning_rate": 6.01688888888889e-06,
      "loss": 2.4906,
      "step": 22925
    },
    {
      "epoch": 0.459,
      "grad_norm": 1.9184899521354608,
      "learning_rate": 6.011333333333334e-06,
      "loss": 2.501,
      "step": 22950
    },
    {
      "epoch": 0.4595,
      "grad_norm": 1.9080619345932408,
      "learning_rate": 6.005777777777778e-06,
      "loss": 2.4803,
      "step": 22975
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.9170908213433346,
      "learning_rate": 6.000222222222223e-06,
      "loss": 2.4805,
      "step": 23000
    },
    {
      "epoch": 0.46,
      "eval_loss": 2.499323844909668,
      "eval_runtime": 42.0833,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.236,
      "step": 23000
    },
    {
      "epoch": 0.4605,
      "grad_norm": 2.2436576410494165,
      "learning_rate": 5.994666666666668e-06,
      "loss": 2.491,
      "step": 23025
    },
    {
      "epoch": 0.461,
      "grad_norm": 1.8996422361339258,
      "learning_rate": 5.989111111111111e-06,
      "loss": 2.5012,
      "step": 23050
    },
    {
      "epoch": 0.4615,
      "grad_norm": 2.0465268202819895,
      "learning_rate": 5.983555555555556e-06,
      "loss": 2.4949,
      "step": 23075
    },
    {
      "epoch": 0.462,
      "grad_norm": 1.5523846887739818,
      "learning_rate": 5.978e-06,
      "loss": 2.4952,
      "step": 23100
    },
    {
      "epoch": 0.462,
      "eval_loss": 2.498121976852417,
      "eval_runtime": 45.0599,
      "eval_samples_per_second": 2.308,
      "eval_steps_per_second": 1.154,
      "step": 23100
    },
    {
      "epoch": 0.4625,
      "grad_norm": 1.8722104271014763,
      "learning_rate": 5.9724444444444454e-06,
      "loss": 2.485,
      "step": 23125
    },
    {
      "epoch": 0.463,
      "grad_norm": 1.8481286582217762,
      "learning_rate": 5.96688888888889e-06,
      "loss": 2.4932,
      "step": 23150
    },
    {
      "epoch": 0.4635,
      "grad_norm": 1.694691961704325,
      "learning_rate": 5.961333333333333e-06,
      "loss": 2.4887,
      "step": 23175
    },
    {
      "epoch": 0.464,
      "grad_norm": 1.8489059225039854,
      "learning_rate": 5.955777777777778e-06,
      "loss": 2.4884,
      "step": 23200
    },
    {
      "epoch": 0.464,
      "eval_loss": 2.498121976852417,
      "eval_runtime": 42.0968,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 23200
    },
    {
      "epoch": 0.4645,
      "grad_norm": 1.7510566862322519,
      "learning_rate": 5.950222222222223e-06,
      "loss": 2.4969,
      "step": 23225
    },
    {
      "epoch": 0.465,
      "grad_norm": 2.0760638682744963,
      "learning_rate": 5.9446666666666675e-06,
      "loss": 2.491,
      "step": 23250
    },
    {
      "epoch": 0.4655,
      "grad_norm": 1.999581210468398,
      "learning_rate": 5.939111111111111e-06,
      "loss": 2.491,
      "step": 23275
    },
    {
      "epoch": 0.466,
      "grad_norm": 1.4681747343313098,
      "learning_rate": 5.933555555555555e-06,
      "loss": 2.4907,
      "step": 23300
    },
    {
      "epoch": 0.466,
      "eval_loss": 2.497370719909668,
      "eval_runtime": 42.1719,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 23300
    },
    {
      "epoch": 0.4665,
      "grad_norm": 2.006447477955428,
      "learning_rate": 5.928000000000001e-06,
      "loss": 2.5032,
      "step": 23325
    },
    {
      "epoch": 0.467,
      "grad_norm": 1.9698262966348923,
      "learning_rate": 5.922444444444445e-06,
      "loss": 2.4931,
      "step": 23350
    },
    {
      "epoch": 0.4675,
      "grad_norm": 2.0652086983690294,
      "learning_rate": 5.9168888888888895e-06,
      "loss": 2.4936,
      "step": 23375
    },
    {
      "epoch": 0.468,
      "grad_norm": 1.9797993503873585,
      "learning_rate": 5.911333333333333e-06,
      "loss": 2.5034,
      "step": 23400
    },
    {
      "epoch": 0.468,
      "eval_loss": 2.497671365737915,
      "eval_runtime": 42.2143,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 23400
    },
    {
      "epoch": 0.4685,
      "grad_norm": 1.8326442171974302,
      "learning_rate": 5.905777777777778e-06,
      "loss": 2.4909,
      "step": 23425
    },
    {
      "epoch": 0.469,
      "grad_norm": 1.8354560060344607,
      "learning_rate": 5.900222222222223e-06,
      "loss": 2.4948,
      "step": 23450
    },
    {
      "epoch": 0.4695,
      "grad_norm": 1.7229659195618774,
      "learning_rate": 5.894666666666667e-06,
      "loss": 2.4793,
      "step": 23475
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5629439724252832,
      "learning_rate": 5.889111111111112e-06,
      "loss": 2.4852,
      "step": 23500
    },
    {
      "epoch": 0.47,
      "eval_loss": 2.497520923614502,
      "eval_runtime": 42.031,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 23500
    },
    {
      "epoch": 0.4705,
      "grad_norm": 1.8792354530981463,
      "learning_rate": 5.883555555555556e-06,
      "loss": 2.4775,
      "step": 23525
    },
    {
      "epoch": 0.471,
      "grad_norm": 2.063083152072746,
      "learning_rate": 5.878e-06,
      "loss": 2.4923,
      "step": 23550
    },
    {
      "epoch": 0.4715,
      "grad_norm": 1.6685911907864597,
      "learning_rate": 5.872444444444445e-06,
      "loss": 2.4836,
      "step": 23575
    },
    {
      "epoch": 0.472,
      "grad_norm": 1.7157685792119592,
      "learning_rate": 5.86688888888889e-06,
      "loss": 2.4861,
      "step": 23600
    },
    {
      "epoch": 0.472,
      "eval_loss": 2.497145414352417,
      "eval_runtime": 41.986,
      "eval_samples_per_second": 2.477,
      "eval_steps_per_second": 1.239,
      "step": 23600
    },
    {
      "epoch": 0.4725,
      "grad_norm": 1.8671855876833878,
      "learning_rate": 5.8613333333333335e-06,
      "loss": 2.4852,
      "step": 23625
    },
    {
      "epoch": 0.473,
      "grad_norm": 1.8694010270446149,
      "learning_rate": 5.855777777777778e-06,
      "loss": 2.4921,
      "step": 23650
    },
    {
      "epoch": 0.4735,
      "grad_norm": 1.7724106371639952,
      "learning_rate": 5.850222222222222e-06,
      "loss": 2.4936,
      "step": 23675
    },
    {
      "epoch": 0.474,
      "grad_norm": 1.5781520175949426,
      "learning_rate": 5.8446666666666676e-06,
      "loss": 2.4975,
      "step": 23700
    },
    {
      "epoch": 0.474,
      "eval_loss": 2.497520923614502,
      "eval_runtime": 42.0916,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 23700
    },
    {
      "epoch": 0.4745,
      "grad_norm": 1.5141060029899605,
      "learning_rate": 5.839111111111112e-06,
      "loss": 2.4879,
      "step": 23725
    },
    {
      "epoch": 0.475,
      "grad_norm": 1.8687474294565485,
      "learning_rate": 5.8335555555555555e-06,
      "loss": 2.4909,
      "step": 23750
    },
    {
      "epoch": 0.4755,
      "grad_norm": 1.6776446188299594,
      "learning_rate": 5.828e-06,
      "loss": 2.4902,
      "step": 23775
    },
    {
      "epoch": 0.476,
      "grad_norm": 2.0838234984298842,
      "learning_rate": 5.822444444444445e-06,
      "loss": 2.4879,
      "step": 23800
    },
    {
      "epoch": 0.476,
      "eval_loss": 2.497295618057251,
      "eval_runtime": 42.0623,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 23800
    },
    {
      "epoch": 0.4765,
      "grad_norm": 1.8366039197034736,
      "learning_rate": 5.81688888888889e-06,
      "loss": 2.4881,
      "step": 23825
    },
    {
      "epoch": 0.477,
      "grad_norm": 1.7974481319946611,
      "learning_rate": 5.811333333333333e-06,
      "loss": 2.4856,
      "step": 23850
    },
    {
      "epoch": 0.4775,
      "grad_norm": 1.7306078785716812,
      "learning_rate": 5.8057777777777775e-06,
      "loss": 2.4871,
      "step": 23875
    },
    {
      "epoch": 0.478,
      "grad_norm": 1.7017584472259937,
      "learning_rate": 5.800222222222223e-06,
      "loss": 2.4913,
      "step": 23900
    },
    {
      "epoch": 0.478,
      "eval_loss": 2.497145414352417,
      "eval_runtime": 42.0564,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 23900
    },
    {
      "epoch": 0.4785,
      "grad_norm": 1.5873059599575863,
      "learning_rate": 5.794666666666667e-06,
      "loss": 2.4902,
      "step": 23925
    },
    {
      "epoch": 0.479,
      "grad_norm": 1.7803184399271008,
      "learning_rate": 5.789111111111112e-06,
      "loss": 2.4801,
      "step": 23950
    },
    {
      "epoch": 0.4795,
      "grad_norm": 2.0820189892461904,
      "learning_rate": 5.783555555555556e-06,
      "loss": 2.4814,
      "step": 23975
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4518757207733177,
      "learning_rate": 5.778e-06,
      "loss": 2.4858,
      "step": 24000
    },
    {
      "epoch": 0.48,
      "eval_loss": 2.495868444442749,
      "eval_runtime": 42.0826,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.236,
      "step": 24000
    },
    {
      "epoch": 0.4805,
      "grad_norm": 1.5870466883008045,
      "learning_rate": 5.772444444444445e-06,
      "loss": 2.4891,
      "step": 24025
    },
    {
      "epoch": 0.481,
      "grad_norm": 2.066936426547201,
      "learning_rate": 5.76688888888889e-06,
      "loss": 2.484,
      "step": 24050
    },
    {
      "epoch": 0.4815,
      "grad_norm": 2.086157350125539,
      "learning_rate": 5.7613333333333345e-06,
      "loss": 2.4964,
      "step": 24075
    },
    {
      "epoch": 0.482,
      "grad_norm": 1.6314020486715815,
      "learning_rate": 5.755777777777778e-06,
      "loss": 2.4798,
      "step": 24100
    },
    {
      "epoch": 0.482,
      "eval_loss": 2.494966983795166,
      "eval_runtime": 42.1105,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 24100
    },
    {
      "epoch": 0.4825,
      "grad_norm": 1.724012553640089,
      "learning_rate": 5.7502222222222224e-06,
      "loss": 2.492,
      "step": 24125
    },
    {
      "epoch": 0.483,
      "grad_norm": 1.5593719118175529,
      "learning_rate": 5.744666666666668e-06,
      "loss": 2.4992,
      "step": 24150
    },
    {
      "epoch": 0.4835,
      "grad_norm": 1.4563561175014,
      "learning_rate": 5.739111111111112e-06,
      "loss": 2.483,
      "step": 24175
    },
    {
      "epoch": 0.484,
      "grad_norm": 1.9716668461751605,
      "learning_rate": 5.733555555555556e-06,
      "loss": 2.4775,
      "step": 24200
    },
    {
      "epoch": 0.484,
      "eval_loss": 2.496168851852417,
      "eval_runtime": 42.3166,
      "eval_samples_per_second": 2.458,
      "eval_steps_per_second": 1.229,
      "step": 24200
    },
    {
      "epoch": 0.4845,
      "grad_norm": 1.6223608632555868,
      "learning_rate": 5.728e-06,
      "loss": 2.4938,
      "step": 24225
    },
    {
      "epoch": 0.485,
      "grad_norm": 1.8124849256229476,
      "learning_rate": 5.722444444444445e-06,
      "loss": 2.4893,
      "step": 24250
    },
    {
      "epoch": 0.4855,
      "grad_norm": 1.6579010992553698,
      "learning_rate": 5.71688888888889e-06,
      "loss": 2.4942,
      "step": 24275
    },
    {
      "epoch": 0.486,
      "grad_norm": 1.410328413248252,
      "learning_rate": 5.711333333333334e-06,
      "loss": 2.4937,
      "step": 24300
    },
    {
      "epoch": 0.486,
      "eval_loss": 2.495718240737915,
      "eval_runtime": 42.0132,
      "eval_samples_per_second": 2.475,
      "eval_steps_per_second": 1.238,
      "step": 24300
    },
    {
      "epoch": 0.4865,
      "grad_norm": 1.9277346944235951,
      "learning_rate": 5.705777777777778e-06,
      "loss": 2.479,
      "step": 24325
    },
    {
      "epoch": 0.487,
      "grad_norm": 1.5893324299723803,
      "learning_rate": 5.700222222222223e-06,
      "loss": 2.4838,
      "step": 24350
    },
    {
      "epoch": 0.4875,
      "grad_norm": 1.5770633693208091,
      "learning_rate": 5.694666666666667e-06,
      "loss": 2.4901,
      "step": 24375
    },
    {
      "epoch": 0.488,
      "grad_norm": 1.6854496777088896,
      "learning_rate": 5.689111111111112e-06,
      "loss": 2.5007,
      "step": 24400
    },
    {
      "epoch": 0.488,
      "eval_loss": 2.496168851852417,
      "eval_runtime": 43.5023,
      "eval_samples_per_second": 2.391,
      "eval_steps_per_second": 1.195,
      "step": 24400
    },
    {
      "epoch": 0.4885,
      "grad_norm": 1.6059332938869406,
      "learning_rate": 5.683555555555555e-06,
      "loss": 2.4763,
      "step": 24425
    },
    {
      "epoch": 0.489,
      "grad_norm": 1.8448505103902588,
      "learning_rate": 5.6780000000000005e-06,
      "loss": 2.4713,
      "step": 24450
    },
    {
      "epoch": 0.4895,
      "grad_norm": 1.828026713531965,
      "learning_rate": 5.672444444444445e-06,
      "loss": 2.4803,
      "step": 24475
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7245385734182257,
      "learning_rate": 5.666888888888889e-06,
      "loss": 2.4974,
      "step": 24500
    },
    {
      "epoch": 0.49,
      "eval_loss": 2.496319055557251,
      "eval_runtime": 41.9883,
      "eval_samples_per_second": 2.477,
      "eval_steps_per_second": 1.238,
      "step": 24500
    },
    {
      "epoch": 0.4905,
      "grad_norm": 1.654752362750881,
      "learning_rate": 5.661333333333335e-06,
      "loss": 2.49,
      "step": 24525
    },
    {
      "epoch": 0.491,
      "grad_norm": 2.0640763678406913,
      "learning_rate": 5.655777777777778e-06,
      "loss": 2.487,
      "step": 24550
    },
    {
      "epoch": 0.4915,
      "grad_norm": 1.7775362266613277,
      "learning_rate": 5.6502222222222225e-06,
      "loss": 2.4919,
      "step": 24575
    },
    {
      "epoch": 0.492,
      "grad_norm": 1.6816296653667397,
      "learning_rate": 5.644666666666667e-06,
      "loss": 2.4952,
      "step": 24600
    },
    {
      "epoch": 0.492,
      "eval_loss": 2.495567798614502,
      "eval_runtime": 42.0345,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 24600
    },
    {
      "epoch": 0.4925,
      "grad_norm": 1.8488396102725704,
      "learning_rate": 5.639111111111112e-06,
      "loss": 2.4869,
      "step": 24625
    },
    {
      "epoch": 0.493,
      "grad_norm": 2.4014309249280146,
      "learning_rate": 5.633555555555557e-06,
      "loss": 2.4947,
      "step": 24650
    },
    {
      "epoch": 0.4935,
      "grad_norm": 1.5758123058245277,
      "learning_rate": 5.628e-06,
      "loss": 2.4822,
      "step": 24675
    },
    {
      "epoch": 0.494,
      "grad_norm": 1.571501408759575,
      "learning_rate": 5.6224444444444446e-06,
      "loss": 2.4842,
      "step": 24700
    },
    {
      "epoch": 0.494,
      "eval_loss": 2.495342493057251,
      "eval_runtime": 41.9393,
      "eval_samples_per_second": 2.48,
      "eval_steps_per_second": 1.24,
      "step": 24700
    },
    {
      "epoch": 0.4945,
      "grad_norm": 1.5677328292731094,
      "learning_rate": 5.61688888888889e-06,
      "loss": 2.4905,
      "step": 24725
    },
    {
      "epoch": 0.495,
      "grad_norm": 1.5094287362417242,
      "learning_rate": 5.611333333333334e-06,
      "loss": 2.4946,
      "step": 24750
    },
    {
      "epoch": 0.4955,
      "grad_norm": 1.5432276470447515,
      "learning_rate": 5.605777777777778e-06,
      "loss": 2.4962,
      "step": 24775
    },
    {
      "epoch": 0.496,
      "grad_norm": 1.5457974211849954,
      "learning_rate": 5.600222222222222e-06,
      "loss": 2.4919,
      "step": 24800
    },
    {
      "epoch": 0.496,
      "eval_loss": 2.494215726852417,
      "eval_runtime": 42.2516,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.231,
      "step": 24800
    },
    {
      "epoch": 0.4965,
      "grad_norm": 1.6361335183659607,
      "learning_rate": 5.5946666666666674e-06,
      "loss": 2.487,
      "step": 24825
    },
    {
      "epoch": 0.497,
      "grad_norm": 1.8173808081693699,
      "learning_rate": 5.589111111111112e-06,
      "loss": 2.479,
      "step": 24850
    },
    {
      "epoch": 0.4975,
      "grad_norm": 1.6854171022859432,
      "learning_rate": 5.583555555555556e-06,
      "loss": 2.4993,
      "step": 24875
    },
    {
      "epoch": 0.498,
      "grad_norm": 1.6365148379710808,
      "learning_rate": 5.578e-06,
      "loss": 2.4852,
      "step": 24900
    },
    {
      "epoch": 0.498,
      "eval_loss": 2.493765115737915,
      "eval_runtime": 42.1248,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.234,
      "step": 24900
    },
    {
      "epoch": 0.4985,
      "grad_norm": 1.5615972971956127,
      "learning_rate": 5.572444444444445e-06,
      "loss": 2.4977,
      "step": 24925
    },
    {
      "epoch": 0.499,
      "grad_norm": 1.693163766073503,
      "learning_rate": 5.5668888888888894e-06,
      "loss": 2.4867,
      "step": 24950
    },
    {
      "epoch": 0.4995,
      "grad_norm": 1.5737551712651265,
      "learning_rate": 5.561333333333334e-06,
      "loss": 2.4762,
      "step": 24975
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.7427264492580536,
      "learning_rate": 5.555777777777777e-06,
      "loss": 2.4861,
      "step": 25000
    },
    {
      "epoch": 0.5,
      "eval_loss": 2.493915319442749,
      "eval_runtime": 41.9968,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 25000
    },
    {
      "epoch": 0.5005,
      "grad_norm": 1.8438730337633895,
      "learning_rate": 5.550222222222223e-06,
      "loss": 2.4812,
      "step": 25025
    },
    {
      "epoch": 0.501,
      "grad_norm": 1.5845445731569399,
      "learning_rate": 5.544666666666667e-06,
      "loss": 2.4959,
      "step": 25050
    },
    {
      "epoch": 0.5015,
      "grad_norm": 1.6937292500719925,
      "learning_rate": 5.5391111111111115e-06,
      "loss": 2.4818,
      "step": 25075
    },
    {
      "epoch": 0.502,
      "grad_norm": 1.5669838658843154,
      "learning_rate": 5.533555555555557e-06,
      "loss": 2.4816,
      "step": 25100
    },
    {
      "epoch": 0.502,
      "eval_loss": 2.493690013885498,
      "eval_runtime": 42.0016,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 25100
    },
    {
      "epoch": 0.5025,
      "grad_norm": 1.600971163031211,
      "learning_rate": 5.528e-06,
      "loss": 2.4838,
      "step": 25125
    },
    {
      "epoch": 0.503,
      "grad_norm": 1.9851965533839309,
      "learning_rate": 5.522444444444445e-06,
      "loss": 2.4885,
      "step": 25150
    },
    {
      "epoch": 0.5035,
      "grad_norm": 1.7723425329978737,
      "learning_rate": 5.516888888888889e-06,
      "loss": 2.4925,
      "step": 25175
    },
    {
      "epoch": 0.504,
      "grad_norm": 1.889418525336271,
      "learning_rate": 5.511333333333334e-06,
      "loss": 2.4759,
      "step": 25200
    },
    {
      "epoch": 0.504,
      "eval_loss": 2.493614673614502,
      "eval_runtime": 42.0388,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 25200
    },
    {
      "epoch": 0.5045,
      "grad_norm": 1.557355710858457,
      "learning_rate": 5.505777777777779e-06,
      "loss": 2.4933,
      "step": 25225
    },
    {
      "epoch": 0.505,
      "grad_norm": 1.4289509002855127,
      "learning_rate": 5.500222222222222e-06,
      "loss": 2.4764,
      "step": 25250
    },
    {
      "epoch": 0.5055,
      "grad_norm": 2.0701131776008626,
      "learning_rate": 5.494666666666667e-06,
      "loss": 2.4909,
      "step": 25275
    },
    {
      "epoch": 0.506,
      "grad_norm": 1.9321241945873977,
      "learning_rate": 5.489111111111112e-06,
      "loss": 2.4845,
      "step": 25300
    },
    {
      "epoch": 0.506,
      "eval_loss": 2.493690013885498,
      "eval_runtime": 42.0922,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 25300
    },
    {
      "epoch": 0.5065,
      "grad_norm": 1.9537576788400335,
      "learning_rate": 5.483555555555556e-06,
      "loss": 2.4786,
      "step": 25325
    },
    {
      "epoch": 0.507,
      "grad_norm": 1.6980710644083452,
      "learning_rate": 5.478e-06,
      "loss": 2.4795,
      "step": 25350
    },
    {
      "epoch": 0.5075,
      "grad_norm": 1.5484506629382506,
      "learning_rate": 5.472444444444444e-06,
      "loss": 2.4833,
      "step": 25375
    },
    {
      "epoch": 0.508,
      "grad_norm": 1.6724443082243972,
      "learning_rate": 5.4668888888888896e-06,
      "loss": 2.4879,
      "step": 25400
    },
    {
      "epoch": 0.508,
      "eval_loss": 2.493239164352417,
      "eval_runtime": 42.1742,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 25400
    },
    {
      "epoch": 0.5085,
      "grad_norm": 1.3386412056170005,
      "learning_rate": 5.461333333333334e-06,
      "loss": 2.4883,
      "step": 25425
    },
    {
      "epoch": 0.509,
      "grad_norm": 1.4729106659056963,
      "learning_rate": 5.455777777777778e-06,
      "loss": 2.4766,
      "step": 25450
    },
    {
      "epoch": 0.5095,
      "grad_norm": 1.7833947147008948,
      "learning_rate": 5.450222222222222e-06,
      "loss": 2.474,
      "step": 25475
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5624075472091785,
      "learning_rate": 5.444666666666667e-06,
      "loss": 2.4866,
      "step": 25500
    },
    {
      "epoch": 0.51,
      "eval_loss": 2.492638111114502,
      "eval_runtime": 42.1197,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.235,
      "step": 25500
    },
    {
      "epoch": 0.5105,
      "grad_norm": 1.4068350069424689,
      "learning_rate": 5.4391111111111116e-06,
      "loss": 2.4884,
      "step": 25525
    },
    {
      "epoch": 0.511,
      "grad_norm": 1.6651028818474918,
      "learning_rate": 5.433555555555556e-06,
      "loss": 2.4963,
      "step": 25550
    },
    {
      "epoch": 0.5115,
      "grad_norm": 1.9683991695231764,
      "learning_rate": 5.4279999999999995e-06,
      "loss": 2.4767,
      "step": 25575
    },
    {
      "epoch": 0.512,
      "grad_norm": 1.5817160900828389,
      "learning_rate": 5.422444444444445e-06,
      "loss": 2.4866,
      "step": 25600
    },
    {
      "epoch": 0.512,
      "eval_loss": 2.492037296295166,
      "eval_runtime": 42.2367,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 25600
    },
    {
      "epoch": 0.5125,
      "grad_norm": 1.9920404633859372,
      "learning_rate": 5.416888888888889e-06,
      "loss": 2.4789,
      "step": 25625
    },
    {
      "epoch": 0.513,
      "grad_norm": 1.6062047234053953,
      "learning_rate": 5.411333333333334e-06,
      "loss": 2.4843,
      "step": 25650
    },
    {
      "epoch": 0.5135,
      "grad_norm": 1.4808118249874782,
      "learning_rate": 5.405777777777779e-06,
      "loss": 2.4773,
      "step": 25675
    },
    {
      "epoch": 0.514,
      "grad_norm": 1.5762995050986617,
      "learning_rate": 5.400222222222222e-06,
      "loss": 2.4761,
      "step": 25700
    },
    {
      "epoch": 0.514,
      "eval_loss": 2.492638111114502,
      "eval_runtime": 42.0249,
      "eval_samples_per_second": 2.475,
      "eval_steps_per_second": 1.237,
      "step": 25700
    },
    {
      "epoch": 0.5145,
      "grad_norm": 1.5769121255174101,
      "learning_rate": 5.394666666666667e-06,
      "loss": 2.486,
      "step": 25725
    },
    {
      "epoch": 0.515,
      "grad_norm": 1.5986537037942432,
      "learning_rate": 5.389111111111112e-06,
      "loss": 2.4891,
      "step": 25750
    },
    {
      "epoch": 0.5155,
      "grad_norm": 2.2874785337770773,
      "learning_rate": 5.3835555555555565e-06,
      "loss": 2.478,
      "step": 25775
    },
    {
      "epoch": 0.516,
      "grad_norm": 1.7414349926742474,
      "learning_rate": 5.378e-06,
      "loss": 2.4774,
      "step": 25800
    },
    {
      "epoch": 0.516,
      "eval_loss": 2.4921875,
      "eval_runtime": 41.9966,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 25800
    },
    {
      "epoch": 0.5165,
      "grad_norm": 2.0172974192121123,
      "learning_rate": 5.372444444444444e-06,
      "loss": 2.4934,
      "step": 25825
    },
    {
      "epoch": 0.517,
      "grad_norm": 1.5561169245783213,
      "learning_rate": 5.36688888888889e-06,
      "loss": 2.4866,
      "step": 25850
    },
    {
      "epoch": 0.5175,
      "grad_norm": 1.4284499520085745,
      "learning_rate": 5.361333333333334e-06,
      "loss": 2.4842,
      "step": 25875
    },
    {
      "epoch": 0.518,
      "grad_norm": 1.9155244707740036,
      "learning_rate": 5.3557777777777785e-06,
      "loss": 2.4874,
      "step": 25900
    },
    {
      "epoch": 0.518,
      "eval_loss": 2.492938756942749,
      "eval_runtime": 42.0835,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.236,
      "step": 25900
    },
    {
      "epoch": 0.5185,
      "grad_norm": 1.6040839911312352,
      "learning_rate": 5.350222222222222e-06,
      "loss": 2.4824,
      "step": 25925
    },
    {
      "epoch": 0.519,
      "grad_norm": 1.6712395696171842,
      "learning_rate": 5.344666666666667e-06,
      "loss": 2.4879,
      "step": 25950
    },
    {
      "epoch": 0.5195,
      "grad_norm": 1.758235104913231,
      "learning_rate": 5.339111111111112e-06,
      "loss": 2.4861,
      "step": 25975
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6796927552485896,
      "learning_rate": 5.333555555555556e-06,
      "loss": 2.4868,
      "step": 26000
    },
    {
      "epoch": 0.52,
      "eval_loss": 2.492037296295166,
      "eval_runtime": 42.0048,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 26000
    },
    {
      "epoch": 0.5205,
      "grad_norm": 1.7927322040431553,
      "learning_rate": 5.328000000000001e-06,
      "loss": 2.488,
      "step": 26025
    },
    {
      "epoch": 0.521,
      "grad_norm": 1.709816499683575,
      "learning_rate": 5.322444444444445e-06,
      "loss": 2.4836,
      "step": 26050
    },
    {
      "epoch": 0.5215,
      "grad_norm": 1.7449814283063767,
      "learning_rate": 5.316888888888889e-06,
      "loss": 2.4766,
      "step": 26075
    },
    {
      "epoch": 0.522,
      "grad_norm": 1.800757946187847,
      "learning_rate": 5.311333333333334e-06,
      "loss": 2.4866,
      "step": 26100
    },
    {
      "epoch": 0.522,
      "eval_loss": 2.491586446762085,
      "eval_runtime": 42.1592,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.233,
      "step": 26100
    },
    {
      "epoch": 0.5225,
      "grad_norm": 1.4785039874268329,
      "learning_rate": 5.305777777777779e-06,
      "loss": 2.4772,
      "step": 26125
    },
    {
      "epoch": 0.523,
      "grad_norm": 1.6156704160593467,
      "learning_rate": 5.3002222222222225e-06,
      "loss": 2.4838,
      "step": 26150
    },
    {
      "epoch": 0.5235,
      "grad_norm": 1.876441130259544,
      "learning_rate": 5.294666666666667e-06,
      "loss": 2.4815,
      "step": 26175
    },
    {
      "epoch": 0.524,
      "grad_norm": 1.5958526208265105,
      "learning_rate": 5.289111111111111e-06,
      "loss": 2.4793,
      "step": 26200
    },
    {
      "epoch": 0.524,
      "eval_loss": 2.492638111114502,
      "eval_runtime": 41.9936,
      "eval_samples_per_second": 2.477,
      "eval_steps_per_second": 1.238,
      "step": 26200
    },
    {
      "epoch": 0.5245,
      "grad_norm": 1.8698955655387535,
      "learning_rate": 5.2835555555555566e-06,
      "loss": 2.4737,
      "step": 26225
    },
    {
      "epoch": 0.525,
      "grad_norm": 1.4826685535789965,
      "learning_rate": 5.278000000000001e-06,
      "loss": 2.4909,
      "step": 26250
    },
    {
      "epoch": 0.5255,
      "grad_norm": 1.5489333170337805,
      "learning_rate": 5.2724444444444445e-06,
      "loss": 2.4729,
      "step": 26275
    },
    {
      "epoch": 0.526,
      "grad_norm": 1.8447862669789803,
      "learning_rate": 5.266888888888889e-06,
      "loss": 2.4816,
      "step": 26300
    },
    {
      "epoch": 0.526,
      "eval_loss": 2.491586446762085,
      "eval_runtime": 42.3115,
      "eval_samples_per_second": 2.458,
      "eval_steps_per_second": 1.229,
      "step": 26300
    },
    {
      "epoch": 0.5265,
      "grad_norm": 2.1855822648986374,
      "learning_rate": 5.261333333333334e-06,
      "loss": 2.4779,
      "step": 26325
    },
    {
      "epoch": 0.527,
      "grad_norm": 1.5810719848941381,
      "learning_rate": 5.255777777777779e-06,
      "loss": 2.4821,
      "step": 26350
    },
    {
      "epoch": 0.5275,
      "grad_norm": 1.5623782109526432,
      "learning_rate": 5.250222222222222e-06,
      "loss": 2.4766,
      "step": 26375
    },
    {
      "epoch": 0.528,
      "grad_norm": 1.6477984535926522,
      "learning_rate": 5.2446666666666665e-06,
      "loss": 2.4893,
      "step": 26400
    },
    {
      "epoch": 0.528,
      "eval_loss": 2.492487907409668,
      "eval_runtime": 42.4178,
      "eval_samples_per_second": 2.452,
      "eval_steps_per_second": 1.226,
      "step": 26400
    },
    {
      "epoch": 0.5285,
      "grad_norm": 1.4456706601195428,
      "learning_rate": 5.239111111111112e-06,
      "loss": 2.4689,
      "step": 26425
    },
    {
      "epoch": 0.529,
      "grad_norm": 1.619354966410627,
      "learning_rate": 5.233555555555556e-06,
      "loss": 2.4934,
      "step": 26450
    },
    {
      "epoch": 0.5295,
      "grad_norm": 1.6407357744493487,
      "learning_rate": 5.228000000000001e-06,
      "loss": 2.4788,
      "step": 26475
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5014719688542661,
      "learning_rate": 5.222444444444444e-06,
      "loss": 2.4806,
      "step": 26500
    },
    {
      "epoch": 0.53,
      "eval_loss": 2.491586446762085,
      "eval_runtime": 42.4163,
      "eval_samples_per_second": 2.452,
      "eval_steps_per_second": 1.226,
      "step": 26500
    },
    {
      "epoch": 0.5305,
      "grad_norm": 1.8037554375504237,
      "learning_rate": 5.216888888888889e-06,
      "loss": 2.4892,
      "step": 26525
    },
    {
      "epoch": 0.531,
      "grad_norm": 1.8232069881377546,
      "learning_rate": 5.211333333333334e-06,
      "loss": 2.477,
      "step": 26550
    },
    {
      "epoch": 0.5315,
      "grad_norm": 1.4545112871448216,
      "learning_rate": 5.205777777777778e-06,
      "loss": 2.47,
      "step": 26575
    },
    {
      "epoch": 0.532,
      "grad_norm": 1.6671232638211413,
      "learning_rate": 5.2002222222222235e-06,
      "loss": 2.4785,
      "step": 26600
    },
    {
      "epoch": 0.532,
      "eval_loss": 2.491135835647583,
      "eval_runtime": 42.1218,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.235,
      "step": 26600
    },
    {
      "epoch": 0.5325,
      "grad_norm": 1.9297081231798778,
      "learning_rate": 5.194666666666667e-06,
      "loss": 2.476,
      "step": 26625
    },
    {
      "epoch": 0.533,
      "grad_norm": 1.6068082734569302,
      "learning_rate": 5.189111111111111e-06,
      "loss": 2.4726,
      "step": 26650
    },
    {
      "epoch": 0.5335,
      "grad_norm": 1.8924202881555907,
      "learning_rate": 5.183555555555556e-06,
      "loss": 2.479,
      "step": 26675
    },
    {
      "epoch": 0.534,
      "grad_norm": 1.923018297318397,
      "learning_rate": 5.178000000000001e-06,
      "loss": 2.4873,
      "step": 26700
    },
    {
      "epoch": 0.534,
      "eval_loss": 2.490985631942749,
      "eval_runtime": 42.2438,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 26700
    },
    {
      "epoch": 0.5345,
      "grad_norm": 1.9168466246099205,
      "learning_rate": 5.172444444444445e-06,
      "loss": 2.4797,
      "step": 26725
    },
    {
      "epoch": 0.535,
      "grad_norm": 1.5511860518405212,
      "learning_rate": 5.166888888888889e-06,
      "loss": 2.4894,
      "step": 26750
    },
    {
      "epoch": 0.5355,
      "grad_norm": 1.70846739404154,
      "learning_rate": 5.1613333333333334e-06,
      "loss": 2.49,
      "step": 26775
    },
    {
      "epoch": 0.536,
      "grad_norm": 1.7649245588854532,
      "learning_rate": 5.155777777777779e-06,
      "loss": 2.4844,
      "step": 26800
    },
    {
      "epoch": 0.536,
      "eval_loss": 2.491286039352417,
      "eval_runtime": 44.926,
      "eval_samples_per_second": 2.315,
      "eval_steps_per_second": 1.157,
      "step": 26800
    },
    {
      "epoch": 0.5365,
      "grad_norm": 1.6949418527217845,
      "learning_rate": 5.150222222222223e-06,
      "loss": 2.4792,
      "step": 26825
    },
    {
      "epoch": 0.537,
      "grad_norm": 1.7211321617838393,
      "learning_rate": 5.144666666666667e-06,
      "loss": 2.4689,
      "step": 26850
    },
    {
      "epoch": 0.5375,
      "grad_norm": 1.5634724982328139,
      "learning_rate": 5.139111111111111e-06,
      "loss": 2.4764,
      "step": 26875
    },
    {
      "epoch": 0.538,
      "grad_norm": 1.4731713419946888,
      "learning_rate": 5.133555555555556e-06,
      "loss": 2.4896,
      "step": 26900
    },
    {
      "epoch": 0.538,
      "eval_loss": 2.490985631942749,
      "eval_runtime": 42.1087,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 26900
    },
    {
      "epoch": 0.5385,
      "grad_norm": 1.6975694381491109,
      "learning_rate": 5.128000000000001e-06,
      "loss": 2.4839,
      "step": 26925
    },
    {
      "epoch": 0.539,
      "grad_norm": 1.6542344587416413,
      "learning_rate": 5.122444444444444e-06,
      "loss": 2.4744,
      "step": 26950
    },
    {
      "epoch": 0.5395,
      "grad_norm": 2.0207216011141957,
      "learning_rate": 5.116888888888889e-06,
      "loss": 2.4766,
      "step": 26975
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4426323821386091,
      "learning_rate": 5.111333333333334e-06,
      "loss": 2.4973,
      "step": 27000
    },
    {
      "epoch": 0.54,
      "eval_loss": 2.489933967590332,
      "eval_runtime": 42.1485,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 27000
    },
    {
      "epoch": 0.5405,
      "grad_norm": 1.727651344279208,
      "learning_rate": 5.105777777777778e-06,
      "loss": 2.4838,
      "step": 27025
    },
    {
      "epoch": 0.541,
      "grad_norm": 1.5442483205518531,
      "learning_rate": 5.100222222222223e-06,
      "loss": 2.4809,
      "step": 27050
    },
    {
      "epoch": 0.5415,
      "grad_norm": 1.40651252711009,
      "learning_rate": 5.094666666666666e-06,
      "loss": 2.4706,
      "step": 27075
    },
    {
      "epoch": 0.542,
      "grad_norm": 1.7545319542621403,
      "learning_rate": 5.0891111111111115e-06,
      "loss": 2.4721,
      "step": 27100
    },
    {
      "epoch": 0.542,
      "eval_loss": 2.490084171295166,
      "eval_runtime": 43.0804,
      "eval_samples_per_second": 2.414,
      "eval_steps_per_second": 1.207,
      "step": 27100
    },
    {
      "epoch": 0.5425,
      "grad_norm": 1.637911311759051,
      "learning_rate": 5.083555555555556e-06,
      "loss": 2.4894,
      "step": 27125
    },
    {
      "epoch": 0.543,
      "grad_norm": 1.4239758301250145,
      "learning_rate": 5.078e-06,
      "loss": 2.4801,
      "step": 27150
    },
    {
      "epoch": 0.5435,
      "grad_norm": 1.6450091185880866,
      "learning_rate": 5.072444444444446e-06,
      "loss": 2.4759,
      "step": 27175
    },
    {
      "epoch": 0.544,
      "grad_norm": 1.4349587998959799,
      "learning_rate": 5.066888888888889e-06,
      "loss": 2.4865,
      "step": 27200
    },
    {
      "epoch": 0.544,
      "eval_loss": 2.490684986114502,
      "eval_runtime": 42.0417,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 27200
    },
    {
      "epoch": 0.5445,
      "grad_norm": 1.7505081692992401,
      "learning_rate": 5.0613333333333336e-06,
      "loss": 2.4808,
      "step": 27225
    },
    {
      "epoch": 0.545,
      "grad_norm": 1.6930597849409967,
      "learning_rate": 5.055777777777778e-06,
      "loss": 2.4952,
      "step": 27250
    },
    {
      "epoch": 0.5455,
      "grad_norm": 1.4876819935377472,
      "learning_rate": 5.050222222222223e-06,
      "loss": 2.4691,
      "step": 27275
    },
    {
      "epoch": 0.546,
      "grad_norm": 1.4170295363864975,
      "learning_rate": 5.044666666666667e-06,
      "loss": 2.4751,
      "step": 27300
    },
    {
      "epoch": 0.546,
      "eval_loss": 2.490835428237915,
      "eval_runtime": 42.4006,
      "eval_samples_per_second": 2.453,
      "eval_steps_per_second": 1.226,
      "step": 27300
    },
    {
      "epoch": 0.5465,
      "grad_norm": 1.7843291870298674,
      "learning_rate": 5.039111111111111e-06,
      "loss": 2.4761,
      "step": 27325
    },
    {
      "epoch": 0.547,
      "grad_norm": 1.5426413891719484,
      "learning_rate": 5.0335555555555556e-06,
      "loss": 2.4849,
      "step": 27350
    },
    {
      "epoch": 0.5475,
      "grad_norm": 1.3812674284211477,
      "learning_rate": 5.028000000000001e-06,
      "loss": 2.4878,
      "step": 27375
    },
    {
      "epoch": 0.548,
      "grad_norm": 2.260081313502721,
      "learning_rate": 5.022444444444445e-06,
      "loss": 2.4707,
      "step": 27400
    },
    {
      "epoch": 0.548,
      "eval_loss": 2.489933967590332,
      "eval_runtime": 42.0251,
      "eval_samples_per_second": 2.475,
      "eval_steps_per_second": 1.237,
      "step": 27400
    },
    {
      "epoch": 0.5485,
      "grad_norm": 1.464185051464752,
      "learning_rate": 5.016888888888889e-06,
      "loss": 2.4869,
      "step": 27425
    },
    {
      "epoch": 0.549,
      "grad_norm": 2.1160984461081442,
      "learning_rate": 5.011333333333333e-06,
      "loss": 2.478,
      "step": 27450
    },
    {
      "epoch": 0.5495,
      "grad_norm": 1.7732190500264444,
      "learning_rate": 5.0057777777777784e-06,
      "loss": 2.4771,
      "step": 27475
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4626071474570326,
      "learning_rate": 5.000222222222223e-06,
      "loss": 2.4792,
      "step": 27500
    },
    {
      "epoch": 0.55,
      "eval_loss": 2.489783763885498,
      "eval_runtime": 42.0897,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 27500
    },
    {
      "epoch": 0.5505,
      "grad_norm": 1.8092145878164858,
      "learning_rate": 4.994666666666667e-06,
      "loss": 2.4855,
      "step": 27525
    },
    {
      "epoch": 0.551,
      "grad_norm": 1.5682910450933265,
      "learning_rate": 4.989111111111112e-06,
      "loss": 2.4765,
      "step": 27550
    },
    {
      "epoch": 0.5515,
      "grad_norm": 1.874571179946245,
      "learning_rate": 4.983555555555556e-06,
      "loss": 2.4793,
      "step": 27575
    },
    {
      "epoch": 0.552,
      "grad_norm": 1.6089930133640205,
      "learning_rate": 4.9780000000000005e-06,
      "loss": 2.4863,
      "step": 27600
    },
    {
      "epoch": 0.552,
      "eval_loss": 2.490534782409668,
      "eval_runtime": 42.3336,
      "eval_samples_per_second": 2.457,
      "eval_steps_per_second": 1.228,
      "step": 27600
    },
    {
      "epoch": 0.5525,
      "grad_norm": 1.551157211234524,
      "learning_rate": 4.972444444444445e-06,
      "loss": 2.4746,
      "step": 27625
    },
    {
      "epoch": 0.553,
      "grad_norm": 2.2396111295100583,
      "learning_rate": 4.966888888888889e-06,
      "loss": 2.4886,
      "step": 27650
    },
    {
      "epoch": 0.5535,
      "grad_norm": 1.4351588866370257,
      "learning_rate": 4.961333333333334e-06,
      "loss": 2.4664,
      "step": 27675
    },
    {
      "epoch": 0.554,
      "grad_norm": 1.8977544951730208,
      "learning_rate": 4.955777777777778e-06,
      "loss": 2.4742,
      "step": 27700
    },
    {
      "epoch": 0.554,
      "eval_loss": 2.490384578704834,
      "eval_runtime": 42.2362,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 27700
    },
    {
      "epoch": 0.5545,
      "grad_norm": 1.5391291827735178,
      "learning_rate": 4.9502222222222225e-06,
      "loss": 2.4831,
      "step": 27725
    },
    {
      "epoch": 0.555,
      "grad_norm": 1.4160561418828588,
      "learning_rate": 4.944666666666667e-06,
      "loss": 2.466,
      "step": 27750
    },
    {
      "epoch": 0.5555,
      "grad_norm": 1.4931864972796802,
      "learning_rate": 4.939111111111112e-06,
      "loss": 2.4831,
      "step": 27775
    },
    {
      "epoch": 0.556,
      "grad_norm": 1.5482786852574648,
      "learning_rate": 4.933555555555556e-06,
      "loss": 2.4806,
      "step": 27800
    },
    {
      "epoch": 0.556,
      "eval_loss": 2.489783763885498,
      "eval_runtime": 42.111,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 27800
    },
    {
      "epoch": 0.5565,
      "grad_norm": 1.8463112933987198,
      "learning_rate": 4.928000000000001e-06,
      "loss": 2.4758,
      "step": 27825
    },
    {
      "epoch": 0.557,
      "grad_norm": 1.7586369656025977,
      "learning_rate": 4.9224444444444445e-06,
      "loss": 2.4804,
      "step": 27850
    },
    {
      "epoch": 0.5575,
      "grad_norm": 1.6525898801259165,
      "learning_rate": 4.91688888888889e-06,
      "loss": 2.4812,
      "step": 27875
    },
    {
      "epoch": 0.558,
      "grad_norm": 1.550298003662158,
      "learning_rate": 4.911333333333333e-06,
      "loss": 2.4789,
      "step": 27900
    },
    {
      "epoch": 0.558,
      "eval_loss": 2.489783763885498,
      "eval_runtime": 42.245,
      "eval_samples_per_second": 2.462,
      "eval_steps_per_second": 1.231,
      "step": 27900
    },
    {
      "epoch": 0.5585,
      "grad_norm": 1.4752148016694464,
      "learning_rate": 4.9057777777777785e-06,
      "loss": 2.4846,
      "step": 27925
    },
    {
      "epoch": 0.559,
      "grad_norm": 1.6987213005694823,
      "learning_rate": 4.900222222222223e-06,
      "loss": 2.4892,
      "step": 27950
    },
    {
      "epoch": 0.5595,
      "grad_norm": 1.766735952415946,
      "learning_rate": 4.894666666666667e-06,
      "loss": 2.476,
      "step": 27975
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9053561984498626,
      "learning_rate": 4.889111111111112e-06,
      "loss": 2.4828,
      "step": 28000
    },
    {
      "epoch": 0.56,
      "eval_loss": 2.489332914352417,
      "eval_runtime": 42.0748,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 28000
    },
    {
      "epoch": 0.5605,
      "grad_norm": 2.144461049173253,
      "learning_rate": 4.883555555555556e-06,
      "loss": 2.4856,
      "step": 28025
    },
    {
      "epoch": 0.561,
      "grad_norm": 1.3350903619607775,
      "learning_rate": 4.8780000000000006e-06,
      "loss": 2.4783,
      "step": 28050
    },
    {
      "epoch": 0.5615,
      "grad_norm": 1.5621884757020892,
      "learning_rate": 4.872444444444445e-06,
      "loss": 2.4803,
      "step": 28075
    },
    {
      "epoch": 0.562,
      "grad_norm": 1.4616049627181629,
      "learning_rate": 4.866888888888889e-06,
      "loss": 2.4825,
      "step": 28100
    },
    {
      "epoch": 0.562,
      "eval_loss": 2.488055944442749,
      "eval_runtime": 42.0437,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 28100
    },
    {
      "epoch": 0.5625,
      "grad_norm": 1.4810616433375359,
      "learning_rate": 4.861333333333334e-06,
      "loss": 2.4752,
      "step": 28125
    },
    {
      "epoch": 0.563,
      "grad_norm": 1.6152429539827204,
      "learning_rate": 4.855777777777778e-06,
      "loss": 2.4902,
      "step": 28150
    },
    {
      "epoch": 0.5635,
      "grad_norm": 1.354685577050834,
      "learning_rate": 4.850222222222223e-06,
      "loss": 2.4766,
      "step": 28175
    },
    {
      "epoch": 0.564,
      "grad_norm": 1.824132812508577,
      "learning_rate": 4.844666666666667e-06,
      "loss": 2.4796,
      "step": 28200
    },
    {
      "epoch": 0.564,
      "eval_loss": 2.489107608795166,
      "eval_runtime": 45.1591,
      "eval_samples_per_second": 2.303,
      "eval_steps_per_second": 1.151,
      "step": 28200
    },
    {
      "epoch": 0.5645,
      "grad_norm": 1.8667362233397378,
      "learning_rate": 4.839111111111111e-06,
      "loss": 2.478,
      "step": 28225
    },
    {
      "epoch": 0.565,
      "grad_norm": 1.3246777471755542,
      "learning_rate": 4.833555555555556e-06,
      "loss": 2.4722,
      "step": 28250
    },
    {
      "epoch": 0.5655,
      "grad_norm": 2.4861456554641106,
      "learning_rate": 4.828e-06,
      "loss": 2.4763,
      "step": 28275
    },
    {
      "epoch": 0.566,
      "grad_norm": 2.273656159397392,
      "learning_rate": 4.822444444444445e-06,
      "loss": 2.496,
      "step": 28300
    },
    {
      "epoch": 0.566,
      "eval_loss": 2.488882303237915,
      "eval_runtime": 42.1382,
      "eval_samples_per_second": 2.468,
      "eval_steps_per_second": 1.234,
      "step": 28300
    },
    {
      "epoch": 0.5665,
      "grad_norm": 1.7335326375540372,
      "learning_rate": 4.816888888888889e-06,
      "loss": 2.4799,
      "step": 28325
    },
    {
      "epoch": 0.567,
      "grad_norm": 1.476963235978476,
      "learning_rate": 4.811333333333334e-06,
      "loss": 2.4758,
      "step": 28350
    },
    {
      "epoch": 0.5675,
      "grad_norm": 1.614172400742854,
      "learning_rate": 4.805777777777778e-06,
      "loss": 2.4701,
      "step": 28375
    },
    {
      "epoch": 0.568,
      "grad_norm": 1.5433907585433042,
      "learning_rate": 4.800222222222223e-06,
      "loss": 2.4735,
      "step": 28400
    },
    {
      "epoch": 0.568,
      "eval_loss": 2.487905740737915,
      "eval_runtime": 42.2544,
      "eval_samples_per_second": 2.461,
      "eval_steps_per_second": 1.231,
      "step": 28400
    },
    {
      "epoch": 0.5685,
      "grad_norm": 1.7130096790382827,
      "learning_rate": 4.794666666666667e-06,
      "loss": 2.4746,
      "step": 28425
    },
    {
      "epoch": 0.569,
      "grad_norm": 1.7856462647761844,
      "learning_rate": 4.789111111111112e-06,
      "loss": 2.4828,
      "step": 28450
    },
    {
      "epoch": 0.5695,
      "grad_norm": 1.4131692544530836,
      "learning_rate": 4.783555555555555e-06,
      "loss": 2.478,
      "step": 28475
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7880087560740088,
      "learning_rate": 4.778000000000001e-06,
      "loss": 2.4699,
      "step": 28500
    },
    {
      "epoch": 0.57,
      "eval_loss": 2.487980842590332,
      "eval_runtime": 42.1252,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.234,
      "step": 28500
    },
    {
      "epoch": 0.5705,
      "grad_norm": 1.758424134177552,
      "learning_rate": 4.772444444444445e-06,
      "loss": 2.4798,
      "step": 28525
    },
    {
      "epoch": 0.571,
      "grad_norm": 5.093987748057773,
      "learning_rate": 4.7668888888888895e-06,
      "loss": 2.4756,
      "step": 28550
    },
    {
      "epoch": 0.5715,
      "grad_norm": 5.256165943327436,
      "learning_rate": 4.761333333333334e-06,
      "loss": 2.4748,
      "step": 28575
    },
    {
      "epoch": 0.572,
      "grad_norm": 1.5827507751206678,
      "learning_rate": 4.755777777777778e-06,
      "loss": 2.4778,
      "step": 28600
    },
    {
      "epoch": 0.572,
      "eval_loss": 2.487905740737915,
      "eval_runtime": 42.0512,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.237,
      "step": 28600
    },
    {
      "epoch": 0.5725,
      "grad_norm": 1.7532853692705757,
      "learning_rate": 4.750222222222223e-06,
      "loss": 2.4783,
      "step": 28625
    },
    {
      "epoch": 0.573,
      "grad_norm": 1.6429656832593857,
      "learning_rate": 4.744666666666667e-06,
      "loss": 2.475,
      "step": 28650
    },
    {
      "epoch": 0.5735,
      "grad_norm": 2.0339442737017692,
      "learning_rate": 4.7391111111111115e-06,
      "loss": 2.4782,
      "step": 28675
    },
    {
      "epoch": 0.574,
      "grad_norm": 1.4408064873889779,
      "learning_rate": 4.733555555555556e-06,
      "loss": 2.4687,
      "step": 28700
    },
    {
      "epoch": 0.574,
      "eval_loss": 2.487980842590332,
      "eval_runtime": 42.1872,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.233,
      "step": 28700
    },
    {
      "epoch": 0.5745,
      "grad_norm": 1.8799882196046132,
      "learning_rate": 4.728e-06,
      "loss": 2.4756,
      "step": 28725
    },
    {
      "epoch": 0.575,
      "grad_norm": 1.9248637069957502,
      "learning_rate": 4.722444444444445e-06,
      "loss": 2.4849,
      "step": 28750
    },
    {
      "epoch": 0.5755,
      "grad_norm": 1.586395752176718,
      "learning_rate": 4.716888888888889e-06,
      "loss": 2.475,
      "step": 28775
    },
    {
      "epoch": 0.576,
      "grad_norm": 1.7514536997917936,
      "learning_rate": 4.7113333333333335e-06,
      "loss": 2.4795,
      "step": 28800
    },
    {
      "epoch": 0.576,
      "eval_loss": 2.487605094909668,
      "eval_runtime": 42.3086,
      "eval_samples_per_second": 2.458,
      "eval_steps_per_second": 1.229,
      "step": 28800
    },
    {
      "epoch": 0.5765,
      "grad_norm": 1.7657920591581606,
      "learning_rate": 4.705777777777778e-06,
      "loss": 2.4813,
      "step": 28825
    },
    {
      "epoch": 0.577,
      "grad_norm": 1.76172458187831,
      "learning_rate": 4.700222222222222e-06,
      "loss": 2.4733,
      "step": 28850
    },
    {
      "epoch": 0.5775,
      "grad_norm": 2.2593159694738105,
      "learning_rate": 4.694666666666667e-06,
      "loss": 2.4753,
      "step": 28875
    },
    {
      "epoch": 0.578,
      "grad_norm": 1.5075015238201164,
      "learning_rate": 4.689111111111111e-06,
      "loss": 2.4838,
      "step": 28900
    },
    {
      "epoch": 0.578,
      "eval_loss": 2.486778736114502,
      "eval_runtime": 42.0946,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 28900
    },
    {
      "epoch": 0.5785,
      "grad_norm": 1.9096457596197174,
      "learning_rate": 4.683555555555556e-06,
      "loss": 2.466,
      "step": 28925
    },
    {
      "epoch": 0.579,
      "grad_norm": 1.6478837391104164,
      "learning_rate": 4.678e-06,
      "loss": 2.4823,
      "step": 28950
    },
    {
      "epoch": 0.5795,
      "grad_norm": 1.7496008847296354,
      "learning_rate": 4.672444444444445e-06,
      "loss": 2.4681,
      "step": 28975
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.0857269701206294,
      "learning_rate": 4.666888888888889e-06,
      "loss": 2.4779,
      "step": 29000
    },
    {
      "epoch": 0.58,
      "eval_loss": 2.487154483795166,
      "eval_runtime": 45.0074,
      "eval_samples_per_second": 2.311,
      "eval_steps_per_second": 1.155,
      "step": 29000
    },
    {
      "epoch": 0.5805,
      "grad_norm": 1.6501171946581177,
      "learning_rate": 4.661333333333334e-06,
      "loss": 2.4722,
      "step": 29025
    },
    {
      "epoch": 0.581,
      "grad_norm": 2.0385883184104023,
      "learning_rate": 4.6557777777777775e-06,
      "loss": 2.4828,
      "step": 29050
    },
    {
      "epoch": 0.5815,
      "grad_norm": 1.9320799357296703,
      "learning_rate": 4.650222222222223e-06,
      "loss": 2.4809,
      "step": 29075
    },
    {
      "epoch": 0.582,
      "grad_norm": 1.621435742219476,
      "learning_rate": 4.644666666666667e-06,
      "loss": 2.481,
      "step": 29100
    },
    {
      "epoch": 0.582,
      "eval_loss": 2.487454891204834,
      "eval_runtime": 42.0061,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 29100
    },
    {
      "epoch": 0.5825,
      "grad_norm": 1.7128564196532694,
      "learning_rate": 4.639111111111112e-06,
      "loss": 2.4813,
      "step": 29125
    },
    {
      "epoch": 0.583,
      "grad_norm": 1.8698718439322104,
      "learning_rate": 4.633555555555556e-06,
      "loss": 2.4756,
      "step": 29150
    },
    {
      "epoch": 0.5835,
      "grad_norm": 1.434316544110903,
      "learning_rate": 4.628e-06,
      "loss": 2.4692,
      "step": 29175
    },
    {
      "epoch": 0.584,
      "grad_norm": 1.3442711807298444,
      "learning_rate": 4.622444444444445e-06,
      "loss": 2.4709,
      "step": 29200
    },
    {
      "epoch": 0.584,
      "eval_loss": 2.487905740737915,
      "eval_runtime": 41.9971,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 29200
    },
    {
      "epoch": 0.5845,
      "grad_norm": 1.5328720197074137,
      "learning_rate": 4.616888888888889e-06,
      "loss": 2.4746,
      "step": 29225
    },
    {
      "epoch": 0.585,
      "grad_norm": 1.5725382105743666,
      "learning_rate": 4.611333333333334e-06,
      "loss": 2.4819,
      "step": 29250
    },
    {
      "epoch": 0.5855,
      "grad_norm": 1.4964906172312495,
      "learning_rate": 4.605777777777778e-06,
      "loss": 2.482,
      "step": 29275
    },
    {
      "epoch": 0.586,
      "grad_norm": 1.617079083788056,
      "learning_rate": 4.6002222222222224e-06,
      "loss": 2.4739,
      "step": 29300
    },
    {
      "epoch": 0.586,
      "eval_loss": 2.487680196762085,
      "eval_runtime": 42.1507,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 29300
    },
    {
      "epoch": 0.5865,
      "grad_norm": 1.4819296811516258,
      "learning_rate": 4.594666666666668e-06,
      "loss": 2.4832,
      "step": 29325
    },
    {
      "epoch": 0.587,
      "grad_norm": 1.3092419721580602,
      "learning_rate": 4.589111111111111e-06,
      "loss": 2.4822,
      "step": 29350
    },
    {
      "epoch": 0.5875,
      "grad_norm": 1.4575719284240751,
      "learning_rate": 4.5835555555555565e-06,
      "loss": 2.4739,
      "step": 29375
    },
    {
      "epoch": 0.588,
      "grad_norm": 1.7292045048720295,
      "learning_rate": 4.578e-06,
      "loss": 2.4801,
      "step": 29400
    },
    {
      "epoch": 0.588,
      "eval_loss": 2.488506555557251,
      "eval_runtime": 42.1488,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.234,
      "step": 29400
    },
    {
      "epoch": 0.5885,
      "grad_norm": 1.4525988194578041,
      "learning_rate": 4.572444444444445e-06,
      "loss": 2.4681,
      "step": 29425
    },
    {
      "epoch": 0.589,
      "grad_norm": 1.5635408485295743,
      "learning_rate": 4.566888888888889e-06,
      "loss": 2.4772,
      "step": 29450
    },
    {
      "epoch": 0.5895,
      "grad_norm": 1.8459325811373328,
      "learning_rate": 4.561333333333334e-06,
      "loss": 2.48,
      "step": 29475
    },
    {
      "epoch": 0.59,
      "grad_norm": 5.520097362807989,
      "learning_rate": 4.5557777777777785e-06,
      "loss": 2.4692,
      "step": 29500
    },
    {
      "epoch": 0.59,
      "eval_loss": 2.487529993057251,
      "eval_runtime": 42.0538,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.237,
      "step": 29500
    },
    {
      "epoch": 0.5905,
      "grad_norm": 1.936946754777132,
      "learning_rate": 4.550222222222223e-06,
      "loss": 2.4806,
      "step": 29525
    },
    {
      "epoch": 0.591,
      "grad_norm": 1.7650702808090162,
      "learning_rate": 4.544666666666667e-06,
      "loss": 2.4827,
      "step": 29550
    },
    {
      "epoch": 0.5915,
      "grad_norm": 1.6432778042841247,
      "learning_rate": 4.539111111111112e-06,
      "loss": 2.501,
      "step": 29575
    },
    {
      "epoch": 0.592,
      "grad_norm": 1.570089918108593,
      "learning_rate": 4.533555555555556e-06,
      "loss": 2.4779,
      "step": 29600
    },
    {
      "epoch": 0.592,
      "eval_loss": 2.487079381942749,
      "eval_runtime": 42.0387,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 29600
    },
    {
      "epoch": 0.5925,
      "grad_norm": 1.8309346037580878,
      "learning_rate": 4.5280000000000005e-06,
      "loss": 2.4779,
      "step": 29625
    },
    {
      "epoch": 0.593,
      "grad_norm": 1.5648215075167478,
      "learning_rate": 4.522444444444445e-06,
      "loss": 2.488,
      "step": 29650
    },
    {
      "epoch": 0.5935,
      "grad_norm": 1.9251431633746274,
      "learning_rate": 4.516888888888889e-06,
      "loss": 2.479,
      "step": 29675
    },
    {
      "epoch": 0.594,
      "grad_norm": 1.6022401390846497,
      "learning_rate": 4.511333333333334e-06,
      "loss": 2.4766,
      "step": 29700
    },
    {
      "epoch": 0.594,
      "eval_loss": 2.486478328704834,
      "eval_runtime": 42.0394,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 29700
    },
    {
      "epoch": 0.5945,
      "grad_norm": 1.4739566961989459,
      "learning_rate": 4.505777777777778e-06,
      "loss": 2.4709,
      "step": 29725
    },
    {
      "epoch": 0.595,
      "grad_norm": 1.4317916459790678,
      "learning_rate": 4.5002222222222225e-06,
      "loss": 2.4867,
      "step": 29750
    },
    {
      "epoch": 0.5955,
      "grad_norm": 1.3621914626964444,
      "learning_rate": 4.494666666666667e-06,
      "loss": 2.4858,
      "step": 29775
    },
    {
      "epoch": 0.596,
      "grad_norm": 1.762991387362707,
      "learning_rate": 4.489111111111111e-06,
      "loss": 2.4761,
      "step": 29800
    },
    {
      "epoch": 0.596,
      "eval_loss": 2.486854076385498,
      "eval_runtime": 42.1035,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 29800
    },
    {
      "epoch": 0.5965,
      "grad_norm": 2.7944818443296833,
      "learning_rate": 4.483555555555556e-06,
      "loss": 2.4752,
      "step": 29825
    },
    {
      "epoch": 0.597,
      "grad_norm": 1.7646617518792247,
      "learning_rate": 4.478e-06,
      "loss": 2.4772,
      "step": 29850
    },
    {
      "epoch": 0.5975,
      "grad_norm": 1.852440978638661,
      "learning_rate": 4.4724444444444446e-06,
      "loss": 2.4832,
      "step": 29875
    },
    {
      "epoch": 0.598,
      "grad_norm": 1.5419472686342337,
      "learning_rate": 4.46688888888889e-06,
      "loss": 2.4794,
      "step": 29900
    },
    {
      "epoch": 0.598,
      "eval_loss": 2.486703634262085,
      "eval_runtime": 42.0804,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.236,
      "step": 29900
    },
    {
      "epoch": 0.5985,
      "grad_norm": 1.4408330605290736,
      "learning_rate": 4.461333333333333e-06,
      "loss": 2.4779,
      "step": 29925
    },
    {
      "epoch": 0.599,
      "grad_norm": 1.9652594924504245,
      "learning_rate": 4.455777777777779e-06,
      "loss": 2.4825,
      "step": 29950
    },
    {
      "epoch": 0.5995,
      "grad_norm": 1.4037696628029297,
      "learning_rate": 4.450222222222222e-06,
      "loss": 2.4857,
      "step": 29975
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4514643294011689,
      "learning_rate": 4.444666666666667e-06,
      "loss": 2.4805,
      "step": 30000
    },
    {
      "epoch": 0.6,
      "eval_loss": 2.486553430557251,
      "eval_runtime": 42.0779,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 30000
    },
    {
      "epoch": 0.6005,
      "grad_norm": 4.855971441259274,
      "learning_rate": 4.439111111111111e-06,
      "loss": 2.4748,
      "step": 30025
    },
    {
      "epoch": 0.601,
      "grad_norm": 1.859161105295684,
      "learning_rate": 4.433555555555556e-06,
      "loss": 2.4847,
      "step": 30050
    },
    {
      "epoch": 0.6015,
      "grad_norm": 1.4187223718717354,
      "learning_rate": 4.428000000000001e-06,
      "loss": 2.4789,
      "step": 30075
    },
    {
      "epoch": 0.602,
      "grad_norm": 1.5762599817825458,
      "learning_rate": 4.422444444444445e-06,
      "loss": 2.4756,
      "step": 30100
    },
    {
      "epoch": 0.602,
      "eval_loss": 2.486328125,
      "eval_runtime": 42.0566,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 30100
    },
    {
      "epoch": 0.6025,
      "grad_norm": 1.5749054487833107,
      "learning_rate": 4.4168888888888894e-06,
      "loss": 2.4677,
      "step": 30125
    },
    {
      "epoch": 0.603,
      "grad_norm": 1.6377921932449546,
      "learning_rate": 4.411333333333334e-06,
      "loss": 2.4799,
      "step": 30150
    },
    {
      "epoch": 0.6035,
      "grad_norm": 1.620973110109359,
      "learning_rate": 4.405777777777778e-06,
      "loss": 2.4678,
      "step": 30175
    },
    {
      "epoch": 0.604,
      "grad_norm": 1.956081761000755,
      "learning_rate": 4.400222222222223e-06,
      "loss": 2.4745,
      "step": 30200
    },
    {
      "epoch": 0.604,
      "eval_loss": 2.485727071762085,
      "eval_runtime": 42.1046,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 30200
    },
    {
      "epoch": 0.6045,
      "grad_norm": 1.603430801893749,
      "learning_rate": 4.394666666666667e-06,
      "loss": 2.4876,
      "step": 30225
    },
    {
      "epoch": 0.605,
      "grad_norm": 1.5334285627580315,
      "learning_rate": 4.3891111111111115e-06,
      "loss": 2.4724,
      "step": 30250
    },
    {
      "epoch": 0.6055,
      "grad_norm": 1.7608729731617387,
      "learning_rate": 4.383555555555556e-06,
      "loss": 2.4754,
      "step": 30275
    },
    {
      "epoch": 0.606,
      "grad_norm": 1.8712589852356083,
      "learning_rate": 4.378e-06,
      "loss": 2.4793,
      "step": 30300
    },
    {
      "epoch": 0.606,
      "eval_loss": 2.486628532409668,
      "eval_runtime": 43.5849,
      "eval_samples_per_second": 2.386,
      "eval_steps_per_second": 1.193,
      "step": 30300
    },
    {
      "epoch": 0.6065,
      "grad_norm": 1.7060470923405102,
      "learning_rate": 4.372444444444445e-06,
      "loss": 2.4569,
      "step": 30325
    },
    {
      "epoch": 0.607,
      "grad_norm": 1.5022192471123261,
      "learning_rate": 4.366888888888889e-06,
      "loss": 2.4783,
      "step": 30350
    },
    {
      "epoch": 0.6075,
      "grad_norm": 1.6717727978531816,
      "learning_rate": 4.3613333333333335e-06,
      "loss": 2.4758,
      "step": 30375
    },
    {
      "epoch": 0.608,
      "grad_norm": 1.734634160327077,
      "learning_rate": 4.355777777777778e-06,
      "loss": 2.4772,
      "step": 30400
    },
    {
      "epoch": 0.608,
      "eval_loss": 2.485501766204834,
      "eval_runtime": 42.1256,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.234,
      "step": 30400
    },
    {
      "epoch": 0.6085,
      "grad_norm": 1.7493154856727322,
      "learning_rate": 4.350222222222222e-06,
      "loss": 2.4751,
      "step": 30425
    },
    {
      "epoch": 0.609,
      "grad_norm": 1.5877904330263624,
      "learning_rate": 4.344666666666667e-06,
      "loss": 2.4462,
      "step": 30450
    },
    {
      "epoch": 0.6095,
      "grad_norm": 1.4578011689281005,
      "learning_rate": 4.339111111111112e-06,
      "loss": 2.4824,
      "step": 30475
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3552911058722454,
      "learning_rate": 4.3335555555555555e-06,
      "loss": 2.4808,
      "step": 30500
    },
    {
      "epoch": 0.61,
      "eval_loss": 2.486253023147583,
      "eval_runtime": 42.188,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.233,
      "step": 30500
    },
    {
      "epoch": 0.6105,
      "grad_norm": 2.060073565715071,
      "learning_rate": 4.328000000000001e-06,
      "loss": 2.4748,
      "step": 30525
    },
    {
      "epoch": 0.611,
      "grad_norm": 1.447926721619049,
      "learning_rate": 4.322444444444444e-06,
      "loss": 2.4763,
      "step": 30550
    },
    {
      "epoch": 0.6115,
      "grad_norm": 1.5033001492059606,
      "learning_rate": 4.3168888888888896e-06,
      "loss": 2.4645,
      "step": 30575
    },
    {
      "epoch": 0.612,
      "grad_norm": 1.6499789765068815,
      "learning_rate": 4.311333333333333e-06,
      "loss": 2.4728,
      "step": 30600
    },
    {
      "epoch": 0.612,
      "eval_loss": 2.485501766204834,
      "eval_runtime": 41.9761,
      "eval_samples_per_second": 2.478,
      "eval_steps_per_second": 1.239,
      "step": 30600
    },
    {
      "epoch": 0.6125,
      "grad_norm": 1.4931271554588332,
      "learning_rate": 4.305777777777778e-06,
      "loss": 2.4814,
      "step": 30625
    },
    {
      "epoch": 0.613,
      "grad_norm": 1.9495982730733266,
      "learning_rate": 4.300222222222222e-06,
      "loss": 2.4838,
      "step": 30650
    },
    {
      "epoch": 0.6135,
      "grad_norm": 1.635207590752219,
      "learning_rate": 4.294666666666667e-06,
      "loss": 2.475,
      "step": 30675
    },
    {
      "epoch": 0.614,
      "grad_norm": 1.4154168088229238,
      "learning_rate": 4.2891111111111116e-06,
      "loss": 2.4689,
      "step": 30700
    },
    {
      "epoch": 0.614,
      "eval_loss": 2.485651969909668,
      "eval_runtime": 42.1996,
      "eval_samples_per_second": 2.464,
      "eval_steps_per_second": 1.232,
      "step": 30700
    },
    {
      "epoch": 0.6145,
      "grad_norm": 1.4985508418161717,
      "learning_rate": 4.283555555555556e-06,
      "loss": 2.4772,
      "step": 30725
    },
    {
      "epoch": 0.615,
      "grad_norm": 1.2707886506878494,
      "learning_rate": 4.278e-06,
      "loss": 2.4708,
      "step": 30750
    },
    {
      "epoch": 0.6155,
      "grad_norm": 1.4151077653467254,
      "learning_rate": 4.272444444444445e-06,
      "loss": 2.4822,
      "step": 30775
    },
    {
      "epoch": 0.616,
      "grad_norm": 1.423746218176306,
      "learning_rate": 4.266888888888889e-06,
      "loss": 2.4828,
      "step": 30800
    },
    {
      "epoch": 0.616,
      "eval_loss": 2.485501766204834,
      "eval_runtime": 42.3551,
      "eval_samples_per_second": 2.455,
      "eval_steps_per_second": 1.228,
      "step": 30800
    },
    {
      "epoch": 0.6165,
      "grad_norm": 1.4458909542199019,
      "learning_rate": 4.261333333333334e-06,
      "loss": 2.4762,
      "step": 30825
    },
    {
      "epoch": 0.617,
      "grad_norm": 1.5880532739491289,
      "learning_rate": 4.255777777777778e-06,
      "loss": 2.4803,
      "step": 30850
    },
    {
      "epoch": 0.6175,
      "grad_norm": 2.4443842480629816,
      "learning_rate": 4.250222222222222e-06,
      "loss": 2.488,
      "step": 30875
    },
    {
      "epoch": 0.618,
      "grad_norm": 5.61725602842503,
      "learning_rate": 4.244666666666667e-06,
      "loss": 2.4752,
      "step": 30900
    },
    {
      "epoch": 0.618,
      "eval_loss": 2.484750509262085,
      "eval_runtime": 42.0925,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 30900
    },
    {
      "epoch": 0.6185,
      "grad_norm": 1.4243877026937541,
      "learning_rate": 4.239111111111111e-06,
      "loss": 2.4756,
      "step": 30925
    },
    {
      "epoch": 0.619,
      "grad_norm": 1.492699861323024,
      "learning_rate": 4.233555555555556e-06,
      "loss": 2.4755,
      "step": 30950
    },
    {
      "epoch": 0.6195,
      "grad_norm": 1.8791602341023086,
      "learning_rate": 4.228000000000001e-06,
      "loss": 2.4629,
      "step": 30975
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.126266168037376,
      "learning_rate": 4.222444444444444e-06,
      "loss": 2.4905,
      "step": 31000
    },
    {
      "epoch": 0.62,
      "eval_loss": 2.484750509262085,
      "eval_runtime": 42.0632,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 31000
    },
    {
      "epoch": 0.6205,
      "grad_norm": 1.544412670097646,
      "learning_rate": 4.21688888888889e-06,
      "loss": 2.4747,
      "step": 31025
    },
    {
      "epoch": 0.621,
      "grad_norm": 1.9311709411804565,
      "learning_rate": 4.211333333333334e-06,
      "loss": 2.4643,
      "step": 31050
    },
    {
      "epoch": 0.6215,
      "grad_norm": 4.825731940761232,
      "learning_rate": 4.2057777777777785e-06,
      "loss": 2.4753,
      "step": 31075
    },
    {
      "epoch": 0.622,
      "grad_norm": 1.636964322857149,
      "learning_rate": 4.200222222222223e-06,
      "loss": 2.4705,
      "step": 31100
    },
    {
      "epoch": 0.622,
      "eval_loss": 2.483924388885498,
      "eval_runtime": 42.3031,
      "eval_samples_per_second": 2.458,
      "eval_steps_per_second": 1.229,
      "step": 31100
    },
    {
      "epoch": 0.6225,
      "grad_norm": 1.632378194662359,
      "learning_rate": 4.194666666666667e-06,
      "loss": 2.472,
      "step": 31125
    },
    {
      "epoch": 0.623,
      "grad_norm": 2.0880391084383514,
      "learning_rate": 4.189111111111112e-06,
      "loss": 2.4714,
      "step": 31150
    },
    {
      "epoch": 0.6235,
      "grad_norm": 1.5269172161281461,
      "learning_rate": 4.183555555555556e-06,
      "loss": 2.4748,
      "step": 31175
    },
    {
      "epoch": 0.624,
      "grad_norm": 2.109792020274929,
      "learning_rate": 4.1780000000000005e-06,
      "loss": 2.4743,
      "step": 31200
    },
    {
      "epoch": 0.624,
      "eval_loss": 2.484750509262085,
      "eval_runtime": 42.2986,
      "eval_samples_per_second": 2.459,
      "eval_steps_per_second": 1.229,
      "step": 31200
    },
    {
      "epoch": 0.6245,
      "grad_norm": 1.4816258356992527,
      "learning_rate": 4.172444444444445e-06,
      "loss": 2.4743,
      "step": 31225
    },
    {
      "epoch": 0.625,
      "grad_norm": 1.37972967522391,
      "learning_rate": 4.166888888888889e-06,
      "loss": 2.4714,
      "step": 31250
    },
    {
      "epoch": 0.6255,
      "grad_norm": 1.4336233022769924,
      "learning_rate": 4.161333333333334e-06,
      "loss": 2.4778,
      "step": 31275
    },
    {
      "epoch": 0.626,
      "grad_norm": 1.6838965431790345,
      "learning_rate": 4.155777777777778e-06,
      "loss": 2.4951,
      "step": 31300
    },
    {
      "epoch": 0.626,
      "eval_loss": 2.483623743057251,
      "eval_runtime": 42.04,
      "eval_samples_per_second": 2.474,
      "eval_steps_per_second": 1.237,
      "step": 31300
    },
    {
      "epoch": 0.6265,
      "grad_norm": 1.4411923680476049,
      "learning_rate": 4.1502222222222225e-06,
      "loss": 2.4808,
      "step": 31325
    },
    {
      "epoch": 0.627,
      "grad_norm": 1.340583425349953,
      "learning_rate": 4.144666666666667e-06,
      "loss": 2.4744,
      "step": 31350
    },
    {
      "epoch": 0.6275,
      "grad_norm": 1.8067018813266775,
      "learning_rate": 4.139111111111111e-06,
      "loss": 2.4739,
      "step": 31375
    },
    {
      "epoch": 0.628,
      "grad_norm": 2.4369081944518367,
      "learning_rate": 4.133555555555556e-06,
      "loss": 2.4535,
      "step": 31400
    },
    {
      "epoch": 0.628,
      "eval_loss": 2.485501766204834,
      "eval_runtime": 42.1565,
      "eval_samples_per_second": 2.467,
      "eval_steps_per_second": 1.233,
      "step": 31400
    },
    {
      "epoch": 0.6285,
      "grad_norm": 1.3329517644874571,
      "learning_rate": 4.128e-06,
      "loss": 2.4814,
      "step": 31425
    },
    {
      "epoch": 0.629,
      "grad_norm": 1.6121395591347443,
      "learning_rate": 4.122444444444445e-06,
      "loss": 2.4747,
      "step": 31450
    },
    {
      "epoch": 0.6295,
      "grad_norm": 1.5167278785252103,
      "learning_rate": 4.116888888888889e-06,
      "loss": 2.4868,
      "step": 31475
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.8335493249923651,
      "learning_rate": 4.111333333333334e-06,
      "loss": 2.4742,
      "step": 31500
    },
    {
      "epoch": 0.63,
      "eval_loss": 2.484149694442749,
      "eval_runtime": 45.2737,
      "eval_samples_per_second": 2.297,
      "eval_steps_per_second": 1.149,
      "step": 31500
    },
    {
      "epoch": 0.6305,
      "grad_norm": 1.6250039703421142,
      "learning_rate": 4.105777777777778e-06,
      "loss": 2.4666,
      "step": 31525
    },
    {
      "epoch": 0.631,
      "grad_norm": 1.5451070248388452,
      "learning_rate": 4.100222222222223e-06,
      "loss": 2.4643,
      "step": 31550
    },
    {
      "epoch": 0.6315,
      "grad_norm": 1.420651201119955,
      "learning_rate": 4.0946666666666665e-06,
      "loss": 2.4708,
      "step": 31575
    },
    {
      "epoch": 0.632,
      "grad_norm": 1.436162434558318,
      "learning_rate": 4.089111111111112e-06,
      "loss": 2.486,
      "step": 31600
    },
    {
      "epoch": 0.632,
      "eval_loss": 2.485201358795166,
      "eval_runtime": 41.9692,
      "eval_samples_per_second": 2.478,
      "eval_steps_per_second": 1.239,
      "step": 31600
    },
    {
      "epoch": 0.6325,
      "grad_norm": 2.714949151613072,
      "learning_rate": 4.083555555555556e-06,
      "loss": 2.4698,
      "step": 31625
    },
    {
      "epoch": 0.633,
      "grad_norm": 1.2561430253727184,
      "learning_rate": 4.078000000000001e-06,
      "loss": 2.4752,
      "step": 31650
    },
    {
      "epoch": 0.6335,
      "grad_norm": 1.4622294209185565,
      "learning_rate": 4.072444444444445e-06,
      "loss": 2.4915,
      "step": 31675
    },
    {
      "epoch": 0.634,
      "grad_norm": 1.7992866052524354,
      "learning_rate": 4.066888888888889e-06,
      "loss": 2.4651,
      "step": 31700
    },
    {
      "epoch": 0.634,
      "eval_loss": 2.484299898147583,
      "eval_runtime": 41.9791,
      "eval_samples_per_second": 2.477,
      "eval_steps_per_second": 1.239,
      "step": 31700
    },
    {
      "epoch": 0.6345,
      "grad_norm": 1.7248166300488759,
      "learning_rate": 4.061333333333334e-06,
      "loss": 2.4822,
      "step": 31725
    },
    {
      "epoch": 0.635,
      "grad_norm": 1.3349458578918931,
      "learning_rate": 4.055777777777778e-06,
      "loss": 2.4758,
      "step": 31750
    },
    {
      "epoch": 0.6355,
      "grad_norm": 1.955781031173759,
      "learning_rate": 4.050222222222223e-06,
      "loss": 2.4818,
      "step": 31775
    },
    {
      "epoch": 0.636,
      "grad_norm": 1.7362473866253585,
      "learning_rate": 4.044666666666667e-06,
      "loss": 2.4648,
      "step": 31800
    },
    {
      "epoch": 0.636,
      "eval_loss": 2.482797384262085,
      "eval_runtime": 41.9738,
      "eval_samples_per_second": 2.478,
      "eval_steps_per_second": 1.239,
      "step": 31800
    },
    {
      "epoch": 0.6365,
      "grad_norm": 1.3146273082311304,
      "learning_rate": 4.039111111111111e-06,
      "loss": 2.4716,
      "step": 31825
    },
    {
      "epoch": 0.637,
      "grad_norm": 2.298473435950379,
      "learning_rate": 4.033555555555556e-06,
      "loss": 2.472,
      "step": 31850
    },
    {
      "epoch": 0.6375,
      "grad_norm": 1.7480418119175034,
      "learning_rate": 4.028e-06,
      "loss": 2.4696,
      "step": 31875
    },
    {
      "epoch": 0.638,
      "grad_norm": 1.379978135620256,
      "learning_rate": 4.022444444444445e-06,
      "loss": 2.4692,
      "step": 31900
    },
    {
      "epoch": 0.638,
      "eval_loss": 2.483173131942749,
      "eval_runtime": 41.9988,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 31900
    },
    {
      "epoch": 0.6385,
      "grad_norm": 1.5485854743331453,
      "learning_rate": 4.016888888888889e-06,
      "loss": 2.4771,
      "step": 31925
    },
    {
      "epoch": 0.639,
      "grad_norm": 1.6850364848937522,
      "learning_rate": 4.0113333333333334e-06,
      "loss": 2.4724,
      "step": 31950
    },
    {
      "epoch": 0.6395,
      "grad_norm": 1.49136654554651,
      "learning_rate": 4.005777777777778e-06,
      "loss": 2.4693,
      "step": 31975
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6149342256899533,
      "learning_rate": 4.000222222222222e-06,
      "loss": 2.4669,
      "step": 32000
    },
    {
      "epoch": 0.64,
      "eval_loss": 2.483022928237915,
      "eval_runtime": 41.9889,
      "eval_samples_per_second": 2.477,
      "eval_steps_per_second": 1.238,
      "step": 32000
    },
    {
      "epoch": 0.6405,
      "grad_norm": 1.5964027460593244,
      "learning_rate": 3.9946666666666675e-06,
      "loss": 2.4683,
      "step": 32025
    },
    {
      "epoch": 0.641,
      "grad_norm": 1.5220329336528915,
      "learning_rate": 3.989111111111111e-06,
      "loss": 2.4735,
      "step": 32050
    },
    {
      "epoch": 0.6415,
      "grad_norm": 1.4398711084486528,
      "learning_rate": 3.983555555555556e-06,
      "loss": 2.4536,
      "step": 32075
    },
    {
      "epoch": 0.642,
      "grad_norm": 1.9132004846230761,
      "learning_rate": 3.978e-06,
      "loss": 2.4699,
      "step": 32100
    },
    {
      "epoch": 0.642,
      "eval_loss": 2.483698844909668,
      "eval_runtime": 42.0046,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 32100
    },
    {
      "epoch": 0.6425,
      "grad_norm": 1.5780905217178762,
      "learning_rate": 3.972444444444445e-06,
      "loss": 2.474,
      "step": 32125
    },
    {
      "epoch": 0.643,
      "grad_norm": 1.7027576262919542,
      "learning_rate": 3.966888888888889e-06,
      "loss": 2.4775,
      "step": 32150
    },
    {
      "epoch": 0.6435,
      "grad_norm": 1.641958489998309,
      "learning_rate": 3.961333333333334e-06,
      "loss": 2.4713,
      "step": 32175
    },
    {
      "epoch": 0.644,
      "grad_norm": 1.6743879743601757,
      "learning_rate": 3.9557777777777775e-06,
      "loss": 2.4697,
      "step": 32200
    },
    {
      "epoch": 0.644,
      "eval_loss": 2.483248233795166,
      "eval_runtime": 42.1968,
      "eval_samples_per_second": 2.465,
      "eval_steps_per_second": 1.232,
      "step": 32200
    },
    {
      "epoch": 0.6445,
      "grad_norm": 1.4023515167221907,
      "learning_rate": 3.950222222222223e-06,
      "loss": 2.4798,
      "step": 32225
    },
    {
      "epoch": 0.645,
      "grad_norm": 1.4833287982612222,
      "learning_rate": 3.944666666666667e-06,
      "loss": 2.4612,
      "step": 32250
    },
    {
      "epoch": 0.6455,
      "grad_norm": 1.542659037043143,
      "learning_rate": 3.9391111111111115e-06,
      "loss": 2.4742,
      "step": 32275
    },
    {
      "epoch": 0.646,
      "grad_norm": 1.800735609896326,
      "learning_rate": 3.933555555555556e-06,
      "loss": 2.4752,
      "step": 32300
    },
    {
      "epoch": 0.646,
      "eval_loss": 2.482496976852417,
      "eval_runtime": 42.1748,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 32300
    },
    {
      "epoch": 0.6465,
      "grad_norm": 1.5250591743651154,
      "learning_rate": 3.928e-06,
      "loss": 2.4712,
      "step": 32325
    },
    {
      "epoch": 0.647,
      "grad_norm": 2.1919496246080294,
      "learning_rate": 3.922444444444445e-06,
      "loss": 2.4871,
      "step": 32350
    },
    {
      "epoch": 0.6475,
      "grad_norm": 1.272185758660925,
      "learning_rate": 3.916888888888889e-06,
      "loss": 2.4792,
      "step": 32375
    },
    {
      "epoch": 0.648,
      "grad_norm": 1.8111989483942204,
      "learning_rate": 3.9113333333333335e-06,
      "loss": 2.4608,
      "step": 32400
    },
    {
      "epoch": 0.648,
      "eval_loss": 2.482271671295166,
      "eval_runtime": 42.1155,
      "eval_samples_per_second": 2.469,
      "eval_steps_per_second": 1.235,
      "step": 32400
    },
    {
      "epoch": 0.6485,
      "grad_norm": 1.4475959573773247,
      "learning_rate": 3.905777777777778e-06,
      "loss": 2.4662,
      "step": 32425
    },
    {
      "epoch": 0.649,
      "grad_norm": 1.4849710379191874,
      "learning_rate": 3.900222222222222e-06,
      "loss": 2.4814,
      "step": 32450
    },
    {
      "epoch": 0.6495,
      "grad_norm": 1.5247191952168713,
      "learning_rate": 3.894666666666667e-06,
      "loss": 2.472,
      "step": 32475
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.532910028978943,
      "learning_rate": 3.889111111111111e-06,
      "loss": 2.4648,
      "step": 32500
    },
    {
      "epoch": 0.65,
      "eval_loss": 2.481895923614502,
      "eval_runtime": 41.9348,
      "eval_samples_per_second": 2.48,
      "eval_steps_per_second": 1.24,
      "step": 32500
    },
    {
      "epoch": 0.6505,
      "grad_norm": 1.500430751815565,
      "learning_rate": 3.8835555555555556e-06,
      "loss": 2.4719,
      "step": 32525
    },
    {
      "epoch": 0.651,
      "grad_norm": 1.437073774166942,
      "learning_rate": 3.878e-06,
      "loss": 2.4682,
      "step": 32550
    },
    {
      "epoch": 0.6515,
      "grad_norm": 1.639351627638608,
      "learning_rate": 3.872444444444444e-06,
      "loss": 2.4807,
      "step": 32575
    },
    {
      "epoch": 0.652,
      "grad_norm": 1.4750591452140964,
      "learning_rate": 3.86688888888889e-06,
      "loss": 2.4664,
      "step": 32600
    },
    {
      "epoch": 0.652,
      "eval_loss": 2.481670618057251,
      "eval_runtime": 42.1681,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 32600
    },
    {
      "epoch": 0.6525,
      "grad_norm": 1.3730681446653121,
      "learning_rate": 3.861333333333333e-06,
      "loss": 2.4686,
      "step": 32625
    },
    {
      "epoch": 0.653,
      "grad_norm": 1.2987224310655452,
      "learning_rate": 3.8557777777777784e-06,
      "loss": 2.4776,
      "step": 32650
    },
    {
      "epoch": 0.6535,
      "grad_norm": 1.6227469402115582,
      "learning_rate": 3.850222222222223e-06,
      "loss": 2.4707,
      "step": 32675
    },
    {
      "epoch": 0.654,
      "grad_norm": 1.4495589905243202,
      "learning_rate": 3.844666666666667e-06,
      "loss": 2.4672,
      "step": 32700
    },
    {
      "epoch": 0.654,
      "eval_loss": 2.481670618057251,
      "eval_runtime": 42.0217,
      "eval_samples_per_second": 2.475,
      "eval_steps_per_second": 1.237,
      "step": 32700
    },
    {
      "epoch": 0.6545,
      "grad_norm": 1.549279826508271,
      "learning_rate": 3.839111111111112e-06,
      "loss": 2.4846,
      "step": 32725
    },
    {
      "epoch": 0.655,
      "grad_norm": 1.5518276745785957,
      "learning_rate": 3.833555555555556e-06,
      "loss": 2.4747,
      "step": 32750
    },
    {
      "epoch": 0.6555,
      "grad_norm": 1.5237493777063225,
      "learning_rate": 3.8280000000000004e-06,
      "loss": 2.4752,
      "step": 32775
    },
    {
      "epoch": 0.656,
      "grad_norm": 1.4029570120392971,
      "learning_rate": 3.822444444444445e-06,
      "loss": 2.4719,
      "step": 32800
    },
    {
      "epoch": 0.656,
      "eval_loss": 2.481670618057251,
      "eval_runtime": 42.0575,
      "eval_samples_per_second": 2.473,
      "eval_steps_per_second": 1.236,
      "step": 32800
    },
    {
      "epoch": 0.6565,
      "grad_norm": 1.4371598211799723,
      "learning_rate": 3.816888888888889e-06,
      "loss": 2.4615,
      "step": 32825
    },
    {
      "epoch": 0.657,
      "grad_norm": 1.5432879135776003,
      "learning_rate": 3.8113333333333337e-06,
      "loss": 2.4775,
      "step": 32850
    },
    {
      "epoch": 0.6575,
      "grad_norm": 1.4186745092631368,
      "learning_rate": 3.805777777777778e-06,
      "loss": 2.4735,
      "step": 32875
    },
    {
      "epoch": 0.658,
      "grad_norm": 1.368295845013935,
      "learning_rate": 3.8002222222222225e-06,
      "loss": 2.4716,
      "step": 32900
    },
    {
      "epoch": 0.658,
      "eval_loss": 2.481971263885498,
      "eval_runtime": 42.1136,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 32900
    },
    {
      "epoch": 0.6585,
      "grad_norm": 1.463758928679139,
      "learning_rate": 3.794666666666667e-06,
      "loss": 2.4675,
      "step": 32925
    },
    {
      "epoch": 0.659,
      "grad_norm": 1.4735638874679422,
      "learning_rate": 3.7891111111111113e-06,
      "loss": 2.4719,
      "step": 32950
    },
    {
      "epoch": 0.6595,
      "grad_norm": 1.5546374477851561,
      "learning_rate": 3.7835555555555557e-06,
      "loss": 2.4594,
      "step": 32975
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4363086273927654,
      "learning_rate": 3.7780000000000005e-06,
      "loss": 2.4828,
      "step": 33000
    },
    {
      "epoch": 0.66,
      "eval_loss": 2.480618953704834,
      "eval_runtime": 42.0894,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 33000
    },
    {
      "epoch": 0.6605,
      "grad_norm": 1.4210561637451704,
      "learning_rate": 3.7724444444444445e-06,
      "loss": 2.4701,
      "step": 33025
    },
    {
      "epoch": 0.661,
      "grad_norm": 2.1617711578734915,
      "learning_rate": 3.7668888888888893e-06,
      "loss": 2.4788,
      "step": 33050
    },
    {
      "epoch": 0.6615,
      "grad_norm": 1.5320070011690634,
      "learning_rate": 3.7613333333333333e-06,
      "loss": 2.47,
      "step": 33075
    },
    {
      "epoch": 0.662,
      "grad_norm": 1.3400391346818974,
      "learning_rate": 3.755777777777778e-06,
      "loss": 2.4792,
      "step": 33100
    },
    {
      "epoch": 0.662,
      "eval_loss": 2.481220006942749,
      "eval_runtime": 41.9988,
      "eval_samples_per_second": 2.476,
      "eval_steps_per_second": 1.238,
      "step": 33100
    },
    {
      "epoch": 0.6625,
      "grad_norm": 1.769214182110644,
      "learning_rate": 3.7502222222222225e-06,
      "loss": 2.4669,
      "step": 33125
    },
    {
      "epoch": 0.663,
      "grad_norm": 1.4499877924560598,
      "learning_rate": 3.744666666666667e-06,
      "loss": 2.47,
      "step": 33150
    },
    {
      "epoch": 0.6635,
      "grad_norm": 1.2272721031062317,
      "learning_rate": 3.7391111111111118e-06,
      "loss": 2.4808,
      "step": 33175
    },
    {
      "epoch": 0.664,
      "grad_norm": 1.9524804604619508,
      "learning_rate": 3.7335555555555557e-06,
      "loss": 2.4855,
      "step": 33200
    },
    {
      "epoch": 0.664,
      "eval_loss": 2.481595516204834,
      "eval_runtime": 42.0663,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 33200
    },
    {
      "epoch": 0.6645,
      "grad_norm": 1.5855882612813827,
      "learning_rate": 3.7280000000000006e-06,
      "loss": 2.4839,
      "step": 33225
    },
    {
      "epoch": 0.665,
      "grad_norm": 1.7981131055660284,
      "learning_rate": 3.7224444444444445e-06,
      "loss": 2.4831,
      "step": 33250
    },
    {
      "epoch": 0.6655,
      "grad_norm": 1.8893217376664102,
      "learning_rate": 3.7168888888888894e-06,
      "loss": 2.4689,
      "step": 33275
    },
    {
      "epoch": 0.666,
      "grad_norm": 1.5504407193892469,
      "learning_rate": 3.7113333333333333e-06,
      "loss": 2.4748,
      "step": 33300
    },
    {
      "epoch": 0.666,
      "eval_loss": 2.480543851852417,
      "eval_runtime": 42.0898,
      "eval_samples_per_second": 2.471,
      "eval_steps_per_second": 1.235,
      "step": 33300
    },
    {
      "epoch": 0.6665,
      "grad_norm": 1.7468260304964456,
      "learning_rate": 3.705777777777778e-06,
      "loss": 2.478,
      "step": 33325
    },
    {
      "epoch": 0.667,
      "grad_norm": 1.527950475107732,
      "learning_rate": 3.700222222222222e-06,
      "loss": 2.476,
      "step": 33350
    },
    {
      "epoch": 0.6675,
      "grad_norm": 1.6583388548480227,
      "learning_rate": 3.694666666666667e-06,
      "loss": 2.4675,
      "step": 33375
    },
    {
      "epoch": 0.668,
      "grad_norm": 1.5937276979972617,
      "learning_rate": 3.689111111111112e-06,
      "loss": 2.471,
      "step": 33400
    },
    {
      "epoch": 0.668,
      "eval_loss": 2.48046875,
      "eval_runtime": 41.9774,
      "eval_samples_per_second": 2.478,
      "eval_steps_per_second": 1.239,
      "step": 33400
    },
    {
      "epoch": 0.6685,
      "grad_norm": 1.4618192489732302,
      "learning_rate": 3.6835555555555558e-06,
      "loss": 2.4687,
      "step": 33425
    },
    {
      "epoch": 0.669,
      "grad_norm": 1.686028538338107,
      "learning_rate": 3.6780000000000006e-06,
      "loss": 2.4859,
      "step": 33450
    },
    {
      "epoch": 0.6695,
      "grad_norm": 1.352022736772511,
      "learning_rate": 3.6724444444444446e-06,
      "loss": 2.4611,
      "step": 33475
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.9063367987545683,
      "learning_rate": 3.6668888888888894e-06,
      "loss": 2.4724,
      "step": 33500
    },
    {
      "epoch": 0.67,
      "eval_loss": 2.480919361114502,
      "eval_runtime": 42.1121,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.235,
      "step": 33500
    },
    {
      "epoch": 0.6705,
      "grad_norm": 1.441673290204565,
      "learning_rate": 3.6613333333333334e-06,
      "loss": 2.4663,
      "step": 33525
    },
    {
      "epoch": 0.671,
      "grad_norm": 1.5853407892539593,
      "learning_rate": 3.6557777777777782e-06,
      "loss": 2.4595,
      "step": 33550
    },
    {
      "epoch": 0.6715,
      "grad_norm": 1.5822227773393136,
      "learning_rate": 3.6502222222222226e-06,
      "loss": 2.4752,
      "step": 33575
    },
    {
      "epoch": 0.672,
      "grad_norm": 1.4559128373290389,
      "learning_rate": 3.644666666666667e-06,
      "loss": 2.4839,
      "step": 33600
    },
    {
      "epoch": 0.672,
      "eval_loss": 2.480393648147583,
      "eval_runtime": 43.6412,
      "eval_samples_per_second": 2.383,
      "eval_steps_per_second": 1.192,
      "step": 33600
    },
    {
      "epoch": 0.6725,
      "grad_norm": 1.532302660160229,
      "learning_rate": 3.6391111111111114e-06,
      "loss": 2.4842,
      "step": 33625
    },
    {
      "epoch": 0.673,
      "grad_norm": 1.8197828444753166,
      "learning_rate": 3.633555555555556e-06,
      "loss": 2.4769,
      "step": 33650
    },
    {
      "epoch": 0.6735,
      "grad_norm": 1.5577840126586067,
      "learning_rate": 3.6280000000000002e-06,
      "loss": 2.4755,
      "step": 33675
    },
    {
      "epoch": 0.674,
      "grad_norm": 1.8234890351489574,
      "learning_rate": 3.6224444444444447e-06,
      "loss": 2.4763,
      "step": 33700
    },
    {
      "epoch": 0.674,
      "eval_loss": 2.480318546295166,
      "eval_runtime": 42.0675,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 33700
    },
    {
      "epoch": 0.6745,
      "grad_norm": 1.580558693036695,
      "learning_rate": 3.616888888888889e-06,
      "loss": 2.4674,
      "step": 33725
    },
    {
      "epoch": 0.675,
      "grad_norm": 1.8364115704619381,
      "learning_rate": 3.6113333333333335e-06,
      "loss": 2.468,
      "step": 33750
    },
    {
      "epoch": 0.6755,
      "grad_norm": 1.441698909778923,
      "learning_rate": 3.605777777777778e-06,
      "loss": 2.4705,
      "step": 33775
    },
    {
      "epoch": 0.676,
      "grad_norm": 1.6076672764771844,
      "learning_rate": 3.6002222222222227e-06,
      "loss": 2.4667,
      "step": 33800
    },
    {
      "epoch": 0.676,
      "eval_loss": 2.480243444442749,
      "eval_runtime": 42.1706,
      "eval_samples_per_second": 2.466,
      "eval_steps_per_second": 1.233,
      "step": 33800
    },
    {
      "epoch": 0.6765,
      "grad_norm": 1.449175055825869,
      "learning_rate": 3.5946666666666667e-06,
      "loss": 2.4666,
      "step": 33825
    },
    {
      "epoch": 0.677,
      "grad_norm": 1.3909591726588006,
      "learning_rate": 3.5891111111111115e-06,
      "loss": 2.4654,
      "step": 33850
    },
    {
      "epoch": 0.6775,
      "grad_norm": 2.238175776696452,
      "learning_rate": 3.5835555555555555e-06,
      "loss": 2.4774,
      "step": 33875
    },
    {
      "epoch": 0.678,
      "grad_norm": 1.4514072202089707,
      "learning_rate": 3.5780000000000003e-06,
      "loss": 2.4641,
      "step": 33900
    },
    {
      "epoch": 0.678,
      "eval_loss": 2.480393648147583,
      "eval_runtime": 42.0258,
      "eval_samples_per_second": 2.475,
      "eval_steps_per_second": 1.237,
      "step": 33900
    },
    {
      "epoch": 0.6785,
      "grad_norm": 1.5826502787680072,
      "learning_rate": 3.5724444444444443e-06,
      "loss": 2.4659,
      "step": 33925
    },
    {
      "epoch": 0.679,
      "grad_norm": 1.6232233026873348,
      "learning_rate": 3.566888888888889e-06,
      "loss": 2.4767,
      "step": 33950
    },
    {
      "epoch": 0.6795,
      "grad_norm": 1.4754806955160604,
      "learning_rate": 3.561333333333334e-06,
      "loss": 2.4734,
      "step": 33975
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.605195867452613,
      "learning_rate": 3.555777777777778e-06,
      "loss": 2.4667,
      "step": 34000
    },
    {
      "epoch": 0.68,
      "eval_loss": 2.479717493057251,
      "eval_runtime": 42.0643,
      "eval_samples_per_second": 2.472,
      "eval_steps_per_second": 1.236,
      "step": 34000
    }
  ],
  "logging_steps": 25,
  "max_steps": 50000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 7.630345833004243e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}